专利 一种面向教育考试的跨域图匹配实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210180038.6 (22)申请日 2022.02.25 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号申请人广州启辰电子科技有限公司 (72)发明人马千里　郑俊豪　郑彦魁　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师黄卫萍 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 50/20(2012.01) (54)发明名称一种面向教育考试的跨域图匹配实体识别方法 (57)摘要本发明公开了一种面向教育考试的跨域图匹配实体识别方法，步骤如下：获取源域命名实体识别数据集，使用源域命名实体识别数据集训练深度神经网络模型得到源域模型；获取带有实体类别标注的教育考试文本数据；利用训练好的源域模型构建目标域模型；把教育考试文本数据输入源域模型和目标域模型分别计算得到源域图和目标域图；利用教育考试文本数据、源域图和目标域图训练目标域模型，训练完成的目标域模型可用于教育考试文本实体识别。该方法利用迁移学习的优势，把模型在数据充足的任务下学习到的知识有效地迁移到带实体类别标注数据较为稀缺的教育考试文本实体识别任务中，提升了对教育考试文本实体识别的准确率。权利要求书4页说明书14页附图2页 CN 114580415 A 2022.06.03 CN 114580415 A 1.一种面向教育考试的跨域图匹配实体识别方法，其特征在于，所述跨域图匹配实体识别方法包括以下步骤： S1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集，并去除其中包含缺失值的语句； S2、利用步骤S1源域命名实体识别数据集训练深度神经网络模型得到源域模型； S3、获取带有实体标签的教育考试文本数据，并去除其中包含缺失值的语句； S4、利用步骤S2中获得的源域模型构建目标域模型； S5、把步骤S3中获得的教育考试文本数据输入步骤S2中获得的源域模型和步骤S4中获得的目标域模型分别计算得到源域图和目标域图； S6、利用步骤S3中获得的教育考试文本数据和步骤S5中获得的源域图和目标域图来训练目标域模型，将经过训练的目标域模型用于教育考试实体识别； S7、输入步骤S3中获得的教育考试文本数据到经过训练的目标域模型，得到目标域模型对教育考试文本数据实体识别的结果。 2.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法，其特征在于，所述深度神经网络模型包括特征编码器和全连接层，其中，所述特征编码器为预训练语言模型BERT，由12层Transformer单元和12层多头注意力组成，把特征编码器记作函数g()，定义如下： E＝g(X) 其中是文本，表示第ix个单词， Nt为单词个数，是文本特征嵌入， dh是文本特征嵌入的维度， dh设为768，表示实数域；所述全连接层的计算公式如下： Os＝EWs+bs 其中为源域模型输出，与分别为源域模型全连接层的权重矩阵与偏置， Cs为源域命名实体识别数据集中实体类别的个数；所述深度神经网络模型记为函数f0()，定义如下： f0(X)＝Os＝EWs+bs＝g(X)Ws+bs。 3.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法，其特征在于，所述步骤S4中通过源域模型构建目标域模型的过程如下： S401、构建与所述源域模型具有相同参数的目标域模型； S402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数，其中，最后一层的全连接层的计算公式如下： Ot＝EWt+bt 其中为目标域模型输出，与分别为目标域模型全连接层的权重矩阵与偏置， Ct为教育考试文本数据中实体类别的个数；所述目标域模型记为函数f()，定义如下： f(X)＝Ot＝EWt+bt＝g(X)Wt+bt。 4.根据权利要求1所述的一种面向教育考试的跨域图匹配实体识别方法，其特征在于，所述步骤S5中源域图和目标域图生成过程如下：权　利　要　求　书 1/4 页 2 CN 114580415 A 2S501、给定教育考试文本数据利用步骤S2中获得的源域模型，计算类别之间的后验概率ps(ys|yt)：其中， ys和yt分别表示源域命名实体识别数据集和教育考试文本数据的类别，为中所有实体类别为y的样本， xi和yi表示中第i个样本的单词和实体标签，表示中样本的个数， f ’0()为调整输出平滑度后的源域模型， f’0()的定义如下：其中T为控制平滑度的超参数， e表示自然常数；表示源域模型对第i个样本第 Ks个类别的预测分数， Ks＝1， 2， ...， Cs；通过得到的后验概率ps(ys|yt)，构建源域图其中和 εs分别代表源域图的图节点和边集合，源域图中图节点定义为：其中和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合，分别表示中的第n个类别，和分别表示和中包含类别的个数，表示归一化前源域图类别yt的图节点， y1和y2是教育考试文本数据的任意两个类别，和表示归一化前源域图类别y1和y2的图节点，表示源域图类别yt的图节点，源域图中边定义为：其中表示源域图类别为y1和y2的图节点之间的边长，和分别表示源域图类别y1和y2的图节点，表示源域图图节点和的欧氏距离， δ为边长设定的阈值，边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边； S502、利用步骤S4中获得的目标域模型，计算类别之间的后验概率pt(yt1|yt2)：其中， yt1和yt2为教育考试文本数据的类别，为中所有实体类别为yt1的样本， xj和yj表示中第j个样本的单词和实体标签，表示权　利　要　求　书 2/4 页 3 CN 114580415 A 3

专利 一种面向教育考试的跨域图匹配实体识别方法

专利一种面向教育考试的跨域图匹配实体识别方法