专利一种基于多阶段迁移学习策略综合的众包文本集成方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210237867.3 (22)申请日 2022.03.11 (65)同一申请的已公布的文献号申请公布号 CN 114662659 A (43)申请公布日 2022.06.24 (73)专利权人南京信息工程大学地址 224002 江苏省盐城市盐南高新区新河街道文港南路10 5号 (72)发明人荣欢　于信　马廷淮　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师陆烨 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (56)对比文件 US 2019026 604 A1,2019.01.24 US 20213 03803 A1,2021.09.3 0 US 20183 59132 A1,2018.12.13 CN 107247972 A,2017.10.13 WO 2021190236 A1,2021.09.3 0 仲秋雁等.考虑工人参与意愿影响因素的竞争式众包任务推荐方法. 《系统工程理论与实践》 .2018,(第1 1期), 审查员纪青 (54)发明名称一种基于多阶段迁移学习策略综合的众包文本集成方法 (57)摘要本发明提供一种基于多阶段迁移学习策略综合的众包文本集成方法，具体为1、构建迁移式生成型众包文本集成模型TTGCIF； 2、获得源域文本数据集和目标域文本数据集的语义原型； 3、对语义原型进行词嵌入处理； 4、根据最大均值差异做数据分布对齐； 5、对TTGCIF进行语义原型转导模型训练； 6、将源域文本数据集处理为训练任务集； 7、将训练任务集输入到TTGCIF中进行领域快速适应模型训练； 8、将部分目标域文本数据集输入到TTGCIF中进行模型微调训练。通过以上过程，实现文本集成。本发明能够摒弃传统方法中对数据标签的需求，减少人力物力的浪费，对数据稀缺场景下进行众包文本集成的有着极大的促进作用。权利要求书3页说明书11页附图4页 CN 114662659 B 2022.09.16 CN 114662659 B 1.一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，包括如下步骤：步骤1：对Transformer模型进行改进：在Trans former模型中加入指针生成器网络和双向门控循环网络，并在Tr ansformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层；得到改进后的模型T TGCIF模型；步骤2：构建源域文本数据集和目标域文本数据集中的每个<众包原始文本，众包集成文本>的语义原型z， z＝[ xd,yd,ad]， x表示众包原始文本， y表示众包集成文本， a表示众包原始文上的语义注释文本； d∈{Source,Target}， Source表示源域， Target 表示目标域；步骤3：对z中每个文本做词嵌入处理：对xd和ad进行词嵌入处理得到和且的向量形式满足Transformer模型中编码器的格式要求，的向量形式满足双向门控循环网络的格式要求；对yd单独进行两次词嵌入处理，第一次词嵌入处理后得到的的向量形式满足双向门控循环网络的格式要求，第二次词嵌入处理后得到的的向量形式满足 Transformer模型中解码器的格式要求；步骤4：将输入到含有Sigmoid激活函数的全连接层进行转换，得到根据最大均值差异，对和进行数据分布对齐处理，得到对齐后的目标域众包原始文本步骤5：将输入到Transformer模型的编码器中，将或者输入到双向门控循环网络中，将输入到解码器中，对T TGCIF模型进行训练；步骤6：从N个源域中随机抽取K条语义原型，得到N*K条语义原型，将该N*K条语义原型作为训练任务数据集；将训练任务数据集中的一半数据划分为支持集，另一半数据划分为查询集；重复步骤6，直到源域的所有的语义原型都被抽取过，得到若干个训练任务数据集；步骤7：将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动，基于步骤5中训练好的TTGCIF模型参数，采用步骤6中的支持集和查询集对编码器和解码器进行训练；步骤8：对步骤7中训练好的编码器和解码器的参数进行调整，得到最终的T TGCIF模型；步骤9：将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中，得到对应的众包集成文本。 2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述步骤1中的解码器从输入至输出包括8个子层，双向门控循环网络的输出通过一个全连接层与解码器的第2个子层的输入端连接；指针生成器网络用于和Transformer 解码器共同计算生成概率。 3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述目标域的众包集成文本yTarget采用如下方法获得：将目标域的众包原始文本 xtarget的每个子句分成单词序列，按照子句中单词的数量，从高到低选择u个子句作为目标域的众包伪集成文本，也既yTarget； u为源域中每个众包集成文本长度除以源域中相应的众权　利　要　求　书 1/3 页 2 CN 114662659 B 2包原始文本长度的均值。 4.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述步骤4具体为，将和投射到再生核希尔伯特空间H中，得到在H中的表示X1Source，和在H中的表示X1Target；在核希尔伯特空间H中，基于如下公式训练含有Sigmo id激活函数的全连接层：其中， dis(.)表示计算距离，表示投射到H空间的中第i个数据的分布，表示投射到H空间的中第j个数据的分布； n1表示中数据的总个数， n2表示中数据的总个数；将训练后的含有Sigmoid激活函数的全连接的输出映射表示为通过如下公式得到对齐后的目标域众包原始文本其中， N表示源域和目标域的总个数之和。 5.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法，其特征在于，所述步骤5中基于如下损失函数对T TGCIF模型进行训练：其中， Ltotal为对TTGCIF模型进行训练的损失函数，的表达式如下所示：其中，为交叉熵损失， TE(.)表示Transformer的编码器，为 TTGCIF模型的输出， RE表示双向门控循环网络，表示隐藏状态接近隐藏状态 D表示均方误差，表达式如下所示：权　利　要　求　书 2/3 页 3 CN 114662659 B 3

专利 一种基于多阶段迁移学习策略综合的众包文本集成方法

专利一种基于多阶段迁移学习策略综合的众包文本集成方法