全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210237867.3 (22)申请日 2022.03.11 (65)同一申请的已公布的文献号 申请公布号 CN 114662659 A (43)申请公布日 2022.06.24 (73)专利权人 南京信息 工程大学 地址 224002 江苏省盐城市 盐南高新区新 河街道文港南路10 5号 (72)发明人 荣欢 于信 马廷淮  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 陆烨 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (56)对比文件 US 2019026 604 A1,2019.01.24 US 20213 03803 A1,2021.09.3 0 US 20183 59132 A1,2018.12.13 CN 107247972 A,2017.10.13 WO 2021190236 A1,2021.09.3 0 仲秋雁等.考虑工人参与意愿影响因素的竞 争式众包 任务推荐方法. 《系统工程理论与实 践》 .2018,(第1 1期), 审查员 纪青 (54)发明名称 一种基于多阶段迁移学习策略综合的众包 文本集成方法 (57)摘要 本发明提供一种基于多阶段迁移学习策略 综合的众包文本集成方法, 具体为1、 构建迁移式 生成型众包文本集成模型TTGCIF; 2、 获得源域文 本数据集和目标域文本数据集的语义原型; 3、 对 语义原型进行词嵌入处理; 4、 根据最大均值差异 做数据分布对齐; 5、 对TTGCIF进行语义原型转导 模型训练; 6、 将源域文本 数据集处理为训练任务 集; 7、 将训练任 务集输入到TTGCIF中进行领域快 速适应模型训练; 8、 将部分目标域文本数据集输 入到TTGCIF中进行模型微调训练。 通过以上过 程, 实现文本集成。 本发明能够摒弃传统方法中 对数据标签的需求, 减少人力物力的浪费, 对数 据稀缺场景下进行众包文本集成的有着极大的 促进作用。 权利要求书3页 说明书11页 附图4页 CN 114662659 B 2022.09.16 CN 114662659 B 1.一种基于多阶段迁移学习策略综合的众包文本集成方法, 其特征在于, 包括如下步 骤: 步骤1: 对Transformer模型进行改进: 在Trans former模型中加入指针生成器网络和 双 向门控循环网络, 并在Tr ansformer模型中的编码器和解码器的每一层的前馈网络后连接 适配器层; 得到改进后的模型T TGCIF模型; 步骤2: 构建源域文本数据集和目标域文本数据集中的每个<众包原始文本, 众包集成 文本>的语义原型z, z=[ xd,yd,ad], x表示众包原始文本, y表示众包集 成文本, a表示众包原 始文上的语义注释文本; d∈{Source,Target}, Source表示源域, Target 表示目标域; 步骤3: 对z中每个文本做词嵌入处理: 对xd和ad进行词嵌入处理得到 和 且 的向量形式满足Transformer模型中编码器的格式要求, 的向量形式满足双向门控循环 网络的格式要求; 对yd单独进行两次词嵌入处理, 第一次词嵌入处理后得到的 的向量形 式满足双向门控循环网络的格式要求, 第二次词嵌入处理后得到的 的向量形式满足 Transformer模型中解码器的格式要求; 步骤4: 将 输入到含有Sigmoid激活函数的全连接层进行转换, 得到 根据 最大均值差异, 对 和 进行数据分布对 齐处理, 得到对 齐后的目标域 众包原始文 本 步骤5: 将 输入到Transformer模型的编码器中, 将 或者 输入到双向门控循环 网络中, 将 输入到解码器中, 对T TGCIF模型进行训练; 步骤6: 从N个源域中随机抽取K条语义原型, 得到N*K条语义原型, 将该N*K条语义原型 作为训练任务数据集; 将训练任务数据集中的一半数据划分为支持集, 另一半数据划分为 查询集; 重复步骤6, 直到源域的所有的语义原型都被抽取 过, 得到若干个训练任务数据集; 步骤7: 将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动, 基于 步骤5中训练好的TTGCIF模 型参数, 采用步骤6中的支持集和查询集对编码 器和解码器进 行 训练; 步骤8: 对步骤7中训练好的编码器和解码器的参数进行调整, 得到最终的T TGCIF模型; 步骤9: 将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中, 得到对应 的众包集成文本 。 2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法, 其 特征在于, 所述步骤1中的解码器从输入至输出包括8个子层, 双向门控循环网络的输出通 过一个全连接层与解码 器的第2个子层的输入端 连接; 指针生成器网络用于和Transformer 解码器共同计算 生成概率。 3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法, 其 特征在于, 所述目标域的众包集 成文本yTarget采用如下方法获得: 将目标域的众包原始文本 xtarget的每个子句分成单词序列, 按照子句中单词的数量, 从高到低选择u个子句作为目标 域的众包伪集成文本, 也既yTarget; u为源域中每个众包集成文本长度除以源域中相应的众权 利 要 求 书 1/3 页 2 CN 114662659 B 2包原始文本长度的均值。 4.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法, 其 特征在于, 所述步骤4具体为, 将 和 投射到再生核希尔伯特空间H中, 得到 在H中的表示X1Source, 和 在H中的表示X1Target; 在核希尔伯特空间H中, 基于如下 公式训练含有Sigmo id激活函数的全连接层: 其中, dis(.)表示计算距离, 表示投射到H空间的 中第i个数据的分布, 表示投射到H空间的 中第j个数据的分布; n1表示 中数据的总个数, n2表示 中数据的总个数; 将训练后的含有Sigmoid激活函 数的全连接的输出映射表示为 通过如下公式 得到对齐后的目标域众包原 始文本 其中, N表示源域和目标域的总个数之和。 5.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法, 其 特征在于, 所述 步骤5中基于如下损失函数对T TGCIF模型进行训练: 其中, Ltotal为对TTGCIF模型进行训练的损失函数, 的表达式如下 所示: 其中, 为交叉熵损失, TE(.)表示Transformer的编码器, 为 TTGCIF模型的输出, RE表示双向门控循环网络, 表示隐藏状态 接近隐藏状态 D表示均方误差, 表达式如下 所示:权 利 要 求 书 2/3 页 3 CN 114662659 B 3

.PDF文档 专利 一种基于多阶段迁移学习策略综合的众包文本集成方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多阶段迁移学习策略综合的众包文本集成方法 第 1 页 专利 一种基于多阶段迁移学习策略综合的众包文本集成方法 第 2 页 专利 一种基于多阶段迁移学习策略综合的众包文本集成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。