全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210193343.9 (22)申请日 2022.03.01 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 申请人 清华大学深圳国际研究生院 (72)发明人 谢作通 陈军华 邹嘉欣 侯嘉伟  颜强  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 16/36(2019.01)G06F 16/35(2019.01) G06F 40/157(2020.01) G06F 40/211(2020.01) G06F 40/247(2020.01) G06F 40/274(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 语言模型的预训练方法、 结果推荐 方法及相 关装置 (57)摘要 本申请公开了一种语 言模型的预训练方法、 结果推荐方法及相关装置, 该方法能够以MLM任 务和义原预测任务为第一阶段的训练任务对语 言模型进行预训练, 使 得语言模 型学习到训练文 本中词语的义原。 在完成第一阶段的预训练后, 该方法能够以对比学习为第二阶段的训练任务, 采用基于目标领域的知识 图谱确定的第二训练 文本对语言模 型进行预训练, 从而将目标领域的 知识图谱融入 该语言模型的预训练过程, 使语言 模型能够学习到目标领域的知识图谱中的知 识。 由于本申请提供的方法能够在语言模型的预训 练过程中引入不同的训练任务, 因此可以确保语 言模型的预训练效果较好。 权利要求书2页 说明书20页 附图6页 CN 114565104 A 2022.05.31 CN 114565104 A 1.一种语言模型的预训练方法, 其特 征在于, 所述方法包括: 对第一训练文本进行掩码处理, 掩码处理后的所述第 一训练文本 中的部分词语被替换 为掩码, 所述词语包括 一个或多个文字; 获取掩码处理后的所述第一训练文本中的文字对应的嵌入向量, 所述嵌入向量包括: 字向量、 义原向量、 段向量和位置向量, 其中, 所述 义原向量是文字的义原的向量表示; 以掩码语言模型任务和义原预测任务为第 一阶段的训练任务, 基于所述嵌入向量预训 练语言模型, 其中, 所述义原预测任务用于预测所述第一训练文本中被替换为掩码的词语 的义原, 所述词语的义原为所述词语包括的各个文字的义原的交集; 以对比学习为第二阶段的训练任务, 采用第二训练文本预训练所述语言模型, 所述第 二训练文本包括: 原始文本, 基于目标领域的知识图谱替换所述原始文本中的第一词语得 到的正样本文本, 以及基于所述目标领域的知识图谱替换所述原始文本中的第二词语得到 的负样本文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述以掩码语言模型任务和义原预测任务 为训练任务, 基于所述嵌入向量预训练语言模型, 包括: 将所述嵌入向量输入至所述语言模型, 得到所述语言模型输出的预测词语和所述预测 词语的预测义原; 根据所述预测词语和所述第一训练文本中被替换为掩码的词语, 确定第一损失值; 根据所述预测词语的预测义原和所述第 一训练文本 中被替换为掩码的词语的义原, 确 定第二损失值; 根据所述第一损失值和所述第二损失值预训练所述语言模型。 3.根据权利要求2所述的方法, 其特征在于, 在获取掩码处理后的所述第 一训练文本中 的文字对应的嵌入向量之前, 所述方法还 包括: 获取参考词语库中每 个参考词语的义原; 基于所述参考词语库中每个参考词语包括的文字, 以及每个参考词语的义原, 得到所 述参考词语库中每个文字的义原, 其中, 每个文字的义原基于包含所述文字的各个参考词 语的义原的并集确定; 基于所述参考词语库中各个文字的义原生成文字义原矩阵, 所述文字义原矩阵包括所 述参考词语库中每 个文字的义原向量; 基于所述文字义原 矩阵, 获取掩码处 理后的所述第一训练文本中的文字的义原向量。 4.根据权利要求1至3任一所述的方法, 其特征在于, 在以对比学习为第二阶段的训练 任务, 采用第二训练文本预训练所述语言模型之前, 所述方法还 包括: 获取所述原始文本; 基于所述目标领域的知识图谱, 对所述原始文本中的第一词语进行同义替换, 得到所 述正样本文本; 基于所述目标领域的知识图谱, 对所述原始文本中的第二词语进行非同义替换, 得到 所述负样本文本 。 5.根据权利要求4所述的方法, 其特征在于, 所述非同义替换包括: 上义替换, 下义替换 和关系替换中的至少一种。 6.根据权利要求1至3任一所述的方法, 其特征在于, 所述以对比学习为第二阶段的训权 利 要 求 书 1/2 页 2 CN 114565104 A 2练任务, 采用第二训练文本预训练所述语言模型, 包括: 将所述第二训练文本输入至所述语言模型, 得到所述语言模型输出的第 一预测相似度 和第二预测相似度; 根据所述第一预测相似度和所述第二预测相似度, 确定第三损失值; 根据所述第三损失值预训练所述语言模型; 其中, 所述第一预测相似度为所述原始文本和所述正样本文本的相似度, 所述第二预 测相似度为所述原 始文本和所述负 样本文本的相似度。 7.一种结果推荐方法, 其特 征在于, 所述方法包括: 获取搜索文本; 将所述搜索文本 输入至搜索模型, 得到所述搜索模型输出的推荐结果; 其中, 所述搜索模型是基于预训练后的语言模型得到的, 所述语言模型采用 如权利要 求1至6任一所述的方法预训练。 8.一种语言模型的预训练装置, 其特 征在于, 所述装置包括: 掩码模块, 用于对第一训练文本进行掩码处理, 掩码处理后的所述第一训练文本中的 部分词语 被替换为掩码, 所述词语包括 一个或多个文字; 嵌入模块, 用于获取掩码处理后的所述第一训练文本中的文字对应的嵌入向量, 所述 嵌入向量包括: 字向量、 义原向量、 段向量和位置向量, 其中, 所述义原向量是文字的义原的 向量表示; 第一训练模块, 用于以掩码语言模型任务和义原预测任务为第一阶段的训练任务, 基 于所述嵌入向量预训练语言模型, 其中, 所述义原预测任务用于预测所述第一训练文本中 被替换为掩码的词语的义原, 所述词语的义原为所述词语包括的各个文字的义原的交集; 第二训练模块, 用于以对比学习为第二阶段的训练任务, 采用第二训练文本预训练所 述语言模型; 其中, 所述第 二训练文本包括: 原始文本, 基于目标领域的知识图谱替换所述原始文本 中的第一词语得到的正样本文本, 以及基于所述目标领域的知识图谱替换所述原始文本中 的第二词语得到的负 样本文本 。 9.一种结果推荐装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取搜索文本; 搜索模块, 用于将所述搜索文本 输入至搜索模型, 得到所述搜索模型输出的推荐结果; 其中, 所述搜索模型采用如权利要求8所述的语言模型的预训练装置训练得到 。 10.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器 中存储有至少一条指令、 至少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一 段程序、 所述代码集或指 令集由所述处理器加载并执行以实现如权利要求 1至6任一所述的 语言模型的预训练方法, 或如权利要求7 所述的结果推荐方法。 11.一种计算机可读存储介质, 其特征在于, 所述存储介质中存储有至少一条指令、 至 少一段程序、 代码集或指令集, 所述至少一条指令、 所述至少一段程序、 所述代码集或指令 集由处理器加载并执行以实现如权利要求 1至6任一所述的语言模型的预训练方法, 或如权 利要求7所述的结果推荐方法。权 利 要 求 书 2/2 页 3 CN 114565104 A 3

.PDF文档 专利 语言模型的预训练方法、结果推荐方法及相关装置

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型的预训练方法、结果推荐方法及相关装置 第 1 页 专利 语言模型的预训练方法、结果推荐方法及相关装置 第 2 页 专利 语言模型的预训练方法、结果推荐方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。