专利语言模型的预训练方法、结果推荐方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210193343.9 (22)申请日 2022.03.01 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层申请人清华大学深圳国际研究生院 (72)发明人谢作通　陈军华　邹嘉欣　侯嘉伟　颜强　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师李文静 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 16/36(2019.01)G06F 16/35(2019.01) G06F 40/157(2020.01) G06F 40/211(2020.01) G06F 40/247(2020.01) G06F 40/274(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称语言模型的预训练方法、结果推荐方法及相关装置 (57)摘要本申请公开了一种语言模型的预训练方法、结果推荐方法及相关装置，该方法能够以MLM任务和义原预测任务为第一阶段的训练任务对语言模型进行预训练，使得语言模型学习到训练文本中词语的义原。在完成第一阶段的预训练后，该方法能够以对比学习为第二阶段的训练任务，采用基于目标领域的知识图谱确定的第二训练文本对语言模型进行预训练，从而将目标领域的知识图谱融入该语言模型的预训练过程，使语言模型能够学习到目标领域的知识图谱中的知识。由于本申请提供的方法能够在语言模型的预训练过程中引入不同的训练任务，因此可以确保语言模型的预训练效果较好。权利要求书2页说明书20页附图6页 CN 114565104 A 2022.05.31 CN 114565104 A 1.一种语言模型的预训练方法，其特征在于，所述方法包括：对第一训练文本进行掩码处理，掩码处理后的所述第一训练文本中的部分词语被替换为掩码，所述词语包括一个或多个文字；获取掩码处理后的所述第一训练文本中的文字对应的嵌入向量，所述嵌入向量包括：字向量、义原向量、段向量和位置向量，其中，所述义原向量是文字的义原的向量表示；以掩码语言模型任务和义原预测任务为第一阶段的训练任务，基于所述嵌入向量预训练语言模型，其中，所述义原预测任务用于预测所述第一训练文本中被替换为掩码的词语的义原，所述词语的义原为所述词语包括的各个文字的义原的交集；以对比学习为第二阶段的训练任务，采用第二训练文本预训练所述语言模型，所述第二训练文本包括：原始文本，基于目标领域的知识图谱替换所述原始文本中的第一词语得到的正样本文本，以及基于所述目标领域的知识图谱替换所述原始文本中的第二词语得到的负样本文本。 2.根据权利要求1所述的方法，其特征在于，所述以掩码语言模型任务和义原预测任务为训练任务，基于所述嵌入向量预训练语言模型，包括：将所述嵌入向量输入至所述语言模型，得到所述语言模型输出的预测词语和所述预测词语的预测义原；根据所述预测词语和所述第一训练文本中被替换为掩码的词语，确定第一损失值；根据所述预测词语的预测义原和所述第一训练文本中被替换为掩码的词语的义原，确定第二损失值；根据所述第一损失值和所述第二损失值预训练所述语言模型。 3.根据权利要求2所述的方法，其特征在于，在获取掩码处理后的所述第一训练文本中的文字对应的嵌入向量之前，所述方法还包括：获取参考词语库中每个参考词语的义原；基于所述参考词语库中每个参考词语包括的文字，以及每个参考词语的义原，得到所述参考词语库中每个文字的义原，其中，每个文字的义原基于包含所述文字的各个参考词语的义原的并集确定；基于所述参考词语库中各个文字的义原生成文字义原矩阵，所述文字义原矩阵包括所述参考词语库中每个文字的义原向量；基于所述文字义原矩阵，获取掩码处理后的所述第一训练文本中的文字的义原向量。 4.根据权利要求1至3任一所述的方法，其特征在于，在以对比学习为第二阶段的训练任务，采用第二训练文本预训练所述语言模型之前，所述方法还包括：获取所述原始文本；基于所述目标领域的知识图谱，对所述原始文本中的第一词语进行同义替换，得到所述正样本文本；基于所述目标领域的知识图谱，对所述原始文本中的第二词语进行非同义替换，得到所述负样本文本。 5.根据权利要求4所述的方法，其特征在于，所述非同义替换包括：上义替换，下义替换和关系替换中的至少一种。 6.根据权利要求1至3任一所述的方法，其特征在于，所述以对比学习为第二阶段的训权　利　要　求　书 1/2 页 2 CN 114565104 A 2练任务，采用第二训练文本预训练所述语言模型，包括：将所述第二训练文本输入至所述语言模型，得到所述语言模型输出的第一预测相似度和第二预测相似度；根据所述第一预测相似度和所述第二预测相似度，确定第三损失值；根据所述第三损失值预训练所述语言模型；其中，所述第一预测相似度为所述原始文本和所述正样本文本的相似度，所述第二预测相似度为所述原始文本和所述负样本文本的相似度。 7.一种结果推荐方法，其特征在于，所述方法包括：获取搜索文本；将所述搜索文本输入至搜索模型，得到所述搜索模型输出的推荐结果；其中，所述搜索模型是基于预训练后的语言模型得到的，所述语言模型采用如权利要求1至6任一所述的方法预训练。 8.一种语言模型的预训练装置，其特征在于，所述装置包括：掩码模块，用于对第一训练文本进行掩码处理，掩码处理后的所述第一训练文本中的部分词语被替换为掩码，所述词语包括一个或多个文字；嵌入模块，用于获取掩码处理后的所述第一训练文本中的文字对应的嵌入向量，所述嵌入向量包括：字向量、义原向量、段向量和位置向量，其中，所述义原向量是文字的义原的向量表示；第一训练模块，用于以掩码语言模型任务和义原预测任务为第一阶段的训练任务，基于所述嵌入向量预训练语言模型，其中，所述义原预测任务用于预测所述第一训练文本中被替换为掩码的词语的义原，所述词语的义原为所述词语包括的各个文字的义原的交集；第二训练模块，用于以对比学习为第二阶段的训练任务，采用第二训练文本预训练所述语言模型；其中，所述第二训练文本包括：原始文本，基于目标领域的知识图谱替换所述原始文本中的第一词语得到的正样本文本，以及基于所述目标领域的知识图谱替换所述原始文本中的第二词语得到的负样本文本。 9.一种结果推荐装置，其特征在于，所述装置包括：获取模块，用于获取搜索文本；搜索模块，用于将所述搜索文本输入至搜索模型，得到所述搜索模型输出的推荐结果；其中，所述搜索模型采用如权利要求8所述的语言模型的预训练装置训练得到。 10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求 1至6任一所述的语言模型的预训练方法，或如权利要求7 所述的结果推荐方法。 11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求 1至6任一所述的语言模型的预训练方法，或如权利要求7所述的结果推荐方法。权　利　要　求　书 2/2 页 3 CN 114565104 A 3

专利 语言模型的预训练方法、结果推荐方法及相关装置

专利语言模型的预训练方法、结果推荐方法及相关装置