全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211234641.4 (22)申请日 2022.10.10 (71)申请人 北京智源人工智能研究院 地址 100084 北京市海淀区中关村东路1号 院8号楼三层B201D-1 (72)发明人 李涓子 吕鑫 姚子俊 曾开胜  张家杰 冷佳泓  (74)专利代理 机构 北京动力号知识产权代理有 限公司 1 1775 专利代理师 梁艳 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/33(2019.01) (54)发明名称 知识图谱补全 模型的训练方法和装置 (57)摘要 本发明公开了一种知识图谱补全模型的训 练方法和装置。 方法包括: 将三元组查询训练数 据集转化为搜索查询训练数据集; 构建与每条搜 索查询训练数据对应的正例文档和负例文档, 得 到正例文档集和负例文档集; 利用搜索查询训练 数据集、 正例文档集和负例文档集对知识检索模 块进行预训练, 以使知 识检索模块能够输出与每 条三元组查询训练数据相关的多个文档; 将该多 个文档与对应的搜索查询训练数据进行拼接后 输入到阅读理解模块中, 以预测该条三元组查询 训练数据的尾实体, 并将预测的尾实体与正确尾 实体之间的交叉熵作为损失函数优化模型参数, 以得到训练好的补全模型。 该方法在不可被推理 的关系的知识补全中取得了很好的效果, 具有较 高的鲁棒 性。 权利要求书2页 说明书8页 附图2页 CN 115525773 A 2022.12.27 CN 115525773 A 1.一种知识图谱补全 模型的训练方法, 其特 征在于, 包括: 构建三元组训练数据集, 并将三元组训练数据集 转化为三元组查询训练数据集; 将三元组查询训练数据集 转化为搜索查询训练数据集; 构建与每条搜索查询训练数据对应的正例文档和负例文档, 得到正例文档集和负例文 档集; 利用搜索查询训练数据集、 正例文档集和负例文档集对知识检索模块进行预训练, 以 使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档; 将与每条三元组查询训练数据相关的多个文档与对应的搜索查询训练数据进行拼接 后输入到阅读理解模块中, 以得到该条三元组查询训练数据的预测尾实体, 并将预测尾实 体与正确尾实体之间的交叉熵作为损失函数来优化搜索查询编码器的参数和阅读理解模 块中预训练语言模型的参数, 以得到训练好的补全 模型。 2.如权利要求1所述的知识图谱补全模型的训练方法, 其特征在于, 所述将三元组查询 训练数据集 转化为搜索查询训练数据集包括: 通过调用转 化函数将三元组查询训练数据集 转化为搜索查询训练数据集; 所述三元组查询为: tq=(h,r,? ); 所述转化函数包括: FL(tq)=LABEL(h)| |LABEL(r); 其中, h表示头实体, r表示关系, ? 表示待预测的尾实体, LABEL(x)表示x所对应 的标签 文本, x代 表h或r, | |表示拼接。 3.如权利要求2所述的知识图谱补全模型的训练方法, 其特征在于, 所述转化函数还包 括: FLA(tq)=TEXT(h)| |TEXT(r); 其中, TEXT(x)表示x的别名所对应的标签文本 。 4.如权利要求1所述的知识图谱补全模型的训练方法, 其特征在于, 所述构建与每条搜 索查询训练数据对应的正例文档和负例文档包括: 对于每条搜索查询训练数据, 分别选取设定比例的不同类型的正例, 并从中随机选取 一个作为最 终正例; 将使用BM25搜索排序算法检索到的第一个不含有三元 组尾实体的文档 作为强负例, 并将强负例与其他搜索查询训练数据对应的最 终正例构成该条搜索查询训练 数据对应的最终负例。 5.如权利要求4所述的知识图谱补全模型的训练方法, 其特征在于, 所述正例包括实体 类型正例、 远程监督类型正例和答案类型正例, 按照45%、 45%和10%的比例选取实体类型 正例、 远程 监督类型正例和答案类型正例。 6.如权利要求1所述的知识图谱补全模型的训练方法, 其特征在于, 所述利用搜索查询 训练数据集、 正例文档集和负例文档集对知识检索模块进行 预训练包括: 所述知识检索模块包括搜索查询的编码器和文档的编码器; 采用两个BERT模型作为搜索查询的编码器和文档的编码器; 使用点积衡量搜索查询和文档之间的相似度为: sim(sq,d)= QEnc(sq)T·DEnc(d) 其中, sq和d分别为搜索查询和文档, QEnc和 DEnc分别为搜索查询的编码器和文档的编 码器, sim为相似度, QEnc(sq)T为搜索查询的编码的转置; 采用对比学习训练搜索查询的编码器和文档的编码器, 训练损失函数为:权 利 要 求 书 1/2 页 2 CN 115525773 A 2其中, 为搜索查询训练数据sq的集合, d+为搜索查询训练数据sq对应的正例文档, 为搜索查询训练数据sq对应的负例文档。 7.一种知识图谱补全 模型的训练装置, 其特 征在于, 包括: 三元组查询训练数据集构建模块, 用于构建三元组训练数据集, 并将三元组训练数据 集转化为三元组查询训练数据集; 三元组查询训练数据集转化模块, 用于将三元组查询训练数据集转化为搜索查询训练 数据集; 正例和负例构建模块, 用于构建与每条搜索查询训练数据对应的正例文档和负例文 档, 得到正例文档集和负例文档集; 知识检索模块预训练模块, 用于利用搜索查询训练数据集、 正例文档集和负例文档集 对知识检索模块进行预训练, 以使知识检索 模块能够输出与每条三元组查询训练数据相关 的多个文档; 补全模型参数优化模块, 用于将与每条三元组查询训练数据相关的多个文档与对应的 搜索查询训练数据进 行拼接后输入到阅读理解模块中, 以得到该条三元组查询训练数据的 预测尾实体, 并将预测尾实体与正确尾实体之 间的交叉熵作为损失函数来优化搜索查询编 码器的参数和阅读理解模块中预训练语言模型的参数, 以得到训练好的补全 模型。 8.一种知识图谱补全方法, 其特 征在于, 包括: 将三元组查询输入到训练好的补全模型中, 检索到与所述三元组查询相关的文本后, 基于该检索到的文本预测出尾实体, 完成三元组缺失知识的补全; 所述补全 模型是预先采用如权利要求1 ‑6任一项所述的方法训练得到的。 9.一种存储器, 其特征在于, 存储有多条指令, 所述指令用于实现如权利要求1 ‑6任一 项所述的知识图谱补全 模型的训练方法, 或如权利要求8所述的知识图谱补全方法。 10.一种电子设备, 其特征在于, 包括处理器和与所述处理器连接的存储器, 所述存储 器存储有多条指令, 所述指令可被所述处理器加载并执行, 以使所述处理器能够执行如权 利要求1‑6任一项所述的知识图谱补 全模型的训练方法, 或如权利要求8所述的知识图谱补 全方法。权 利 要 求 书 2/2 页 3 CN 115525773 A 3

.PDF文档 专利 知识图谱补全模型的训练方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 知识图谱补全模型的训练方法和装置 第 1 页 专利 知识图谱补全模型的训练方法和装置 第 2 页 专利 知识图谱补全模型的训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:44:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。