(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211130474.9
(22)申请日 2022.09.15
(71)申请人 太保科技有限公司
地址 200010 上海市黄浦区中山 南路1号1 1
层(名义楼层)1 1V6室
(72)发明人 张学晨
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 张志梅
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种知识图谱问答模 型的训练方法、 对话生
成方法及装置
(57)摘要
本申请提供了一种知识图谱问答模型的训
练方法及装置, 通过获取正样 本图谱路径数据和
负样本图谱路径数据, 并在训练前对于获取到的
负样本图谱路径数据进行困难度度量, 将得到的
困难度数据作为量化数据, 实现了对训练样本的
区分, 并且在训练中可以动态选取不同困难度的
训练样本对于知识问答图谱模型进行迭代训练,
由于可以通过困难度区分样本并对其进行目的
性选取, 从而使选取的样本困难程度更高, 提高
了训练出的知识图谱问答模型的泛化能力。
权利要求书2页 说明书9页 附图4页
CN 115455163 A
2022.12.09
CN 115455163 A
1.一种知识图谱问答模型的训练方法, 其特 征在于, 所述方法包括:
获取正样本图谱路径数据和负 样本图谱路径数据;
针对所述负样本图谱路径数据进行困难度度量, 获得所述负样本图谱路径数据的困难
度, 其中, 所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程
度;
选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样
本, 训练生成知识图谱问答模型。
2.根据权利要求1所述的方法, 其特征在于, 所述正样本图谱路径数据和负样本图谱路
径数据是通过图谱问答标注数据获得的。
3.根据权利要求1所述的方法, 其特征在于, 所述正样本图谱路径数据和负样本图谱路
径数据是通过如下步骤获得的:
获得至少一条图谱路径数据;
确定所述图谱路径数据对应的问题类型;
将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据;
根据所述 正样本图谱路径数据确定负 样本图谱路径数据。
4.根据权利要求1所述的方法, 其特征在于, 所述针对所述负样本图谱路径数据进行困
难度度量, 获得 所述负样本图谱路径数据的困难度, 包括:
通过预训练的相似度度量模型得到所述负样本图谱路径数据与所述正样本图谱路径
数据的相似度;
根据所述相似度得到所述负样本 图谱路径数据的困难度, 其中, 所述相似度与所述困
难度呈负相关 关系。
5.根据权利要求1所述的方法, 其特征在于, 所述针对所述负样本图谱路径数据进行困
难度度量, 获得 所述负样本图谱路径数据的困难度, 包括:
通过深度学习文本相似度模型对所述负样本图谱路径数据与所述负样本图谱路径数
据的相似度进行度量, 获得 所述负样本图谱路径数据的困难度。
6.根据权利要求1所述的方法, 其特征在于, 所述选取不同困难度的负样本图谱路径数
据与所述 正样本图谱路径数据混合作为训练样本, 训练生成知识图谱问答模型, 包括:
选取初始困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第一训
练样本, 进行知识图谱问答模型的训练; 所述初始困难度是 预先设定的;
重复执行选取目标困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作
为第二训练样本, 训练知识图谱问答模 型, 直到达到预设条件, 得到训练完成的知识图谱问
答模型; 所述目标困难度根据上一次训练时设置的目标困难度进行确定 。
7.一种知识图谱问答的对话 生成方法, 其特 征在于, 所述方法包括:
将给定问题输入知识图谱问答模型;
获取与所述给定问题相关的图谱路径数据;
将所述图谱路径数据根据与所述给定问题的相似度进行排序, 得到排序位次结果, 其
中, 所述相似度与所述 排序位次呈正相关 关系或负相关 关系;
知识图谱问答模型输出所述排序位次结果中达到排序位次阈值的图谱路径数据, 其
中, 所述知识图谱问答模型 是根据权利要求1 ‑6任意一项所述的方法训练得到的。权 利 要 求 书 1/2 页
2
CN 115455163 A
28.一种知识图谱问答模型的训练装置, 其特 征在于, 所述装置包括:
图谱路径数据获取模块, 用于获取正样本图谱路径数据和负 样本图谱路径数据;
困难度度量模块, 用于针对所述负样本 图谱路径数据进行困难度度量, 获得所述负样
本图谱路径数据的困难度, 其中, 所述困难度代表所述负样本图谱路径数据与所述正样本
图谱路径数据的关联程度;
模型训练模块, 用于选取不同困难度的负样本图谱路径数据与 所述正样本图谱路径数
据混合作为训练样本, 训练生成知识图谱问答模型。
9.一种知识图谱问答的对话 生成装置, 其特 征在于, 所述装置包括
问题输入 模块, 用于将给定问题输入知识图谱问答模型;
图谱路径数据获取模块, 用于获取与所述给定问题相关的图谱路径数据;
相似度排序模块, 用于将所述图谱路径数据根据与所述给定问题的相似度进行排序,
得到排序位次结果;
输出模块, 用于 输出所述排序位次结果中达 到排序位次阈值的图谱路径数据。
10.一种知识图谱问答模型的训练设备, 其特 征在于, 所述设备包括:
存储器, 用于保存所述知识图谱问答模型的训练程序或代码;
处理器, 用于执行所述知识图谱问答模型的训练程序或代码, 以实现权利要求1 ‑6任意
一项所述的知识图谱问答模型 的训练方法, 或者权利要求7所述的知识图谱问答的对话生
成方法。权 利 要 求 书 2/2 页
3
CN 115455163 A
3
专利 一种知识图谱问答模型的训练方法、对话生成方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:40:33上传分享