专利 一种知识图谱问答模型的训练方法、对话生成方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211130474.9 (22)申请日 2022.09.15 (71)申请人太保科技有限公司地址 200010 上海市黄浦区中山南路1号1 1 层(名义楼层)1 1V6室 (72)发明人张学晨　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师张志梅 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称一种知识图谱问答模型的训练方法、对话生成方法及装置 (57)摘要本申请提供了一种知识图谱问答模型的训练方法及装置，通过获取正样本图谱路径数据和负样本图谱路径数据，并在训练前对于获取到的负样本图谱路径数据进行困难度度量，将得到的困难度数据作为量化数据，实现了对训练样本的区分，并且在训练中可以动态选取不同困难度的训练样本对于知识问答图谱模型进行迭代训练，由于可以通过困难度区分样本并对其进行目的性选取，从而使选取的样本困难程度更高，提高了训练出的知识图谱问答模型的泛化能力。权利要求书2页说明书9页附图4页 CN 115455163 A 2022.12.09 CN 115455163 A 1.一种知识图谱问答模型的训练方法，其特征在于，所述方法包括：获取正样本图谱路径数据和负样本图谱路径数据；针对所述负样本图谱路径数据进行困难度度量，获得所述负样本图谱路径数据的困难度，其中，所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度；选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本，训练生成知识图谱问答模型。 2.根据权利要求1所述的方法，其特征在于，所述正样本图谱路径数据和负样本图谱路径数据是通过图谱问答标注数据获得的。 3.根据权利要求1所述的方法，其特征在于，所述正样本图谱路径数据和负样本图谱路径数据是通过如下步骤获得的：获得至少一条图谱路径数据；确定所述图谱路径数据对应的问题类型；将所述图谱路径数据确定为所述问题类型对应的正样本图谱路径数据；根据所述正样本图谱路径数据确定负样本图谱路径数据。 4.根据权利要求1所述的方法，其特征在于，所述针对所述负样本图谱路径数据进行困难度度量，获得所述负样本图谱路径数据的困难度，包括：通过预训练的相似度度量模型得到所述负样本图谱路径数据与所述正样本图谱路径数据的相似度；根据所述相似度得到所述负样本图谱路径数据的困难度，其中，所述相似度与所述困难度呈负相关关系。 5.根据权利要求1所述的方法，其特征在于，所述针对所述负样本图谱路径数据进行困难度度量，获得所述负样本图谱路径数据的困难度，包括：通过深度学习文本相似度模型对所述负样本图谱路径数据与所述负样本图谱路径数据的相似度进行度量，获得所述负样本图谱路径数据的困难度。 6.根据权利要求1所述的方法，其特征在于，所述选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本，训练生成知识图谱问答模型，包括：选取初始困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第一训练样本，进行知识图谱问答模型的训练；所述初始困难度是预先设定的；重复执行选取目标困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为第二训练样本，训练知识图谱问答模型，直到达到预设条件，得到训练完成的知识图谱问答模型；所述目标困难度根据上一次训练时设置的目标困难度进行确定。 7.一种知识图谱问答的对话生成方法，其特征在于，所述方法包括：将给定问题输入知识图谱问答模型；获取与所述给定问题相关的图谱路径数据；将所述图谱路径数据根据与所述给定问题的相似度进行排序，得到排序位次结果，其中，所述相似度与所述排序位次呈正相关关系或负相关关系；知识图谱问答模型输出所述排序位次结果中达到排序位次阈值的图谱路径数据，其中，所述知识图谱问答模型是根据权利要求1 ‑6任意一项所述的方法训练得到的。权　利　要　求　书 1/2 页 2 CN 115455163 A 28.一种知识图谱问答模型的训练装置，其特征在于，所述装置包括：图谱路径数据获取模块，用于获取正样本图谱路径数据和负样本图谱路径数据；困难度度量模块，用于针对所述负样本图谱路径数据进行困难度度量，获得所述负样本图谱路径数据的困难度，其中，所述困难度代表所述负样本图谱路径数据与所述正样本图谱路径数据的关联程度；模型训练模块，用于选取不同困难度的负样本图谱路径数据与所述正样本图谱路径数据混合作为训练样本，训练生成知识图谱问答模型。 9.一种知识图谱问答的对话生成装置，其特征在于，所述装置包括问题输入模块，用于将给定问题输入知识图谱问答模型；图谱路径数据获取模块，用于获取与所述给定问题相关的图谱路径数据；相似度排序模块，用于将所述图谱路径数据根据与所述给定问题的相似度进行排序，得到排序位次结果；输出模块，用于输出所述排序位次结果中达到排序位次阈值的图谱路径数据。 10.一种知识图谱问答模型的训练设备，其特征在于，所述设备包括：存储器，用于保存所述知识图谱问答模型的训练程序或代码；处理器，用于执行所述知识图谱问答模型的训练程序或代码，以实现权利要求1 ‑6任意一项所述的知识图谱问答模型的训练方法，或者权利要求7所述的知识图谱问答的对话生成方法。权　利　要　求　书 2/2 页 3 CN 115455163 A 3

专利 一种知识图谱问答模型的训练方法、对话生成方法及装置

专利一种知识图谱问答模型的训练方法、对话生成方法及装置