全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210255053.2 (22)申请日 2022.03.15 (71)申请人 平安科技 (深圳) 有限公司 地址 518048 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 郝凯风 李剑锋 侯翠琴  (74)专利代理 机构 北京辰权知识产权代理有限 公司 11619 专利代理师 付婧 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) (54)发明名称 语句相似度确定方法、 装置、 计算机设备和 存储介质 (57)摘要 本发明涉及一种语句相似度确定方法方法、 装置、 计算机设备和存储介质, 该方法包括: 接收 用户问题; 利用实体识别模型得到用户问题中的 实体信息; 利用属性识别模型得到用户问题中的 属性信息; 在预设的知 识图谱中检索与属性信息 相关的标准属性信息; 根据实体信息和标准属性 信息, 在知识图谱中确定候选语句; 采用多个不 同的相似度算法, 分别计算用户问题与候选语句 的相似度, 得到各相似度算法对应的相似度结 果; 对多个相似度结果进行融合, 得到最终结果 信息。 上述方法可以提高相似度识别精准度。 权利要求书2页 说明书7页 附图3页 CN 114676237 A 2022.06.28 CN 114676237 A 1.一种语句 相似度确定方法, 其特 征在于, 所述方法包括: 接收用户问题; 将所述用户问题输入至实体识别模型 得到所述用户问题中的实体信息; 将所述用户问题输入至属性识别模型 得到所述用户问题中的属性信息; 在预设的知识图谱中检索与所述属性信息相关的标准属性信息; 根据所述实体信息和所述标准属性信息, 在所述知识图谱中确定候选语句; 针对每个候选语句, 采用多个不同的相似度算法分别计算所述候选语句与 所述用户问 题的相似度, 得到所述 候选语句对应的多个的相似度结果; 将每个候选语句的多个所述相似度 结果进行融合, 得到所述候选语句与所述用户问题 的最终相似度结果。 2.根据权利要求1所述的语句相似度确定方法, 其特征在于, 在得到所述候选语句与 所 述用户问题的最终相似度结果之后, 还 包括: 确定所述用户问题的所有候选语句中满足预设条件的命中语句, 所述预设条件为所述 命中语句的最终相似度结果大于其 他候选语句的最终相似度结果; 在所述知识图谱内检索出所述命中问题对应的命中答案, 将所述命中答案作为所述用 户问题的答案 。 3.根据权利要求1所述的语句相似度确定方法, 其特征在于, 所述接收用户问题, 识别 所述用户问题的实体信息和 属性信息, 包括: 所述用户问题输入预配置的BERT ‑BiLSTM‑CRF模型中, 得到所述用户问题中的实体信 息; 其中, 所述BERT ‑BiLSTM‑CRF模型包括: BERT预训练模型层、 BiLSTM网络层以及CRF推理 层, 所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量; 所述BiLSTM 网络层用于将所述字向量组成的序列双向编码获取新的特征向量; 所述CRF推理层用于基 于所述新的特征向量输出概 率最大的实体信息 。 4.根据权利要求1所述的语句 相似度确定方法, 其特 征在于, 对所述用户问题进行分词处理得到词序列, 通过Word  Embedding获取每个词的词向量 w1, w2…, wn; 将词向量 w1, w2…, wn映射成对应的概念词向量e1, e2 …, en; 将概念词向量e1, e2 …, en输入到属性识别模型的Bi ‑LSTM层, 并使用实体层的表征向 量Entity进行A ttention操作得到第二隐藏向量h1, h2 …, hn; 将第二隐藏向量h1, h2 …, hn再次输入到属性识别模型的Bi ‑LSTM层, 并使用短语层的 表征向量Phrase进行Attention操作, 并对输出的第三隐藏向量进行加权求和, 得到表征向 量Vector; 将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作, 得到所述用 户问题中的属性信息 。 5.根据权利要求1所述的语句相似度确定方法, 其特征在于, 所述根据 所述实体信 息和 所述标准属性信息, 在所述知识图谱中确定候选语句, 包括: 提取所述用户问题中的实体和第一属性词; 根据所述用户问题中的实体, 在 知识图谱中查找与所述实体匹配的多个第二属性词; 计算所述第 一属性词和多个所述第 二属性词之间的相关度, 并根据相关度对多个所述权 利 要 求 书 1/2 页 2 CN 114676237 A 2第二属性词进行筛 选, 确定第三属性词; 如果所述第三属性词为多个, 统计每个所述第三属性词在所述知识图谱中出现的次 数, 并将出现次数最多的第三属性词作为标准属性; 将所述实体信息视为主语或宾语, 与所述标准属性相结合, 从所述知识图谱中检索并 找到对应的三元组, 根据所述 三元组确定候选语句。 6.根据权利要求1所述的语句相似度确定方法, 其特征在于, 所述采用多个不同的相似 度算法分别计算所述候选语句与所述用户问题的相似度, 得到所述候选语句对应的多个的 相似度结果, 包括: 采用Bert算法计算所述用户问题与所述 候选语句的第一相似度; 采用BM25算法计算所述用户问题与所述 候选语句的第二相似度; 采用fast text算法计算所述用户问题与所述 候选语句的第三相似度。 7.根据权利要求1所述的语句相似度确定方法, 其特征在于, 所述将每个候选语句的多 个所述相似度结果进行融合, 得到所述 候选语句与所述用户问题的最终相似度结果, 包括: 将多个所述相似度结果 根据Bagging策略进行投票, 得到最终结果信息 。 8.一种语句 相似度确定装置, 其特 征在于, 包括: 接收单元, 用于接收用户问题; 实体识别单元, 用于将所述用户问题输入至实体识别模型得到所述用户问题中的实体 信息; 属性获取单元, 用于将所述用户问题输入至属性识别模型得到所述用户问题中的属性 信息; 标准化单元, 用于在预设的知识图谱中检索与所述属性信息相关的标准属性信息; 候选语句单元, 用于根据所述实体信息和所述标准属性信息, 在所述知识图谱中确定 候选语句; 相似计算单元, 用于针对每个候选语句, 采用多个不同的相似度算法分别计算所述候 选语句与所述用户问题的相似度, 得到所述 候选语句对应的多个的相似度结果; 结果输出单元, 用将每个候选语句的多个所述相似度结果进行融合, 得到所述候选语 句与所述用户问题的最终相似度结果。 9.一种计算机设备, 包括存储器和处理器, 所述存储器中存储有计算机可读指令, 所述 计算机可读指 令被所述处理器执行时, 使 得所述处理器执行如权利要求 1至7中任一项权利 要求所述语句 相似度确定方法的步骤。 10.一种存储有计算机可读指令的存储介质, 所述计算机可读指令被一个或多个处理 器执行时, 使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述语句相似度 确定方法的步骤。权 利 要 求 书 2/2 页 3 CN 114676237 A 3

.PDF文档 专利 语句相似度确定方法、装置、计算机设备和存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语句相似度确定方法、装置、计算机设备和存储介质 第 1 页 专利 语句相似度确定方法、装置、计算机设备和存储介质 第 2 页 专利 语句相似度确定方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。