专利语句相似度确定方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210255053.2 (22)申请日 2022.03.15 (71)申请人平安科技（深圳）有限公司地址 518048 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人郝凯风　李剑锋　侯翠琴　 (74)专利代理机构北京辰权知识产权代理有限公司 11619 专利代理师付婧 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) (54)发明名称语句相似度确定方法、装置、计算机设备和存储介质 (57)摘要本发明涉及一种语句相似度确定方法方法、装置、计算机设备和存储介质，该方法包括：接收用户问题；利用实体识别模型得到用户问题中的实体信息；利用属性识别模型得到用户问题中的属性信息；在预设的知识图谱中检索与属性信息相关的标准属性信息；根据实体信息和标准属性信息，在知识图谱中确定候选语句；采用多个不同的相似度算法，分别计算用户问题与候选语句的相似度，得到各相似度算法对应的相似度结果；对多个相似度结果进行融合，得到最终结果信息。上述方法可以提高相似度识别精准度。权利要求书2页说明书7页附图3页 CN 114676237 A 2022.06.28 CN 114676237 A 1.一种语句相似度确定方法，其特征在于，所述方法包括：接收用户问题；将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；在预设的知识图谱中检索与所述属性信息相关的标准属性信息；根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。 2.根据权利要求1所述的语句相似度确定方法，其特征在于，在得到所述候选语句与所述用户问题的最终相似度结果之后，还包括：确定所述用户问题的所有候选语句中满足预设条件的命中语句，所述预设条件为所述命中语句的最终相似度结果大于其他候选语句的最终相似度结果；在所述知识图谱内检索出所述命中问题对应的命中答案，将所述命中答案作为所述用户问题的答案。 3.根据权利要求1所述的语句相似度确定方法，其特征在于，所述接收用户问题，识别所述用户问题的实体信息和属性信息，包括：所述用户问题输入预配置的BERT ‑BiLSTM‑CRF模型中，得到所述用户问题中的实体信息；其中，所述BERT ‑BiLSTM‑CRF模型包括： BERT预训练模型层、 BiLSTM网络层以及CRF推理层，所述BERT预训练模型层用于将每个字符进行编码得到对应字符的字向量；所述BiLSTM 网络层用于将所述字向量组成的序列双向编码获取新的特征向量；所述CRF推理层用于基于所述新的特征向量输出概率最大的实体信息。 4.根据权利要求1所述的语句相似度确定方法，其特征在于，对所述用户问题进行分词处理得到词序列，通过Word Embedding获取每个词的词向量 w1， w2…， wn；将词向量 w1， w2…， wn映射成对应的概念词向量e1， e2 …， en；将概念词向量e1， e2 …， en输入到属性识别模型的Bi ‑LSTM层，并使用实体层的表征向量Entity进行A ttention操作得到第二隐藏向量h1， h2 …， hn；将第二隐藏向量h1， h2 …， hn再次输入到属性识别模型的Bi ‑LSTM层，并使用短语层的表征向量Phrase进行Attention操作，并对输出的第三隐藏向量进行加权求和，得到表征向量Vector；将表征向量Vector输入到属性识别模型的全连接层并进行Softmax操作，得到所述用户问题中的属性信息。 5.根据权利要求1所述的语句相似度确定方法，其特征在于，所述根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句，包括：提取所述用户问题中的实体和第一属性词；根据所述用户问题中的实体，在知识图谱中查找与所述实体匹配的多个第二属性词；计算所述第一属性词和多个所述第二属性词之间的相关度，并根据相关度对多个所述权　利　要　求　书 1/2 页 2 CN 114676237 A 2第二属性词进行筛选，确定第三属性词；如果所述第三属性词为多个，统计每个所述第三属性词在所述知识图谱中出现的次数，并将出现次数最多的第三属性词作为标准属性；将所述实体信息视为主语或宾语，与所述标准属性相结合，从所述知识图谱中检索并找到对应的三元组，根据所述三元组确定候选语句。 6.根据权利要求1所述的语句相似度确定方法，其特征在于，所述采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果，包括：采用Bert算法计算所述用户问题与所述候选语句的第一相似度；采用BM25算法计算所述用户问题与所述候选语句的第二相似度；采用fast text算法计算所述用户问题与所述候选语句的第三相似度。 7.根据权利要求1所述的语句相似度确定方法，其特征在于，所述将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果，包括：将多个所述相似度结果根据Bagging策略进行投票，得到最终结果信息。 8.一种语句相似度确定装置，其特征在于，包括：接收单元，用于接收用户问题；实体识别单元，用于将所述用户问题输入至实体识别模型得到所述用户问题中的实体信息；属性获取单元，用于将所述用户问题输入至属性识别模型得到所述用户问题中的属性信息；标准化单元，用于在预设的知识图谱中检索与所述属性信息相关的标准属性信息；候选语句单元，用于根据所述实体信息和所述标准属性信息，在所述知识图谱中确定候选语句；相似计算单元，用于针对每个候选语句，采用多个不同的相似度算法分别计算所述候选语句与所述用户问题的相似度，得到所述候选语句对应的多个的相似度结果；结果输出单元，用将每个候选语句的多个所述相似度结果进行融合，得到所述候选语句与所述用户问题的最终相似度结果。 9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求 1至7中任一项权利要求所述语句相似度确定方法的步骤。 10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述语句相似度确定方法的步骤。权　利　要　求　书 2/2 页 3 CN 114676237 A 3

专利 语句相似度确定方法、装置、计算机设备和存储介质

专利语句相似度确定方法、装置、计算机设备和存储介质