专利 信息识别方法、装置、设备、存储介质及产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210166578.9 (22)申请日 2022.02.23 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人张明昊　刘晓龙　李博　陈曦　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师贾允 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/205(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称信息识别方法、装置、设备、存储介质及产品 (57)摘要本申请公开了一种信息识别方法、装置、设备、存储介质及产品，属于人工智能技术领域。所述方法包括：获取目标文本对应的目标语料单元；获取目标语料单元对应的注释文本；对目标文本进行字词语义信息提取处理，得到目标语料单元对应的第一语义特征信息；对注释文本进行文本语义信息提取处理，得到注释文本对应的第二语义特征信息；基于第一语义特征信息与第二语义特征信息，对目标文本进行喻体信息识别处理，得到目标文本对应的喻体信息。本申请提供的技术方案，通过提取目标文本中目标语料单元及其注释文本各自对应的语义特征信息，可以识别目标文本中采用比喻修辞的喻体信息，能够降低人工成本并提升喻体信息识别的准确性。权利要求书3页说明书18页附图4页 CN 114662496 A 2022.06.24 CN 114662496 A 1.一种信息识别方法，其特征在于，所述方法包括：获取目标文本对应的目标语料单元；获取所述目标语料单元对应的注释文本；对所述目标文本进行字词语义信息提取处理，得到所述目标语料单元对应的第一语义特征信息；对所述注释文本进行文本语义信息提取处理，得到所述注释文本对应的第二语义特征信息；基于所述第一语义特征信息与所述第二语义特征信息，对所述目标文本进行喻体信息识别处理，得到所述目标文本对应的喻体信息。 2.根据权利要求1所述的方法，其特征在于，所述获取目标文本对应的目标语料单元，包括：对所述目标文本进行分词处理，得到语料单元序列，所述语料单元序列包括至少一个识别语料单元；获取所述至少一个识别语料单元对应的词性信息；基于所述词性信息，确定所述目标语料单元。 3.根据权利要求1所述的方法，其特征在于，所述目标文本包括所述目标语料单元和语境语料单元，所述语境语料单元是所述目标文本中除所述目标语料单元之外的语料单元，所述对所述目标文本进行字词语义信息提取处理，得到所述目标语料单元对应的第一语义特征信息，包括：将所述目标文本输入语义特征提取模型；基于所述语义特征提取模型，对所述语境语料单元进行语义信息特征提取处理，得到所述目标语料单元对应的第一语义特征向量；其中，所述第一语义特征信息包括所述第一语义特征向量，所述第一语义特征向量用于表征所述目标语料单元在所述目标文本中对应的语义信息。 4.根据权利要求1所述的方法，其特征在于，所述注释文本包括至少一个注释语料单元，所述对所述注释文本进行文本语义信息提取处理，得到所述注释文本对应的第二语义特征信息，包括：将所述注释文本输入语义特征提取模型；基于所述语义特征提取模型，对所述至少一个注释语料单元进行语义信息特征提取处理，得到所述至少一个注释语料单元对应的嵌入特征向量，所述嵌入特征向量用于表征所述至少一个注释语料单元对应的语义信息；基于所述嵌入特征向量，确定所述注释文本对应的第二语义特征向量；其中，所述第二语义特征信息包括所述第二语义特征向量，所述第二语义特征向量用于表征所述注释文本的语义信息。 5.根据权利要求3或4所述的方法，其特征在于，所述语义特征提取模型是基于样本文本训练的机器学习模型，所述样本文本对应的喻体信息的信息量小于信息量阈值，所述样本文本包括至少两条语句文本；所述语义特征提取模型的训练过程包括：遍历所述至少两条语句文本；将遍历到的语句文本中目标位置上的语料单元替换为预设标记符，得到替换后的语句权　利　要　求　书 1/3 页 2 CN 114662496 A 2文本；将所述替换后的语句文本输入目标机器学习模型，输出所述语料单元对应的语义特征向量；在所述至少两条语句文本遍历完成的情况下，基于所述目标机器学习模型，得到所述语义特征提取模型。 6.根据权利要求5所述的方法，其特征在于，所述训练过程还包括：确定所述至少两条语句文本中的语句文本对，所述语句文本对基于所述至少两条语句文本中不同的两条语句文本确定；遍历所述语句文本对；将遍历到的语句文本对输入所述目标机器学习模型，输出所述遍历到的语句文本对对应的上下文关系信息，所述上下文关系信息用于表征所述遍历到的语句文本对中的两条语句文本之间的上下文关系；所述在所述至少两条语句文本遍历完成的情况下，基于所述目标机器学习模型，得到所述语义特征提取模型，包括：在所述至少两条语句文本遍历完成且所述语句文本对遍历完成的情况下，基于所述目标机器学习模型，得到所述语义特征提取模型。 7.根据权利要求1所述的方法，其特征在于，所述基于所述第一语义特征信息与所述第二语义特征信息，对所述目标文本进行喻体信息识别处理，得到所述目标文本对应的喻体信息，包括：确定所述第一语义特征信息与所述第二语义特征信息之间的语义相似度；若所述语义相似度小于等于相似度阈值，则将所述目标语料单元确定为所述喻体信息。 8.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述喻体信息包括所述目标语料单元的情况下，确定所述目标语料单元为喻体语料单元；根据所述第一语义特征信息确定所述喻体语料单元对应的本体语料单元；获取所述本体语料单元对应的本体内容类型信息，所述本体内容类型信息用于表征所述本体语料单元对应的内容类型；根据所述本体内容类型信息，确定所述喻体语料单元对应的喻体内容类型信息，所述喻体内容类型信息用于表征所述喻体语料单元对应的内容类型。 9.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述喻体信息，确定所述目标文本对应的内容质量参数；其中，所述内容质量参数用于表征所述目标文本对应的文本内容质量，所述内容质量参数与所述喻体信息的信息量正相关。 10.一种信息识别装置，其特征在于，所述装置包括：目标语料获取模块，用于获取目标文本对应的目标语料单元；注释文本获取模块，用于获取所述目标语料单元对应的注释文本；语义信息提取模块，用于对所述目标文本进行字词语义信息提取处理，得到所述目标语料单元对应的第一语义特征信息；权　利　要　求　书 2/3 页 3 CN 114662496 A 3

专利 信息识别方法、装置、设备、存储介质及产品

专利信息识别方法、装置、设备、存储介质及产品