(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210166578.9
(22)申请日 2022.02.23
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 张明昊 刘晓龙 李博 陈曦
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 贾允
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 40/205(2020.01)
G06F 40/242(2020.01)
G06K 9/62(2022.01)
(54)发明名称
信息识别方法、 装置、 设备、 存 储介质及产品
(57)摘要
本申请公开了一种信息识别方法、 装置、 设
备、 存储介质及产品, 属于 人工智能技术领域。 所
述方法包括: 获取目标文本对应的目标语料单
元; 获取目标语料单元对应的注释文本; 对目标
文本进行字词语义信息提取处理, 得到目标语料
单元对应的第一语义特征信息; 对注释文本进行
文本语义信息提取处理, 得到注释文本对应的第
二语义特征信息; 基于第一语义特征信息与第二
语义特征信息, 对目标文本进行喻体信息识别处
理, 得到目标文本对应的喻体信息。 本申请提供
的技术方案, 通过提取目标文本中目标语料单元
及其注释文本各自对应的语义特征信息, 可以识
别目标文本中采用比喻修辞的喻体信息, 能够降
低人工成本并提升喻体信息识别的准确性。
权利要求书3页 说明书18页 附图4页
CN 114662496 A
2022.06.24
CN 114662496 A
1.一种信息识别方法, 其特 征在于, 所述方法包括:
获取目标文本对应的目标语料 单元;
获取所述目标语料 单元对应的注释文本;
对所述目标文本进行字词语义信 息提取处理, 得到所述目标语料单元对应的第 一语义
特征信息;
对所述注释文本进行文本语义信 息提取处理, 得到所述注释文本对应的第 二语义特征
信息;
基于所述第 一语义特征信 息与所述第 二语义特征信 息, 对所述目标文本进行喻体信 息
识别处理, 得到所述目标文本对应的喻体信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述获取目标文本对应的目标语料单元,
包括:
对所述目标文本进行分词处理, 得到语料单元序列, 所述语料单元序列包括至少一个
识别语料 单元;
获取所述至少一个识别语料 单元对应的词性信息;
基于所述词性信息, 确定所述目标语料 单元。
3.根据权利要求1所述的方法, 其特征在于, 所述目标文本包括所述目标语料单元和语
境语料单元, 所述语境语料单元是所述 目标文本中除所述 目标语料单元之外的语料单元,
所述对所述目标文本进行字词语义信息提取处理, 得到所述目标语料单元对应的第一语义
特征信息, 包括:
将所述目标文本 输入语义特 征提取模型;
基于所述语义特征提取模型, 对所述语境语料单元进行语义信息特征提取处理, 得到
所述目标语料 单元对应的第一语义特 征向量;
其中, 所述第一语义特征信息包括所述第一语义特征向量, 所述第一语义特征向量用
于表征所述目标语料 单元在所述目标文本中对应的语义信息 。
4.根据权利要求1所述的方法, 其特征在于, 所述注释文本包括至少一个注释语料单
元, 所述对所述注释文本进行文本语义信息提取处理, 得到所述注释文本对应的第二语义
特征信息, 包括:
将所述注释文本 输入语义特 征提取模型;
基于所述语义特征提取模型, 对所述至少一个注释语料单元进行语义信 息特征提取处
理, 得到所述至少一个注释语料单元对应的嵌入特征向量, 所述嵌入特征向量用于表征所
述至少一个注释语料 单元对应的语义信息;
基于所述嵌入特 征向量, 确定所述注释文本对应的第二语义特 征向量;
其中, 所述第二语义特征信息包括所述第二语义特征向量, 所述第二语义特征向量用
于表征所述注释文本的语义信息 。
5.根据权利要求3或4所述的方法, 其特征在于, 所述语义特征提取模型是基于样本文
本训练的机器学习模型, 所述样本文本对应的喻体信息的信息量小于信息量阈值, 所述样
本文本包括至少两条语句文本; 所述语义特 征提取模型的训练过程包括:
遍历所述至少两条语句文本;
将遍历到的语句文本中目标位置上的语料单元替换为预设标记符, 得到替换后的语句权 利 要 求 书 1/3 页
2
CN 114662496 A
2文本;
将所述替换后的语句文本输入目标机器学习 模型, 输出所述语料单元对应的语义特征
向量;
在所述至少两条语句文本遍历完成的情况下, 基于所述目标机器学习模型, 得到所述
语义特征提取模型。
6.根据权利要求5所述的方法, 其特 征在于, 所述训练过程还 包括:
确定所述至少两条语句文本中的语句文本对, 所述语句文本对基于所述至少两条语句
文本中不同的两条语句文本确定;
遍历所述语句文本对;
将遍历到的语句文本对输入所述目标机器学习模型, 输出所述遍历到的语句文本对对
应的上下文关系信息, 所述上下文关系信息用于表征所述遍历 到的语句文本对中的两条语
句文本之间的上 下文关系;
所述在所述至少两条语句文本遍历完成的情况下, 基于所述目标机器学习模型, 得到
所述语义特 征提取模型, 包括:
在所述至少两条语句文本遍历完成且所述语句文本对遍历完成的情况下, 基于所述目
标机器学习模型, 得到所述语义特 征提取模型。
7.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一语义特征信 息与所述第
二语义特征信息, 对所述 目标文本进行喻体信息识别处理, 得到所述 目标文本对应的喻体
信息, 包括:
确定所述第一语义特 征信息与所述第二语义特 征信息之间的语义相似度;
若所述语义相似度小于等于相似度阈值, 则将所述目标语料单元确定为所述喻体信
息。
8.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
在所述喻体信 息包括所述目标语料单元的情况下, 确定所述目标语料单元为喻体语料
单元;
根据所述第一语义特 征信息确定所述喻体 语料单元对应的本体 语料单元;
获取所述本体语料单元对应的本体 内容类型信 息, 所述本体内容类型信 息用于表征所
述本体语料单元对应的内容类型;
根据所述本体内容类型信息, 确定所述喻体语料单元对应的喻体内容类型信息, 所述
喻体内容类型信息用于表征 所述喻体 语料单元对应的内容类型。
9.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
根据所述喻体信息, 确定所述目标文本对应的内容质量 参数;
其中, 所述内容质量参数用于表征所述目标文本对应的文本内容质量, 所述内容质量
参数与所述喻体信息的信息量 正相关。
10.一种信息识别装置, 其特 征在于, 所述装置包括:
目标语料获取模块, 用于获取目标文本对应的目标语料 单元;
注释文本获取模块, 用于获取 所述目标语料 单元对应的注释文本;
语义信息提取模块, 用于对所述目标文本进行字词语义信息提取处理, 得到所述目标
语料单元对应的第一语义特 征信息;权 利 要 求 书 2/3 页
3
CN 114662496 A
3
专利 信息识别方法、装置、设备、存储介质及产品
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:29上传分享