全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210931239.5 (22)申请日 2022.08.04 (71)申请人 中译语通科技股份有限公司 地址 100040 北京市石景山区石景山路20 号16层16 01 (72)发明人 蔡超 严凤兵 郝雁华  (74)专利代理 机构 北京万贝专利代理事务所 (特殊普通 合伙) 11520 专利代理师 代亚欣 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06N 3/04(2006.01) (54)发明名称 一种跨语言实体链接方法、 系统、 设备及终 端 (57)摘要 本发明属于跨语 言实体链接技术领域, 公开 了一种跨语言实体链接方法、 系统、 介质、 设备及 终端, 所述跨语言实体链接方法包括: 搜索候选 实体, 构建实体名 索引; 构建基于不同线索的实 体链接模型; 基于属性的实体链接进行向量嵌入 及融合; 基于共现实体的多线索实体链接。 本发 明使用三种线索实现了实体链接, 线索分别是实 体属性、 共现实体、 上下文描述, 并结合运用了 LSTM、 CNN、 GCN等神经网络结构进行词 嵌入表示 与网络建模, 相较于传统实体链接技术具有更强 的语义表征能力和链接方法具有跨语 言能力; 通 过分析不同形式的信息, 实现三种不同结构的多 线索跨语言实体链接算法, 完成了新闻文本跨语 言人物、 机构等实体和给定知识库的精准链接 。 权利要求书3页 说明书8页 附图3页 CN 115470358 A 2022.12.13 CN 115470358 A 1.一种跨语言实体链接方法, 其特征在于, 所述跨语言实体链接方法包括: 搜索候选实 体, 构建实体名索引; 利用构建的实体链接模型实现跨语言实体链接; 所述实体链接模型包含三种实体链接计算模型: 基于属性、 基于共现实体、 基于上下文 的实体链接模型, 根据输入信息的不同线索, 选取相应的模型进行计算, 得到实体链接结 果。 2.如权利要求1所述的跨语言实体链接方法, 其特征在于, 所述实体链接模型的构建方 法包括: 构建基于不同线索的实体链接模型; 基于属性的实体链接进行向量嵌入及融合; 基于共现实体的多 线索实体链接 。 3.如权利要求1所述的跨语言实体链接方法, 其特征在于, 所述跨语言实体链接方法还 包括: 对于给定语种的指称, 找到在知识图谱中的候选实体; 根据中英文的实体名和实体描 述, 将每个不同的描述文本映射到其目标实体名, 构建实体名索引; 构建索引后, 将指称项进行词嵌入, 与图谱中的实体计算相似度, 筛选相似度大于规定 阈值的候选项后, 利用向量融合的方法将其 他语种的实体映射到同一向量空间中; 构建基于不同线索的实体链接模型: 基于属性、 基于共现实体、 基于上下文的实体链 接, 并通过候选实体集合以及提供线索选择不同的实体链接模型, 得到指称项在不同语种 中的跨语言链接结果; 基于属性的实体链接, 将 实体指称项与属性描述进行向量嵌入后经过图卷积模型进行 融合, 计算各自属性向量的求和平均值作为实体之前的相似度系数, 从而求出链接实体; 基于共现实体的实体链接, 利用相似系数计算共现实体在中心实体所占的比重的注意 力特征, 结合共现关系的向量 化特征计算目标实体与图谱中实体的相似度, 得到链接实体; 基于上下文的实体链接, 将 实体指称与属于实体共指链的上下文组合在一起形成句子 序列, 使用神经网络模型对序列建模, 与图谱中实体作相似度计算, 得到链接实体。 4.如权利要求1所述的跨语言实体链接方法, 其特征在于, 所述跨语言实体链接方法包 括以下步骤: 步骤一, 从已有知识库中获取实体名—实体描述文本, 根据既有知识库, 将不同语种的 实体描述文本映射到其在知识库中的实体名称, 利用多语言知识库构建实体名索引; 构建 索引可以有效降低候选实体的检索时间; 步骤二, 获取待链接目标文本, 从文本中抽取待链接的实体指称项以及实体上下文描 述, 获取该实体拥有的属性, 以及文本中出现的共现实体; 步骤三, 通过实体名索引, 计算实体指称项与知识库中实体之间的相似度, 将相似度与 预设的候选实体阈值进行比较, 并判断是否存在相似度分数小于所述 候选实体阈值; 若是, 则对于该指称项放弃所述实体; 若否, 则将所述实体加入指称项的候选实体集合 中, 并转向步骤三; 先一 步筛选候选实体减少后续模型的计算 量; 步骤四, 利用向量融合方法将其他语言的词向量映射为英语的词向量, 将不同语种的 向量映射到同一向量空间中; 将所有实体映射到同一向量空间以实现跨语言的实体比较; 步骤五, 通过候选实体集合以及提取出的线索选择不同的实体链接模型, 合并各个模权 利 要 求 书 1/3 页 2 CN 115470358 A 2型的链接结果, 得到指称项在不同语种中最终的跨语言链接结果; 根据线索选择不同的链 接模型, 更全面 地利用实体的信息进行实体链接的计算, 使得链接结果更加准确且合理。 5.如权利要求4所述的跨语言实体链接方法, 其特征在于, 所述步骤一中, 对于跨语言 实体链接实体名索引, 使用英文维基百科索引, 并从各自的目标语言维基百科构建实体名 索引; 其中, 所述英文维基百 科索引从英文快照构建; 使用经典word2vec中的CBOW模型生成各语种的单词嵌入; 将所有知识库的实体用向量 表示存储在数据库中。 6.如权利要求4所述的跨语言实体链接方法, 其特征在于, 所述步骤四中, 使用多种不 同的向量融合方法对比, 包括: CCA: 对不同语言的文本执行SVD后, 对平行语料库中对齐的单词的向量对应用典型相 关分析CCA, 从而学习向量; 对于跨语言实体链接, 使用从维基百科中的跨语言链接获得的 标题映射构建的嵌入; MultiCCA: 在CCA的基础 上, 使用线性算子将除母语外的每种语言中的预训练单语嵌入 投影到预训练母语单词嵌入的向量空间; LS: 其他语种嵌入直接投影到母语上, 映射 通过多元回归构建。 7.如权利要求4所述的跨语言实体链接方法, 其特征在于, 所述步骤五中, 基于属性的 链接、 基于共现实体的链接和基于上 下文的链接; 利用以下距离方式计算属性向量: OAE=‑∑(a,c)∈Hwa,c·logp(c|a); 其中, w表示类型权重, 若具有相同类型的属性, 权重值会更高, 从而将具有相关性的属 性嵌入到相似的空间; 利用相似系数计算共现实体在中心实体所占的比重, 计算方法为: eij=a([Whi][Whj]),j∈Ni; 其中, W为参数矩阵, h为各个实体经 过向量融合后的向量; 利用多粒度文本对指称项 进行向量嵌入: 利用NTN函数对menti on的上下文进行建模, 形成menti on的细粒度上 下文表示。 8.一种实施权利要求1~7任意一项所述的跨语言实体链接方法的跨语言实体链接系 统, 所述跨语言实体链接系统包括: 候选实体搜索模块, 对于给定语种的指称, 找到在 知识图谱中的候选实体; 实体名索引构建模块, 用于根据中英文的实体名和实体描述, 将每个不同的描述文本 映射到其目标实体名, 构建实体名索引; 向量融合模块, 构建索引后, 用于将指称项进行词嵌入, 与图谱中的实体计算相似度, 筛选相似度大于规定阈值的候选项后, 利用向量融合的方法将其他语种的实体映射到同一 向量空间中; 实体链接模型构建模块, 用于基于属性、 基于共现实体、 基于上下文的实体链接, 并通 过候选实体集合以及提供线索选择不同的实体链接模型, 得到指称项在不同语种中的跨语 言链接结果;权 利 要 求 书 2/3 页 3 CN 115470358 A 3

.PDF文档 专利 一种跨语言实体链接方法、系统、设备及终端

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种跨语言实体链接方法、系统、设备及终端 第 1 页 专利 一种跨语言实体链接方法、系统、设备及终端 第 2 页 专利 一种跨语言实体链接方法、系统、设备及终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。