全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210456900.1 (22)申请日 2022.04.24 (71)申请人 四川语言桥信息技 术有限公司 地址 610000 四川省成 都市高新区天府大 道北段1288号1幢1单元801、 802、 803 号 申请人 西湖大学 (72)发明人 鲍光胜 朱宪超 张岳  (74)专利代理 机构 成都弘毅天承知识产权代理 有限公司 5123 0 专利代理师 黄海斌 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/221(2020.01) G06F 40/30(2020.01)G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于中间语义表示的文档级别机器翻 译方法 (57)摘要 本发明公开了一种基于中间语义表示的文 档级别机器翻译方法, 涉及机器翻译技术领域, 目的是提升机器翻译表达的准确性, 包括以下步 骤: 通过AMRParser将原始语言的文档中的每个 语句解析成A MR语义图, A MR语义图包 括多个概念 节点; 通过AMR  Coreference  Resolver将每个语 句之间的指代关系和省略内容补全; 将文档的全 部语句的AMR语义图进行组合, 形成完整的Doc ‑ AMR语义图; 通过图神经网络生成Doc ‑AMR语义图 中各个概念节点的AMR向量表征和目标语言的翻 译子词序列, AMR向量表征包括上下文信息和节 点关系信息; 本发明具有翻译更精准、 稳定和连 贯的优点。 权利要求书1页 说明书4页 附图3页 CN 114881004 A 2022.08.09 CN 114881004 A 1.一种基于中间语义表示的文档级别机器翻译方法,其特 征在于, 包括以下步骤: 步骤S1: 通过AMR  Parser将原始语言文档中的语句进行解析, 每个语句对应一个AMR语 义图, 所述AMR语义图包括多个概念节点; 步骤S2: 通过AMR  Coreference  Resolver将AMR语义图进行补全; 步骤S3: 将补全后的AMR语义图进行组合, 形成完整的Doc ‑AMR语义图; 步骤S4: 通过 图神经网络生成所述Doc ‑AMR语义图中各个概念节点的AMR向量表征, 所 述AMR向量表征包括上下文信息和节点关系信息, 根据 AMR向量表征输出目标语 言的翻译子 词序列。 2.根据权利要求1所述的一种基于中间语义表示的文档级别机器翻译方法, 其特征在 于, 所述步骤S3中, 所述形成完整的Doc ‑AMR语义图的方法包括: 进行分布式编码, 获取每 个单词的分布式上 下文向量表征; 基于每个单词的分布式上 下文向量表征获取每 个概念节点的分布式上 下文向量表征; 以每个概念节点的分布式上下文向量表征为基础, 采用AMRcoref ‑bert模型判别需要 跨句链接的所述 概念节点; 所述AMRcoref ‑bert模型由标注好的训练数据进行训练; 采用共指消解神经网络对所述概念节点之间的共指链接关系 进行预测, 获得跨句共指 链接; 根据跨句共指链接, 将每 个语句的ARM语义图进行 连接, 形成所述Doc ‑ARM语义图。 3.根据权利要求1所述的一种基于中间语义表示的文档级别机器翻译方法, 其特征在 于, 所述步骤S4中的图形神经网络包括: 编码器端: 用于生成所述AMR向量表征; 解码器端: 用于根据所述AMR向量表征生成目标语言的翻译子词序列。 4.根据权利要求3所述的一种基于中间语义表示的文档级别机器翻译方法, 其特征在 于, 所述生成所述AMR向量表征的方法包括: 输入所述原始语言文档的子词序列, 原始语言文档的子词序列在所述编码器端的输入 端被转换成对应的嵌入表示; 通过所述编码器端生成上 下文嵌入表示; 将所述上 下文嵌入表示对应到所述Doc ‑ARM语义图中的各个所述 概念节点; 以所述上下文嵌入表示作为各个所述概念节点的初始化向量表征, 经过多层图神经网 络, 将所述概念节 点之间的关系表达进去, 形成所述Doc ‑AMR语义图中各个所述概念节点的 AMR向量表征。 5.根据权利要求4所述的一种基于中间语义表示的文档级别机器翻译方法, 其特征在 于, 所述嵌入式表示采用Embed ding向量。 6.根据权利要求3所述的一种基于中间语义表示的文档级别机器翻译方法, 其特征在 于, 所述生成目标语言的翻译子词序列的方法为: 所述解码器端根据所述AMR向量表征以序列方式逐词生成目标语言文档内容, 组合成 为所述翻译子词序列。权 利 要 求 书 1/1 页 2 CN 114881004 A 2一种基于中间语 义表示的文档级别机 器翻译方 法 技术领域 [0001]本发明涉及机器翻译技术领域, 更具体的是涉及基于中间语义表示的文档级别机 器翻译方法技 术领域。 背景技术 [0002]文档级别的机器翻译受到了研究领域持续增长的关注。 相比较句子级别的机器翻 译系统, 文档级别的机器翻译系统更加实用, 因为实际翻译任务基本上都是整篇文档。 文档 级别机器翻译和句子级别机器翻译的显著 区别在于文档级别机器翻译在翻译每句话时都 要考虑其在文档中的前后上下文, 涉及到一些篇章结构信息包括指代、 省略、 一致性、 连贯 性等。 研究表明, 人类翻译员在翻译文档时也需要考虑 整篇文档的上下文。 虽然句子级别的 机器翻译 结果分开看已经很有竞争力, 但从连在一起的整篇文档看还远远达不到让人满意 的程度。 [0003]现有的文档级别机器翻译方法基本采用序列到序列的深度神经网络, 例如最近的 G‑Transformer模 型, 将文档上下文和翻译语句作为一个词或子词序列, 映射生 成目标语 言 的词或子词 序列。 这些方法依赖深度学习模型中的自注意编码器形成每个词或子词以及上 下文关系的分布式表征。 这种 上下文关系 是基于统计的隐式的关系, 没有明确的关系表征 和语义表征。 以指代关系为例, 分布式表征中不会明确表明某个代词指向前文中的哪个对 象, 可能会导 致翻译结果虽然阅读起 来流畅但语义和原文不 一致。 发明内容 [0004]本发明的目的在于: 提升机器翻译表达的准确性。 为了解决上述技术问题, 本发明 提供一种基于中间语义表示的文档级别机器翻译方法。 [0005]本发明为了实现上述目的具体采用以下技 术方案: [0006]一种基于中间语义表示的文档级别机器翻译方法, 包括以下步骤: [0007]步骤S1: 通过AMR  Parser将原始语言的文档中的语句进行解析, 每个语句对应一 个AMR语义图, 所述AMR语义图包括多个概念节点; [0008]步骤S2: 通过AMR  Coreference  Resolver将AMR语义图进行补全; [0009]步骤S3: 将补全后的AMR语义图进行组合, 形成完整的Doc ‑AMR语义图; [0010]步骤S4: 通过图神经网络生成所述Doc ‑AMR语义图中各个概念节点的AMR向量表 征, 所述AMR向量表征包括上下文信息和节点关系信息, 根据AMR向量表征输出 目标语言的 翻译子词序列。 [0011]优选地, 所述 步骤S3中, 所述形成完整的Doc ‑AMR语义图的方法包括: [0012]进行分布式编码, 获取每 个单词的分布式上 下文向量表征; [0013]基于每个单词的分布式上下文向量表征获取每个概念节点的分布式上下文向量 表征; [0014]以每个概念节点的分布式上下文向量表征为基础, 采用AMRcoref ‑bert模型判别说 明 书 1/4 页 3 CN 114881004 A 3

.PDF文档 专利 一种基于中间语义表示的文档级别机器翻译方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于中间语义表示的文档级别机器翻译方法 第 1 页 专利 一种基于中间语义表示的文档级别机器翻译方法 第 2 页 专利 一种基于中间语义表示的文档级别机器翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:44:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。