专利一种基于中间语义表示的文档级别机器翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210456900.1 (22)申请日 2022.04.24 (71)申请人四川语言桥信息技术有限公司地址 610000 四川省成都市高新区天府大道北段1288号1幢1单元801、 802、 803 号申请人西湖大学 (72)发明人鲍光胜　朱宪超　张岳　 (74)专利代理机构成都弘毅天承知识产权代理有限公司 5123 0 专利代理师黄海斌 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/221(2020.01) G06F 40/30(2020.01)G06F 40/58(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于中间语义表示的文档级别机器翻译方法 (57)摘要本发明公开了一种基于中间语义表示的文档级别机器翻译方法，涉及机器翻译技术领域，目的是提升机器翻译表达的准确性，包括以下步骤：通过AMRParser将原始语言的文档中的每个语句解析成A MR语义图， A MR语义图包括多个概念节点；通过AMR Coreference Resolver将每个语句之间的指代关系和省略内容补全；将文档的全部语句的AMR语义图进行组合，形成完整的Doc ‑ AMR语义图；通过图神经网络生成Doc ‑AMR语义图中各个概念节点的AMR向量表征和目标语言的翻译子词序列， AMR向量表征包括上下文信息和节点关系信息；本发明具有翻译更精准、稳定和连贯的优点。权利要求书1页说明书4页附图3页 CN 114881004 A 2022.08.09 CN 114881004 A 1.一种基于中间语义表示的文档级别机器翻译方法,其特征在于，包括以下步骤：步骤S1：通过AMR Parser将原始语言文档中的语句进行解析，每个语句对应一个AMR语义图，所述AMR语义图包括多个概念节点；步骤S2：通过AMR Coreference Resolver将AMR语义图进行补全；步骤S3：将补全后的AMR语义图进行组合，形成完整的Doc ‑AMR语义图；步骤S4：通过图神经网络生成所述Doc ‑AMR语义图中各个概念节点的AMR向量表征，所述AMR向量表征包括上下文信息和节点关系信息，根据 AMR向量表征输出目标语言的翻译子词序列。 2.根据权利要求1所述的一种基于中间语义表示的文档级别机器翻译方法，其特征在于，所述步骤S3中，所述形成完整的Doc ‑AMR语义图的方法包括：进行分布式编码，获取每个单词的分布式上下文向量表征；基于每个单词的分布式上下文向量表征获取每个概念节点的分布式上下文向量表征；以每个概念节点的分布式上下文向量表征为基础，采用AMRcoref ‑bert模型判别需要跨句链接的所述概念节点；所述AMRcoref ‑bert模型由标注好的训练数据进行训练；采用共指消解神经网络对所述概念节点之间的共指链接关系进行预测，获得跨句共指链接；根据跨句共指链接，将每个语句的ARM语义图进行连接，形成所述Doc ‑ARM语义图。 3.根据权利要求1所述的一种基于中间语义表示的文档级别机器翻译方法，其特征在于，所述步骤S4中的图形神经网络包括：编码器端：用于生成所述AMR向量表征；解码器端：用于根据所述AMR向量表征生成目标语言的翻译子词序列。 4.根据权利要求3所述的一种基于中间语义表示的文档级别机器翻译方法，其特征在于，所述生成所述AMR向量表征的方法包括：输入所述原始语言文档的子词序列，原始语言文档的子词序列在所述编码器端的输入端被转换成对应的嵌入表示；通过所述编码器端生成上下文嵌入表示；将所述上下文嵌入表示对应到所述Doc ‑ARM语义图中的各个所述概念节点；以所述上下文嵌入表示作为各个所述概念节点的初始化向量表征，经过多层图神经网络，将所述概念节点之间的关系表达进去，形成所述Doc ‑AMR语义图中各个所述概念节点的 AMR向量表征。 5.根据权利要求4所述的一种基于中间语义表示的文档级别机器翻译方法，其特征在于，所述嵌入式表示采用Embed ding向量。 6.根据权利要求3所述的一种基于中间语义表示的文档级别机器翻译方法，其特征在于，所述生成目标语言的翻译子词序列的方法为：所述解码器端根据所述AMR向量表征以序列方式逐词生成目标语言文档内容，组合成为所述翻译子词序列。权　利　要　求　书 1/1 页 2 CN 114881004 A 2一种基于中间语义表示的文档级别机器翻译方法技术领域 [0001]本发明涉及机器翻译技术领域，更具体的是涉及基于中间语义表示的文档级别机器翻译方法技术领域。背景技术 [0002]文档级别的机器翻译受到了研究领域持续增长的关注。相比较句子级别的机器翻译系统，文档级别的机器翻译系统更加实用，因为实际翻译任务基本上都是整篇文档。文档级别机器翻译和句子级别机器翻译的显著区别在于文档级别机器翻译在翻译每句话时都要考虑其在文档中的前后上下文，涉及到一些篇章结构信息包括指代、省略、一致性、连贯性等。研究表明，人类翻译员在翻译文档时也需要考虑整篇文档的上下文。虽然句子级别的机器翻译结果分开看已经很有竞争力，但从连在一起的整篇文档看还远远达不到让人满意的程度。 [0003]现有的文档级别机器翻译方法基本采用序列到序列的深度神经网络，例如最近的 G‑Transformer模型，将文档上下文和翻译语句作为一个词或子词序列，映射生成目标语言的词或子词序列。这些方法依赖深度学习模型中的自注意编码器形成每个词或子词以及上下文关系的分布式表征。这种上下文关系是基于统计的隐式的关系，没有明确的关系表征和语义表征。以指代关系为例，分布式表征中不会明确表明某个代词指向前文中的哪个对象，可能会导致翻译结果虽然阅读起来流畅但语义和原文不一致。发明内容 [0004]本发明的目的在于：提升机器翻译表达的准确性。为了解决上述技术问题，本发明提供一种基于中间语义表示的文档级别机器翻译方法。 [0005]本发明为了实现上述目的具体采用以下技术方案： [0006]一种基于中间语义表示的文档级别机器翻译方法，包括以下步骤： [0007]步骤S1：通过AMR Parser将原始语言的文档中的语句进行解析，每个语句对应一个AMR语义图，所述AMR语义图包括多个概念节点； [0008]步骤S2：通过AMR Coreference Resolver将AMR语义图进行补全； [0009]步骤S3：将补全后的AMR语义图进行组合，形成完整的Doc ‑AMR语义图； [0010]步骤S4：通过图神经网络生成所述Doc ‑AMR语义图中各个概念节点的AMR向量表征，所述AMR向量表征包括上下文信息和节点关系信息，根据AMR向量表征输出目标语言的翻译子词序列。 [0011]优选地，所述步骤S3中，所述形成完整的Doc ‑AMR语义图的方法包括： [0012]进行分布式编码，获取每个单词的分布式上下文向量表征； [0013]基于每个单词的分布式上下文向量表征获取每个概念节点的分布式上下文向量表征； [0014]以每个概念节点的分布式上下文向量表征为基础，采用AMRcoref ‑bert模型判别说　明　书 1/4 页 3 CN 114881004 A 3

专利 一种基于中间语义表示的文档级别机器翻译方法

专利一种基于中间语义表示的文档级别机器翻译方法