专利跨语际语言翻译的神经机器翻译模型构建及其翻译方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210808791.5 (22)申请日 2022.07.11 (71)申请人西南财经大学地址 610000 四川省成都市青羊区光华村街55号申请人喀什地区电子信息产业技术研究院 (72)发明人黄鹂　伍红梅　梁若暄　刘贵松　蒋太翔　殷光强　 (74)专利代理机构成都希盛知识产权代理有限公司 512 26 专利代理师陈泽斌 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06F 40/126(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称跨语际语言翻译的神经机器翻译模型构建及其翻译方法 (57)摘要本发明涉及属于机器翻译领域，提供了跨语际语言翻译的神经机器翻译模型构建及其翻译方法，适用于各类跨语际语言翻译。在训练时，基于训练子集的源语言语料进行编码，构建融合其上下文依赖关系的文本向量，然后计算得其文本表征；然后，针对该子集逐词进行解码，在每一步，首先融合历次译文文本和源文本获得混合表征，然后基于此进行焦点位置计算，获取当前焦点位置的翻译候选词；通过不同子集，在达到一定的步数后，根据候选词和真值的误差进行迭代训练。翻译方法，同样逐词进行翻译，在每一个翻译步，生成当前步基于焦点位置的翻译候选表示，并利用启发式搜索算法，选择其中全局概率值最大的候选文本作为当前步输出的译文文本，直至翻译完成。权利要求书4页说明书11页附图3页 CN 115017924 A 2022.09.06 CN 115017924 A 1.跨语际语言翻译的神经机器翻译模型构建方法,其特征在于,包括以下步骤: 步骤1、准备：选择语料数据,进行预处理,构建训练集；所述训练集由子集构成，所述子集为以句为单位，包括对应的源文本语料和目标文本语料以及目标翻译真值；初始化模型的词汇表参数矩阵；初始化待翻译词语，并基于待翻译词语初始化译文文本；步骤2、输入训练集的任意一个子集；步骤3、编码：基于词汇表参数矩阵对输入子集中的源语言语料进行映射变换，获得其各词语的词向量；基于源语言语料的词向量，构建融合上下文依赖关系的文本向量；采用注意力机制，对文本向量进行计算，获得源文本语料的文本表征；步骤4、解码：步骤41、基于词汇表参数矩阵对输入的译文文本进行映射变换，获得其各词语的词向量，通过对译文文本的词向量的拼接，构建该译文文本的融合表示；步骤42、对当前译文文本的融合表示和源文本的文本表征进行融合，获得融合当前译文文本的混合表征矩阵；步骤43、基于混合表征矩阵，计算当前待翻译词语在源文本语料中的焦点位置，并基于焦点位置计算源文本语料中各词语对该待翻译词语的贡献概率；基于贡献概率和混合表征矩阵，得到该待翻译词语的翻译候选表示；步骤44、判定是否完成该子集中目标语言语料的解码，若是，则进入步骤5；否则，将步骤43中的当前待翻译词语在目标语言语料中顺序的下一个词语作为新的待翻译词语，将目标语言语料中在新的待翻译词语之前的所有词语构成的文本作为新的译文文本，并将新的待翻译词语和新的译文文本作为输入，返回步骤41；步骤5、对目标文本语料各词语的翻译候选表示分别进行映射计算，并取概率值最大的源文本语料词语作为其翻译候选词；步骤6、判定是否达到预设条件，若是，则进入步骤7，否则返回步骤2；所述预设条件为获得的翻译候选词的词语数量或子集数量；步骤7、基于所获得的目标语言词语的翻译候选词及其目标翻译真值，进行交叉熵损失函数计算，基于损失函数对模型进行训练，更新参数，完成本轮训练；步骤8、判定是否达到预设训练轮数或预设训练目标，若是，则完成训练，否则返回步骤 2。 2.根据权利要求1所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤1中，遍历语料数据，形成源语言词汇表和目标语言词汇表，并对词汇表的词语进行编号，随机生成可跟随模型学习的词汇表参数矩阵；步骤3中，对输入子集中的源语言语料进行遍历，根据其词语的编号查询对应词汇表参数矩阵中对应的词语向量作为该词语的词向量；步骤4中，对译文文本进行遍历，根据其词语的编号查询对应词汇表参数矩阵中对应的词语向量作为该词语的词向量。 3.根据权利要求1所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤3，基于源语言语料的词向量，构建融合上下文依赖关系的文本向量；采用注意力机制，权　利　要　求　书 1/4 页 2 CN 115017924 A 2对文本向量进行计算，获得源文本语料的文本表征，包括如下步骤：步骤31、通过对源语言语料的词向量的正序和逆序拼接，构建该源语言语料的正序和逆序的源文本初始语义矩阵；步骤32、对正序和逆序的源文本初始语义矩阵进行融合，获取融合源文本语料中上下文依赖关系的源文本语义矩阵；步骤33、基于源文本语义矩阵进行线性映射得到文本向量，对文本向量进行本层的注意力计算；步骤34、判定是否达到设定的编码循环层数，若是，则将其输出作为文本表征；否则，将步骤33获得的隐藏层输出向量作为源语言语料新的词向量，并返回步骤31。 4.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤31中，采用如下公式，通过对源语言语料的词向量的正序和逆序拼接，构建该源语言语料的正序和逆序的源文本初始语义矩阵：其中， t表示词语数量， t ′表示词语在源语言语料中所处的位次； ht′表示多层注意力计算中前一层的隐藏层输出向量，初始为词向量； W1、 b1、 W2、 b2均为可学习权值；箭头则表示正序和逆序， ReLU为激活函数。 5.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤32中，采用GSN门控状态网络对正序和逆序的源文本初始语义矩阵进行融合，获取融合源文本语料中上下文依赖关系的源文本语义矩阵，计算公式如下：其中，表示源文本语义矩阵， GSN( ·)表示采用门控网络层进行计算， S代表 H 代表符号“；”表示拼接操作， fg和ig代表门控符号；其计算方式为：其中，符号 “；”表示拼接操作； Wf1、 Wi1、 bf1、 bi1均为可学习权值。 6.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤33中，基于源文本语义矩阵进行映射得到文本向量，对文本向量进行本层的注意力计算，包括如下步骤：步骤331、采用三种参数分别对源文本语义矩阵进行映射计算，得到基于三种参数的文本向量和步骤332、按如下公式进行注意力计算：权　利　要　求　书 2/4 页 3 CN 115017924 A 3

专利 跨语际语言翻译的神经机器翻译模型构建及其翻译方法

专利跨语际语言翻译的神经机器翻译模型构建及其翻译方法