全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210808791.5 (22)申请日 2022.07.11 (71)申请人 西南财经 大学 地址 610000 四川省成 都市青羊区光 华村 街55号 申请人 喀什地区电子信息产业 技术研究院 (72)发明人 黄鹂 伍红梅 梁若暄 刘贵松  蒋太翔 殷光强  (74)专利代理 机构 成都希盛知识产权代理有限 公司 512 26 专利代理师 陈泽斌 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06F 40/126(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 跨语际语言翻译的神经机器翻译模型构建 及其翻译方法 (57)摘要 本发明涉及属于机器翻译领域, 提供了跨语 际语言翻译的神经机器翻译模型构建及其翻译 方法, 适用于 各类跨语际语言翻译。 在训练时, 基 于训练子集的源语 言语料进行编码, 构建融合其 上下文依赖关系的文本向量, 然后计算得其文本 表征; 然后, 针对该子集逐词进行解码, 在每一 步, 首先融合历次译文文本和源文本获得混合表 征, 然后基于此进行焦点位置计算, 获取当前焦 点位置的翻译候选词; 通过不同子集, 在达到一 定的步数后, 根据候选词和真值的误差进行迭代 训练。 翻译方法, 同样逐词进行翻译, 在每一个翻 译步, 生成当前步基于焦点位置的翻译候选表 示, 并利用启发式搜索算法, 选择其中全局概率 值最大的候选文本作为当前步输出的译文文本, 直至翻译完成。 权利要求书4页 说明书11页 附图3页 CN 115017924 A 2022.09.06 CN 115017924 A 1.跨语际语言翻译的神经机器翻译模型构建方法,其特 征在于,包括以下步骤: 步骤1、 准备: 选择语料数据,进行预处理,构建训练集; 所述训练集由子集构成, 所述子集为以句为 单位, 包括对应的源文本语料和目标文本语料以及目标翻译真值; 初始化模型 的词汇表参 数矩阵; 初始化待翻译词语, 并基于待翻译词语初始化译 文文本; 步骤2、 输入训练集的任意 一个子集; 步骤3、 编码: 基于词汇表参数矩阵对输入子集中的源语言语料进行映射变换, 获得其各词语的词向 量; 基于源语言语料的词向量, 构建融合上下文依赖关系的文本向量; 采用注意力机制, 对 文本向量进行计算, 获得源文本语料的文本表征; 步骤4、 解码: 步骤41、 基于词汇表参数矩阵对输入的译文文本进行映射变换, 获得其各词语的词向 量, 通过对译 文文本的词向量的拼接, 构建该译 文文本的融合表示; 步骤42、 对当前译文文本的融合表示和源文本的文本表征进行融合, 获得融合当前译 文文本的混合表征矩阵; 步骤43、 基于混合表征矩阵, 计算当前待翻译词语在源文本语料中的焦点位置, 并基于 焦点位置计算源文本语料中各词语对该待翻译词语的贡献概率; 基于 贡献概率和混合表征 矩阵, 得到该待翻译词语的翻译候选表示; 步骤44、 判定是否完成该子集中目标语言语料的解码, 若是, 则进入步骤5; 否则, 将步 骤43中的当前待翻译词语在目标语言语料中顺序的下一个词语作为新的待翻译词语, 将目 标语言语料中在新的待翻译词语之前的所有词语构成的文本作为新的译文文本, 并将新的 待翻译词语和新的译 文文本作为输入, 返回步骤41; 步骤5、 对目标文本语料各词语的翻译候选表示分别进行映射计算, 并取概率值最大的 源文本语料词语作为 其翻译候选词; 步骤6、 判定是否达到预设条件, 若是, 则进入步骤7, 否则返回步骤2; 所述预设条件为 获得的翻译候选词的词语数量或子集数量; 步骤7、 基于所获得的目标语言词语的翻译候选词及其目标翻译真值, 进行交叉熵损失 函数计算, 基于损失函数对 模型进行训练, 更新 参数, 完成本轮训练; 步骤8、 判定是否达到预设训练轮数或预设训练目标, 若是, 则完成训练, 否则返回步骤 2。 2.根据权利要求1所述的跨语际语言翻译的神经机器翻译模型构建方法,其特 征在于, 步骤1中, 遍历语料数据, 形成源语言词汇表和目标语言词汇表, 并对词汇表的词语进 行编号, 随机生成可跟随模型 学习的词汇 表参数矩阵; 步骤3中, 对输入子集中的源语言语料进行遍历, 根据其词语的编号查询对应词汇表参 数矩阵中对应的词语向量作为该词语的词向量; 步骤4中, 对译文文本进行遍历, 根据其词语的编号查询对应词汇表参数矩阵中对应的 词语向量作为该词语的词向量。 3.根据权利要求1所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤3, 基于源语 言语料的词向量, 构建融合上下文依赖 关系的文本向量; 采用注意力机制,权 利 要 求 书 1/4 页 2 CN 115017924 A 2对文本向量进行计算, 获得源文本语料的文本表征, 包括如下步骤: 步骤31、 通过对源语言语料的词向量的正序和逆序拼接, 构建该源语言语料的正序和 逆序的源文本初始语义矩阵; 步骤32、 对正序和逆序的源文本初始语义矩阵进行融合, 获取融合源文本语料中上下 文依赖关系的源文本语义矩阵; 步骤33、 基于源文本语义矩阵进行线性映射得到文本向量, 对文本向量进行本层的注 意力计算; 步骤34、 判定是否达到设定的编码循环层数, 若是, 则将其输出作为文本表征; 否则, 将 步骤33获得的隐藏层输出向量作为源语言语料新的词向量, 并返回步骤31。 4.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤31中, 采用如下公式, 通过对源语 言语料的词向量的正序和逆序拼接, 构建该源语 言语 料的正序和逆序的源文本初始语义矩阵: 其中, t表示词语数量, t ′表示词语在源语言语料中所处的位次; ht′表示多层注意力计 算中前一层的隐藏层输出向量, 初始为词向量; W1、 b1、 W2、 b2均为可学习权值; 箭头则表示正 序和逆序, ReLU为激活函数。 5.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤32中, 采用GSN门控状态网络对正序和逆序的源文本初始语义矩阵进 行融合, 获取融合 源文本语料中上 下文依赖关系的源文本语义矩阵, 计算公式如下: 其中, 表示源文本语义矩阵, GSN( ·)表示采用门控网络层进行计算, S代表 H 代表 符号“;”表示拼接操作, fg和ig代表门控符号; 其计算方式为: 其中, 符号 “;”表示拼接操作; Wf1、 Wi1、 bf1、 bi1均为可学习权值。 6.根据权利要求3所述的跨语际语言翻译的神经机器翻译模型构建方法,其特征在于, 步骤33中, 基于源文本语义矩阵进行映射得到文本向量, 对文本 向量进行本层的注意力计 算, 包括如下步骤: 步骤331、 采用三种参数分别 对源文本语义矩阵进行映射计算, 得到基于三种参数的文 本向量 和 步骤332、 按如下公式进行注意力计算:权 利 要 求 书 2/4 页 3 CN 115017924 A 3

.PDF文档 专利 跨语际语言翻译的神经机器翻译模型构建及其翻译方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 第 1 页 专利 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 第 2 页 专利 跨语际语言翻译的神经机器翻译模型构建及其翻译方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。