全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210692261.9 (22)申请日 2022.06.17 (71)申请人 西安邮电大 学 地址 710121 陕西省西安市长安区西长安 街西安邮电大 学 (72)发明人 王曙燕 马晶晶 孙家泽 王小银  (51)Int.Cl. G06F 40/58(2020.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/02(2006.01) (54)发明名称 面向神经机器翻译系统的句子粒度蜕变测 试方法 (57)摘要 本发明针对神经机器翻译系统存在的翻译 鲁棒性评估问题, 公开了一种面向神经机器翻译 系统的句子粒度蜕变测试方法, 属于蜕变测试领 域。 该方法首先对需要进行相似度计算的两组文 本进行数据预处理操作, 生成两组词语列表; 然 后, 将两组词语列表使用基于TF ‑IDF的词袋模型 构建文本向量, 并计算两组文本向量的夹角余弦 值; 同时, 计算出两组词语列表的Jaccard相似系 数和编辑距离; 最后, 根据定义的相似度计算公 式和蜕变关系计算出句子之间的相似度和蜕变 关系满足率。 本发明 改善了单一余弦相似度方法 难以反映出句子不同词序所带来的语义变化, 加 强句子因词序变化带来语义变化的辨别能力, 提 高了句子相似度计算准确度和翻译质量评估准 确度。 权利要求书2页 说明书5页 附图2页 CN 114881053 A 2022.08.09 CN 114881053 A 1.面向神经机器翻译系统的句子粒度蜕变测试 方法, 其特 征在于包括以下步骤: 步骤一: 获取语料库的中英文双语文本数据, 根据蜕变关系生成测试用例, 具体地, 将 每个领域英文 数据输入到基于神经网络的翻译系统中进行三次往返翻译: 先把源英语句子 Sen输入到翻译系统生成中文结果Szh, 再将Szh输入到翻译系统生成英文句子S ’en, 最后将 S’en再次输入翻译系统生成中文翻译结果S ’zh; 步骤二: 对数据集的源中英文数据和生成的测试用例进行数据 预处理操作: 分词、 删除 停用词和标点符号, 因为中英文构成不同, 英文句 子还需要进行小写字母转换和词形还原 等操作, 得到词语列表W; 步骤三: 将需要计算相似度的两个句子记为S1和S2, 经过数据预处理的句子形成词语列 表WS1和WS2, 通过基于TF ‑IDF的词袋模型将WS1和WS2表示为向量形式VS1和VS2, 传统计算是将 所有特征词的权重看作是相同的, 但针对具有不同领域数据的数据集, 需要降低次要特征 项的作用, 提升主要特征项的作用, 对词频进行改进, 增加一个权值, 其改进后的计算公式 如下: tf‑idf(t,d)=tft,d·idft·ci 其中tft,d·idf是传统的TF ‑IDF算法计算过程, maxλn,i表示第i个特征词在n类文本数 据中出现的次数最多, ∑ λn表示n类文本的总词数; 步骤四: 计算VS1和VS2的夹角余弦值cos(VS1,VS2), 计算S1和S2的Jaccard系数J(WS1,WS2), 余弦相似度和Jac card系数计算公式如下: 其中, 表示两个向量VS1和VS2对应分量的乘积之和, 表示向量VS1的 长度, 表示向量VS2的长度, WS1∩WS2表示句子S1和S2共存的词, WS1∪WS2表示句子 S1和S2除去存在相同的词以外的所有词; 步骤五: 对数据集的源中英文数据和生成的测试用例进行数据预处理操作: 分词和去 除标点符号, 生成只保留句子中原词序的公共 子序列集合(W1,W2,…,Wn), S1和S2经过分词和 去除标点符号操作, 生成保留原句词序的词语列表, 然后计算S1和S2的编辑距离E(S1,S2), 用以衡量具有公共词语的两个句子之间词序的差异性, 编辑距离的计算公式如下:权 利 要 求 书 1/2 页 2 CN 114881053 A 2其中, k和l分别表示字符串S1和字符串S2的下标, 当min(k,l)=0时, 表示字符串S1和S2 中有一个为空串, 那么从x转换到y只需要进行max(k,l)次单字符编辑操作, 所以它们之间 的编辑距离为max(k,l), 即k和l中的最大者。 当min(k,l)≠0的时候, 表示 删除S1k, 表示插入S2l, 表示替换S2l, 是指示 函数, 当S1k=S2l时, 其函数值为0; 否则函数值 为1; 步骤六: 计算句子S1和S2的相似度Smilarity(S1,S2),Smilarity(S1,S2)由Jaccard系数 和编辑距离乘积构成的抑制因子和余弦相似度的乘积得来, 计算公式如下: 其中, Jaccard系数和编辑距离乘积KS1,S2对余弦相似度产生抑制作用, 能够弥补余弦相 似度不能捕捉到因为词序变化带来的语义变化, KS1,S2以对数衰减函数 形式构造; 步骤七: 根据相似度计算公式, 计算两个句子的相似度, 将步骤一的源英文句子Sen和生 成的测试用例Szh、 S’en和S’zh, 按照如图1的流程, 重复步骤三到六, 直到计算出所有句子对 Sen和S’en、 Szh和S’zh的相似度为止; 步骤八: 根据蜕变关系得 出蜕变关系满足率, 蜕变关系的定义如下: Similarity(Szh,S'zh)/Similarity(Sen,S'en)≥1 其中, Similarity(Szh,S'zh)代表目标语言中文句子对的相似度结果, Similarit y(Sen, S'en)代表源语言英文句子对的相似度结果, 只使用单一语言句子对的相似度作评估结果, 未考虑到回译或正译的翻译结果的质量出现或 高或低的情况, 因此使用两种语言的句子相 似度结果的比值评估翻译质量; 步骤九: 根据每 个翻译引擎的句子蜕变关系满足率计算出其翻译质量的评估分数。 2.根据权利要求1所述的面向神经机器翻译系统的句子粒度蜕变测试方法, 其特征在 于: 该方法可以应用于神经机器翻译系统的翻译质量鲁棒 性评估。权 利 要 求 书 2/2 页 3 CN 114881053 A 3

.PDF文档 专利 面向神经机器翻译系统的句子粒度蜕变测试方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向神经机器翻译系统的句子粒度蜕变测试方法 第 1 页 专利 面向神经机器翻译系统的句子粒度蜕变测试方法 第 2 页 专利 面向神经机器翻译系统的句子粒度蜕变测试方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:15:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。