全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211268116.4 (22)申请日 2022.10.17 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 申请人 北京中科闻歌科技股份有限公司 (72)发明人 张鹏 甘国兵 李孙竹 吕秀庆  王本友 王磊 赵菲菲 罗引  徐楠  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 韩帅 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于形态学增强的张量化词嵌入压缩 系统 (57)摘要 本发明公开了一种基于形态学增强的张量 化词嵌入压缩系统, 该模型包括语素分割模块、 语素索引及嵌入模块、 词嵌入生成模块; 所述语 素分割模块将文本任务的词表中每个词分割成 语素, 所述语素索引及嵌入模块首先统计语素分 割模块的分割结果生成语素表, 接着定义语素索 引矩阵和多个可训练的语素嵌入矩阵, 语素索引 矩阵每一行代表词表中对应单词的语素在语素 表中的位置, 语素嵌入矩阵的每一行代表语素表 中对应语素的嵌入向量; 词嵌入生成模块对词表 中每个词, 从语素嵌入矩阵中索引出语素向量并 进行张量积, 多个张量积的结果相加生成词嵌入 向量; 本发 明克服了一般词嵌入技术参数量及存 储空间占用大的问题, 以及高倍压缩词嵌入时任 务效果损失的问题。 权利要求书1页 说明书5页 附图1页 CN 115481645 A 2022.12.16 CN 115481645 A 1.一种基于形态学增强的张量化词嵌入压缩系统, 该模型包括语素分割模块、 语素索 引及嵌入 模块、 词嵌入生成模块; 其特 征在于: 所述语素分割模块将文本任务的词表V中每个词分割成长度为n的语素, 并构建语素表 M; 所述语素索引及嵌入模块根据语素表M和词表V构建维度为|V| ×n的语素索引矩阵I; 所述语素索引矩阵的每一行代表词表中对应单词的语素在语素表M中的位置; 其中: |V|是 词表V的大小; 所述语素索引及嵌入模块根据语素表M构建r个可训练的维度为|M| ×q的语素嵌入矩 阵fi; 所述语素嵌入矩阵的每个行向量代表语素表中相应语素的q维嵌入向量; 其中: |M|是 语素表M的大小, 1≤i≤r; 所述词嵌入生成模块根据所述语素索引矩阵I的语素索引向量Ij和所述语素嵌入矩阵 fi中索引出的语素向量进行张量积运 算构建词嵌入向量模型。 2.根据权利要求1所述的一种基于形态学增强的张量化词嵌入压缩系统, 其特征在于: 所述语素分割模块构建语素表M过程: 所述语素分割模块统计任务的文本数据中包含的不同单词形成词表V, 利用形态学语 素分割方法对词表中的每 个词进行语素分割; 其中: 将一个由l个 语素构成的单词将被划分成一个 语素序列[m1, m2,…, ml]; 对词表V中不同单词的语素序列后处 理成相同的固定 长度n: (1)对于语素 数量l少于n的单词, 用填充符进行填充; (2)对于语素数量l超过n的单词, 拼接第n个语素以及该语素后面所有的语素([mn,…, ml])为一个语素; 所述语素分割模块统计经过上述语素分割和后处理 的结果, 根据产生的不同语素构建 语素表M。 3.根据权利要求1所述的一种基于形态学增强的张量 化词嵌入压缩系统, 其特 征在于: 所述词嵌入生成模块构建词嵌入向量模型 过程: 对词表V中的第j个词, 先从语素索引矩阵I中找到该词的语素索引向量Ij, 即[Ij1, Ij2,…, Ijn]; 根据语素索引向量从单个语素嵌入矩阵fi中索引出n个语素向量并进行张量积运算得 到一个qn维的向量; 从r个语素嵌入矩阵中得到的qn维向量相加得到该词qn维的词向量生成词嵌入 向量模 型: 权 利 要 求 书 1/1 页 2 CN 115481645 A 2一种基于形 态学增强的张量化词嵌入压缩系统 技术领域: [0001]本发明涉及自然语言处理领域, 尤其涉及 一种基于形态学增强的张量化词嵌入压 缩系统。 背景技术: [0002]词嵌入技术是机器翻译、 文本分类、 信息检索以及问答等各种自然语言处理(NLP) 任务的基础。 它能够将文本数据中的单词表示成一个固定长度的向量, 以便计算机对文本 进行处理。 任务中所有不同词向量将构成一个|V| ×d的词嵌入矩阵W, 其中, |V|表示词表V 的大小, 即任务的文本所包含的不同单词的数量, d表示词向量的维度。 词嵌入矩阵W作为 NLP模型的一部分参数, 需要被训练和优化。 当词表大小和词向量维度很大时, 词嵌入矩阵 将占用大量的模型参数。 例如, One  Billion Word[1]语言建模任务的词表大小|V|可达80 万, 而词向量维度d通常300~1024[2,3]。 根据任务和 模型设置的不同, 词嵌入矩阵的参数 通常会占到模 型总参数的20%~90%。 因此, 利用词嵌入技术存储和访问词嵌入参数, 需要 大量的磁盘和内存空间。 这限制了NLP模型在资源受限的设备上进 行部署, 不利于其 实际落 地和应用。 [0003]针对词嵌入参数量大的问题, 大量研究人员致力于词 嵌入压缩技术的研究。 这些 研究可以大致分为两大类: 基于乘积量 化的方法, 以及基于分解的方法。 [0004]基于乘积量化的词嵌入压缩方法[ 4,5,6]的核心思想是为每个单词学习一组唯一 的紧凑代码, 这组代码中的每个码值分别指向码本中的一个向量。 即, 每个单词的向量表 示 可以通过其紧凑代码在码本中的向量合成。 因此, 这类词嵌入压缩方法的重点是单词紧凑 代码的学习。 例如, Raphael  Shu等人[4]利用Gumbel ‑Softmax技术[7]实现了基于神经网络 的端到端的单词紧凑代码的学习, 同时每一个单词被表示为紧凑代码所指向的码本向量的 和。 由于只需要存储单词的紧凑代码和码本 向量, 该方法在机器翻译等任务上实现了超过 10倍的词嵌入层参数的压缩。 但是这类方法引入的额外的单词紧凑代码学习的任务存在一 些潜在的风险。 一方面, 紧凑代码学习的任务需要依赖已经训练好的词嵌入, 另一方面, 紧 凑代码学习的质量 也会直接影响其词嵌入学习的质量, 从而造成任务效果的损失。 [0005]基于分解的词嵌入压缩方法[8,9,10]主要是利用低秩矩阵分解和张量分解的逆 过程, 将原始大 的词嵌入矩阵用一系列小的矩阵或者张量来代替, 模型只需要存储这些小 矩阵或张量的参数, 从而 是实现词嵌入参数的压缩。 其中, 基于低秩矩阵分解的词嵌入压缩 方法通常会利用两个小矩阵的乘积来近似代替原始的词嵌入矩阵, 例如ALBERT[8]利用该 方法在预训练语言模型上压缩词嵌入参数约6倍。 基于张量火车(TensorTrain)分解[9]的 词嵌入压缩 方法TT Embeddings[10]利用一系列2阶或3阶张量的乘积来近似代 替原始大的 词嵌入矩阵。 基于量子纠缠态的词嵌入压缩方法Word2 ket[11]表 示单个词向量为若干个低 维向量的张量直积的和, 这本质类似张量分解中的秩分解[12]。 TT  Embeddings和Word2ket 这两类基于张量分解的词嵌入压缩方法具有强大的压缩能力, 能够在机器翻译任务上实现 数十倍甚至数百倍的词嵌入参数压缩。 但是它们在实现高倍参数压缩时, 通常难以保持任说 明 书 1/5 页 3 CN 115481645 A 3

PDF文档 专利 一种基于形态学增强的张量化词嵌入压缩系统

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于形态学增强的张量化词嵌入压缩系统 第 1 页 专利 一种基于形态学增强的张量化词嵌入压缩系统 第 2 页 专利 一种基于形态学增强的张量化词嵌入压缩系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:13:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。