全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210423601.8 (22)申请日 2022.04.21 (71)申请人 润联软件系统 (深圳) 有限公司 地址 518000 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园2栋801 (72)发明人 王伟 张黔 陈焕坤 郑毅  (74)专利代理 机构 深圳市世联合知识产权代理 有限公司 4 4385 专利代理师 姜妍 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) (54)发明名称 自然语言处理方法、 语 言模型训练方法及其 相关设备 (57)摘要 本申请涉及人工智能技术领域, 揭露了自然 语言处理方法、 语言模型训练方法及其相关设 备, 所述语言模型训练方法包括: 获取语料集; 利 用多种特征提取模型对语料集进行特征提取, 得 到语料集中各文档对应的多个特征向量; 基于各 文档对应的多个特征向量, 得到各文档对应的语 义向量; 将语料集中各文档对应的语义向量利用 聚类模型进行聚类, 得到多个语义簇; 根据各语 义簇分别对语 言模型采用强化学习进行训练, 最 终得到各语义簇对应的训练后的语言模型的参 数; 根据各语义簇对应的训练后的语 言模型的参 数, 以确定最终语言模型。 本申请实现了提高语 言模型的训练效率 以及降低了训练过程中的资 源消耗。 权利要求书3页 说明书13页 附图5页 CN 114781611 A 2022.07.22 CN 114781611 A 1.一种语言模型训练方法, 其特 征在于, 所述方法包括: 获取语料集; 利用多种特征提取模型对所述语料集进行特征提取, 得到所述语料集中各文档对应的 多个特征向量; 基于各所述文档对应的多个所述特 征向量, 得到各 所述文档对应的语义向量; 将所述语料集中各文档对应的语义向量利用聚类模型进行聚类, 得到多个 语义簇; 根据各语义簇分别对语言模型采用强化学习 进行训练, 最终得到各语义簇对应的训练 后的语言模型的参数; 根据各语义簇对应的训练后的语言模型的参数, 以确定最终语言模型。 2.根据权利要求1所述的语言模型训练方法, 其特征在于, 所述多种特征提取模型包括 隐含特征提取模型、 主题特征提取模型和实体特征提取模型, 所述利用多种 特征提取模型 对所述语料集进行 特征提取, 得到所述语料集中各文档对应的多个特 征向量包括: 通过所述隐含特征提取模型对所述语料集中的各所述文档进行隐含特征提取, 得到各 所述文档对应的第一特 征向量; 利用所述主题特征提取模型对所述语料集中的各文档进行主题特征提取, 得到各所述 文档对应的第二特 征向量; 利用所述实体特征提取模型对所述语料集中的各文档进行实体特征提取, 得到各所述 文档对应的第三特 征向量。 3.根据权利要求2所述的语言模型训练方法, 其特征在于, 所述利用所述主题特征提取 模型对所述语料集中的各文档进 行主题特征提取, 得到各所述文档对应的第二特征向量包 括: 通过所述主题特征提取模型对所述语料集中的各所述文档进行主题词提取, 得到多个 主题词并进行排列; 将排列后的多个所述主题词, 通过主题特征提取模型下的Bert模型进行向量化处理, 得到各所述文档对应的第二特 征向量。 4.根据权利要求2所述的语言模型训练方法, 其特征在于, 所述利用所述实体特征提取 模型对所述语料集中的各文档进 行实体特征提取, 得到各所述文档对应的第三特征向量包 括: 通过实体特征提取模型中的命名实体识别技术和关系抽取技术识别各所述文档中的 实体以及实体间的关系; 基于所述实体以及实体间的关系, 构建知识图谱; 通过实体特征提取模型中的图卷积神经网络对所述知识图谱进行特征提取, 得到第 三 特征向量。 5.根据权利要求2所述的语言模型训练方法, 其特征在于, 所述基于各所述文档对应的 多个所述特 征向量, 得到各 所述文档对应的语义向量包括: 基于层次分析法获得 所述第一特 征向量、 第二特 征向量、 第三特 征向量的权 重; 根据所述第一特征向量、 第二特征向量、 第三特征向量的权重, 对所述第一特征向量、 第二特征向量、 第三特 征向量进行加权求和, 得到所述文档对应的语义向量。 6.根据权利要求1所述的语言模型训练方法, 其特征在于, 所述根据各语义簇分别对语权 利 要 求 书 1/3 页 2 CN 114781611 A 2言模型采用强化学习进行训练包括: 在每一训练周期中, 当一语义簇对应的语言模型的性能指标达到预设阈值时, 获取所 述语言模型此时的状态信息, 将所述语言模型 的状态信息, 向各语义簇对应的语言模型进 行广播; 各所述语义簇对应的语言模型在接收到所述状态信息后, 更新自身的参数, 并且根据 选取概率选择处理路径; 其中, 所述选取概率为根据该训练周期所使用的多个语义向量经 深度学习神经网络进行处 理得到; 根据各所述语义簇对应的语言模型选择的处 理路径, 给予不同的收益; 根据各所述语言模型的收益, 得到 本训练周期的总收益; 所述深度学习神经网络根据所述总收益进行调参, 经过多个训练周期的训练, 直至所 述总收益收敛。 7.根据权利要求1所述的语言模型训练方法, 其特征在于, 所述根据各语义簇对应的训 练后的语言模型的参数, 以确定最终语言模型包括: 当全部训练周期结束后, 将各语义簇对应的语言模型最终的梯度 数据汇总至同一语言 模型对应的训练器; 所述训练器根据所有语言模型对应的最终的梯度数据进行平均处 理, 得到平均梯度; 将所述平均梯度发送至各所述语义簇对应的语言模型, 以更新自身的参数, 得到所述 最终语言模型。 8.一种自然语言处 理方法, 其特 征在于, 所述方法包括: 获取待处 理文本数据; 根据如权利要求1至7中任一所述的最终语言模型, 对所述待处理文本数据进行处理, 得到所述待处 理文本数据对应的处 理结果。 9.一种语言模型训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取语料集; 特征提取模块, 用于利用多种特征提取模型对所述语料集进行特征提取, 得到所述语 料集中各文档对应的多个特 征向量; 合并模块, 用于基于各所述文档对应的多个所述特征向量, 得到各所述文档对应的语 义向量; 聚类模块, 用于将所述语料集中各文档对应的语义向量利用聚类模型进行聚类, 得到 多个语义簇; 训练模块, 用于根据各语义簇分别对语言模型采用强化学习进行训练, 最终得到各语 义簇对应的训练后的语言模型的参数; 确定模块, 用于根据各语义簇对应的训练后的语言模型的参数, 以确定最终语言模型。 10.一种计算机设备, 其特 征在于, 所述计算机设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有计算机可读指令, 所述处理器执行所述计算机可读指令时实现如权 利要求1至7中任一所述的语言模型训练方法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机权 利 要 求 书 2/3 页 3 CN 114781611 A 3

.PDF文档 专利 自然语言处理方法、语言模型训练方法及其相关设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 自然语言处理方法、语言模型训练方法及其相关设备 第 1 页 专利 自然语言处理方法、语言模型训练方法及其相关设备 第 2 页 专利 自然语言处理方法、语言模型训练方法及其相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。