说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210936269.5 (22)申请日 2022.08.05 (71)申请人 厦门靠谱云股份有限公司 地址 361000 福建省厦门市湖里区火炬高 新区软件园创新大厦C区3F-A317 (72)发明人 郑义恒 肖永强  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈明鑫 蔡学俊 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G16H 50/20(2018.01) (54)发明名称 一种多轮倾听对话模型中的数据压缩与高 性能计算方法 (57)摘要 本发明涉及一种多轮倾听对话模型中的数 据压缩与高性能计算方法。 该方法实现阶段包 括: 数据预处理阶段、 数据向量化阶段、 向量聚合 阶段、 模型拟合阶段、 并行计算阶段。 本发明涉及 的技术包括: 预训练语言模型、 深度循环神经网 络、 注意力机制、 并行计算。 本发明中所提出的技 术方案在 有限的计算性能与开发周期内, 使 得语 言模型同时具备强对话策略约束与足够的知识 广度。 权利要求书2页 说明书4页 附图4页 CN 115310429 A 2022.11.08 CN 115310429 A 1.一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其特 征在于, 包括: 数据预处 理阶段, 使用人工少量数据标记的方式对倾诉数据进行 标记; 数据向量化阶段, 采用语义嵌入与向量化 聚合的方式将标记后的倾诉数据中的文本转 换为对应的向量表示; 向量聚合阶段, 采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取; 模型拟合阶段, 对预训练语言模型的训练流程进行重构, 在损 失函数计算中对部分语 义数据进行遮罩处 理; 并行计算阶段, 采用并行计算并行聚合的计算方式。 2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述数据预处理阶段, 通过人工少量数据标记的方式对倾诉数据中的倾诉文本 及倾诉文本所属的倾听策略进行 标注。 3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述 倾诉数据的数据格式为对话文本序列。 4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述数据向量化阶段, 根据倾诉数据中出现的中文字符, 构建中文语料字典, 使 用每个中文字符在中文语料字典中的索引值将数据集映射 为字符索引数据集。 5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述向量聚合阶段, 对倾诉 数据中的高频词进行 统计分析, 去除其中的无意义词 与停止词后, 将前n个高频词加入所述中文语料字典, 将 每一段咨询中的所有倾诉数据映射 为维度为 n的高频词向量。 6.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 对自杀相关词汇进 行进一步统计, 并构建自杀劝阻策略以及其触发规则, 以达到 对自杀倾向的发现和及时安抚。 7.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进 行 调整。 8.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述模型拟合阶段, 将所述向量聚合阶段输出 的数据进行填充与截断操作后得 到的向量序列H分批次输入预训练语言模型进行 前向计算, 其中, 在前向计算的过程中, 向量序列H会先输入自注意力模型进行编码, 即 其中, 查询向量Q=WqH, 键向量K=WkH, 值向量V=WvH; Dk是Q和K中列向量的维度, 为三个投影矩阵; 经过自注意力模型编码后, 将向量序列H输入后续的前向计算流程; 在数据完成前向计 算之后, 遍历本 批次内的样本计算损失函数, 选择Cros sEntropy作为损失函数:权 利 要 求 书 1/2 页 2 CN 115310429 A 2其中, Y标签∈{0,1}C为标签对应的o ne‑hot向量表示; 给定数据集为 将每个样本x(n)输入前向计算流程, 输出为 Y预测值; 基于数据预处理阶段中对倾诉数据的倾诉文本标记, 在遍历到倾诉文本时不计算损 失函数。 9.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述并行计算阶段, 在前向计算与反向传播时, 将 计算任务分为n份, 在计算周期 内每个计算节点独立不重复的计算一部 分任务, 并在计算周期结束时将 计算结果传递给相 邻下一个计算节点, 并同时从相 邻的上一节点 获取一份计算结果; 在所有计算周期结束时, 启动同步 阶段, 存有完整计算数据的节点将相 应的数据块传递给相邻节点, 并接力传递至 所有节点。权 利 要 求 书 2/2 页 3 CN 115310429 A 3

PDF文档 专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法 第 1 页 专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法 第 2 页 专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。