说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210936269.5 (22)申请日 2022.08.05 (71)申请人 厦门靠谱云股份有限公司 地址 361000 福建省厦门市湖里区火炬高 新区软件园创新大厦C区3F-A317 (72)发明人 郑义恒 肖永强 (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈明鑫 蔡学俊 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G16H 50/20(2018.01) (54)发明名称 一种多轮倾听对话模型中的数据压缩与高 性能计算方法 (57)摘要 本发明涉及一种多轮倾听对话模型中的数 据压缩与高性能计算方法。 该方法实现阶段包 括: 数据预处理阶段、 数据向量化阶段、 向量聚合 阶段、 模型拟合阶段、 并行计算阶段。 本发明涉及 的技术包括: 预训练语言模型、 深度循环神经网 络、 注意力机制、 并行计算。 本发明中所提出的技 术方案在 有限的计算性能与开发周期内, 使 得语 言模型同时具备强对话策略约束与足够的知识 广度。 权利要求书2页 说明书4页 附图4页 CN 115310429 A 2022.11.08 CN 115310429 A 1.一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其特 征在于, 包括: 数据预处 理阶段, 使用人工少量数据标记的方式对倾诉数据进行 标记; 数据向量化阶段, 采用语义嵌入与向量化 聚合的方式将标记后的倾诉数据中的文本转 换为对应的向量表示; 向量聚合阶段, 采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取; 模型拟合阶段, 对预训练语言模型的训练流程进行重构, 在损 失函数计算中对部分语 义数据进行遮罩处 理; 并行计算阶段, 采用并行计算并行聚合的计算方式。 2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述数据预处理阶段, 通过人工少量数据标记的方式对倾诉数据中的倾诉文本 及倾诉文本所属的倾听策略进行 标注。 3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述 倾诉数据的数据格式为对话文本序列。 4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述数据向量化阶段, 根据倾诉数据中出现的中文字符, 构建中文语料字典, 使 用每个中文字符在中文语料字典中的索引值将数据集映射 为字符索引数据集。 5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述向量聚合阶段, 对倾诉 数据中的高频词进行 统计分析, 去除其中的无意义词 与停止词后, 将前n个高频词加入所述中文语料字典, 将 每一段咨询中的所有倾诉数据映射 为维度为 n的高频词向量。 6.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 对自杀相关词汇进 行进一步统计, 并构建自杀劝阻策略以及其触发规则, 以达到 对自杀倾向的发现和及时安抚。 7.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进 行 调整。 8.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述模型拟合阶段, 将所述向量聚合阶段输出 的数据进行填充与截断操作后得 到的向量序列H分批次输入预训练语言模型进行 前向计算, 其中, 在前向计算的过程中, 向量序列H会先输入自注意力模型进行编码, 即 其中, 查询向量Q=WqH, 键向量K=WkH, 值向量V=WvH; Dk是Q和K中列向量的维度, 为三个投影矩阵; 经过自注意力模型编码后, 将向量序列H输入后续的前向计算流程; 在数据完成前向计 算之后, 遍历本 批次内的样本计算损失函数, 选择Cros sEntropy作为损失函数:权 利 要 求 书 1/2 页 2 CN 115310429 A 2其中, Y标签∈{0,1}C为标签对应的o ne‑hot向量表示; 给定数据集为 将每个样本x(n)输入前向计算流程, 输出为 Y预测值; 基于数据预处理阶段中对倾诉数据的倾诉文本标记, 在遍历到倾诉文本时不计算损 失函数。 9.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法, 其 特征在于, 所述并行计算阶段, 在前向计算与反向传播时, 将 计算任务分为n份, 在计算周期 内每个计算节点独立不重复的计算一部 分任务, 并在计算周期结束时将 计算结果传递给相 邻下一个计算节点, 并同时从相 邻的上一节点 获取一份计算结果; 在所有计算周期结束时, 启动同步 阶段, 存有完整计算数据的节点将相 应的数据块传递给相邻节点, 并接力传递至 所有节点。权 利 要 求 书 2/2 页 3 CN 115310429 A 3
专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-03-03 12:14:18
上传分享
举报
下载
原文档
(675.5 KB)
分享
友情链接
GB-T 20647.3-2006 社区服务指南 第3部分:文化、教育、体育服务.pdf
GB-T 36092-2018 信息技术 备份存储 备份技术应用要求.pdf
绿盟 软件供应链安全技术白皮书.pdf
GB 4824-2019 工业、科学和医疗设备 射频骚扰特性 限值和测量方法.pdf
T-ACEF 034—2022 城镇供水管网数字化技术指南.pdf
GB-T 18451.1-2022 风力发电机组 设计要求.pdf
T-CI 175—2022 智能交通基础设施数字化技术规范.pdf
DB6101-T 3189-2024 检验检测数据管理规范 数据安全 西安市.pdf
GB-T 42884-2023 信息安全技术 移动互联网应用程序 App 生命周期安全管理指南.pdf
GB-T 40060-2021 液氢贮存和运输技术要求.pdf
GB-T 25068.2-2020 信息技术 安全技术 网络安全 第2部分:网络安全设计和实现指南.pdf
GB-T 21064-2007 电子政务系统总体设计要求.pdf
T-ZEA 004—2018 互联网金融信息披露行业标准化.pdf
GB-T 25058-2019 信息安全技术 网络安全等级保护实施指南.pdf
GB 17565-2022 防盗安全门通用技术条件.pdf
GB-T 18488.2-2015 电动汽车用驱动电机系统 第2部分:试验方法.pdf
YD-T 4316-2023 面向智慧城市应用的人工智能服务能力开放技术要求.pdf
GB-T 21063.2-2007 政务信息资源目录体系 第2部分 技术要求.pdf
GB-T 37267-2018 建筑抗震支吊架通用技术条件.pdf
GB-T 18902-2002 超高频测距仪性能要求和测试方法.pdf
1
/
11
评价文档
赞助2.5元 点击下载(675.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。