专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210936269.5 (22)申请日 2022.08.05 (71)申请人厦门靠谱云股份有限公司地址 361000 福建省厦门市湖里区火炬高新区软件园创新大厦C区3F-A317 (72)发明人郑义恒　肖永强　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师陈明鑫　蔡学俊 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G16H 50/20(2018.01) (54)发明名称一种多轮倾听对话模型中的数据压缩与高性能计算方法 (57)摘要本发明涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。该方法实现阶段包括：数据预处理阶段、数据向量化阶段、向量聚合阶段、模型拟合阶段、并行计算阶段。本发明涉及的技术包括：预训练语言模型、深度循环神经网络、注意力机制、并行计算。本发明中所提出的技术方案在有限的计算性能与开发周期内，使得语言模型同时具备强对话策略约束与足够的知识广度。权利要求书2页说明书4页附图4页 CN 115310429 A 2022.11.08 CN 115310429 A 1.一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，包括：数据预处理阶段，使用人工少量数据标记的方式对倾诉数据进行标记；数据向量化阶段，采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示；向量聚合阶段，采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取；模型拟合阶段，对预训练语言模型的训练流程进行重构，在损失函数计算中对部分语义数据进行遮罩处理；并行计算阶段，采用并行计算并行聚合的计算方式。 2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述数据预处理阶段，通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。 3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述倾诉数据的数据格式为对话文本序列。 4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述数据向量化阶段，根据倾诉数据中出现的中文字符，构建中文语料字典，使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。 5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述向量聚合阶段，对倾诉数据中的高频词进行统计分析，去除其中的无意义词与停止词后，将前n个高频词加入所述中文语料字典，将每一段咨询中的所有倾诉数据映射为维度为 n的高频词向量。 6.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，对自杀相关词汇进行进一步统计，并构建自杀劝阻策略以及其触发规则，以达到对自杀倾向的发现和及时安抚。 7.根据权利要求5所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。 8.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述模型拟合阶段，将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算，其中，在前向计算的过程中，向量序列H会先输入自注意力模型进行编码，即其中，查询向量Q＝WqH，键向量K＝WkH，值向量V＝WvH； Dk是Q和K中列向量的维度，为三个投影矩阵；经过自注意力模型编码后，将向量序列H输入后续的前向计算流程；在数据完成前向计算之后，遍历本批次内的样本计算损失函数，选择Cros sEntropy作为损失函数：权　利　要　求　书 1/2 页 2 CN 115310429 A 2其中， Y标签∈{0,1}C为标签对应的o ne‑hot向量表示；给定数据集为将每个样本x(n)输入前向计算流程，输出为 Y预测值；基于数据预处理阶段中对倾诉数据的倾诉文本标记，在遍历到倾诉文本时不计算损失函数。 9.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述并行计算阶段，在前向计算与反向传播时，将计算任务分为n份，在计算周期内每个计算节点独立不重复的计算一部分任务，并在计算周期结束时将计算结果传递给相邻下一个计算节点，并同时从相邻的上一节点获取一份计算结果；在所有计算周期结束时，启动同步阶段，存有完整计算数据的节点将相应的数据块传递给相邻节点，并接力传递至所有节点。权　利　要　求　书 2/2 页 3 CN 115310429 A 3

专利 一种多轮倾听对话模型中的数据压缩与高性能计算方法

专利一种多轮倾听对话模型中的数据压缩与高性能计算方法