全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210491157.3 (22)申请日 2022.05.07 (71)申请人 南京航空航天大 学 地址 210016 江苏省南京市秦淮区御道街 29号 (72)发明人 倪钰婷 张德平  (74)专利代理 机构 南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师 马玉雯 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/30(2020.01) (54)发明名称 一种融合槽位关联和语义关联的任务型对 话状态跟踪方法 (57)摘要 本发明公开了一种融合槽位关联和语义关 联的任务型对话状态跟踪 方法, 为融合槽位关联 信息, 本方法利用图神经网络挖掘槽位之间的关 系。 首先对槽位构建一个多关系模式图, 然后利 用层级图注意力网络分别计算关系层和结点层 的注意力得分, 以此捕获槽位之间显式或隐式的 关系。 为融合语义关系, 本方法在槽门机制中引 入词级的语义相似度向量获取局部语义匹配信 息。 该方式能够获取槽位和当前对话的局部语义 特征, 将该相似度向量作为槽门机制的增强特 征, 以此更好地判断槽位是否在对话中涉及且确 定槽值的预测方式。 最后, 通过槽值解码器中两 个子模块对不同的预测方式进行解码, 本方法能 有效提升对话状态的预测精度和速度。 权利要求书3页 说明书9页 附图2页 CN 114860908 A 2022.08.05 CN 114860908 A 1.一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 该方法包 括以下步骤: 步骤S1、 多领域对话数据集预处理, 将对话数据处理成 以对话轮为单位的样本, 其中, 原始特征为前一轮系统回复、 当前轮用户语句和前一轮对话状态, 样本标签为当前轮对话 状态; 步骤S2、 对步骤S1处理后的样本特征编码, 利用预训练语言模型BERT将原始特征编码 成数值数据; 步骤S3、 获取领域本体信息, 即所有的领域 ‑槽信息; 将本体信息构建成多关系图结构, 利用层级注意力机制融合槽位之间的关系, 最终 获得每个槽位的嵌入向量; 步骤S4、 计算对话上下文中每个单词与槽位的语义相似度, 将语义相似度拼接为一个 语义相似向量, 该向量与步骤S3中得到的槽位嵌入向量连接起 来作为槽门机制的输入; 步骤S5、 根据步骤S4中槽门机制的输出结果, 判断槽位的值来源方式, 由值解码器模块 预测槽值, 采用逐个槽位预测的方式, 最后更新当前轮的对话状态。 2.根据权利要求1所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 所述 步骤S2具体包括以下步骤: S21、 对话语句表示: 将第t轮的对话语句表示成连接的对话序列, 其中Rt‑1表示前一轮系统回复, Ut表示当前轮用户语句, [CLS]和[SEP]是 用于分割句子的辅助to ken, 表示序列拼接操作, [CLS]的作用是捕获完整的序列嵌入; S22、 前一轮对话状态表示: 对话状态是一系列的三元组集合, 看作是对话历史的压缩 化表示; 将前一轮对话状态表示为 其中, 每一个S代表 domain‑slot‑value形式的子序列, [SLOT]表 示domain‑slot‑value三元组的聚合信息嵌入, J代 表domain‑slot的总数; 如果第j个槽位在第t轮的值为NULL, 则用特殊标记[NULL]作为输入, 如果值为 DONTCARE, 则用短语 “don’t care”作为输入; S23、 编码器输入: 为了提高编码效率, 将对话语句与前一轮对话状态拼接为一个单一 序列Xt, 其中, Xt的输入嵌入是词嵌入、 分段嵌 入和位置嵌入相加后的嵌入向量; 其中, 词嵌入是输入序列中每个单词的词向量; 分段嵌入是输入序列中每个输入段的 编码, 用0代表属于Rt‑1的单词, 用1代表属于Ut的单词, 用2代表属于Bt‑1的单词; 位置嵌入是 输入序列中每 个单词的位置编码, 该编码方式遵循BERT中的标准形式; S24、 编码器输出: 编码器的输出表示为Ht, 整个输入的序列嵌入表示为 每个槽位 的嵌入表示为 整个输入Xt的聚合序列表示 由一个前向神经网络获得, 其网络参 数为Wpool, 计算公式如下: 3.根据权利要求1所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 在所述步骤S 3中, 所述槽位之间的关系的类型包括: 领域连接、 槽名连接、 共享权 利 要 求 书 1/3 页 2 CN 114860908 A 2值连接和隐式连接 。 4.根据权利要求3所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 所述 步骤S3具体包括: S31、 多关系模式图构建: 基于本体模式, 模式图被定义为G=(N,E); 其中, N= {(domain,slot)}, 表示该模式 图的结点由domain ‑slot形式的槽位构成, 而无向边e∈E表 示两个结点之间的关系; S32、 多关系模式图编码: 为了对槽位之间的关系进行建模, 利用层级图注意力网络对 多关系模式图中的结点编码, 以此融合不同槽位之间的多种关系信息, 获取最终的槽位嵌 入。 5.根据权利要求4所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 在所述步骤S 32中, 所述层级图注意力网络中包含L层, 每层又分为注 意力子层 和FFN子层; 注意力子层划分为关系级别注意力机制和结点级别注意力机制; 在更新前每一个子层会增添残差连接和LayerN orm, 具体公式如下: CG=LayerNorm(h(l)+h(l+1)) 在经过L层堆叠后, 每 个槽位融合了多种槽位关联信息, 最终的槽位嵌入表示 为 6.根据权利要求1所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 在所述步骤S4中, 将槽位与词级对话上下文之间的词级相似度作为槽门机制 的增强特征; 然后与步骤S3得到的槽位嵌入拼接, 作为槽门机制的输入; 最后, 输出该槽位 对应的槽门类别。 7.根据权利要求1所述的一种融合槽位关联和语义关联的任务型对话状态跟踪方法, 其特征在于, 所述 步骤S4中, 将第t轮的对话历史拼接成一个 可变长序列 Seqt, 其最大长度为len; 对话历史中每个 单 词都对应一个词向量t∈R1×d, 词向量矩阵对应对话编码器中的词嵌入矩阵; 槽位语义向量由领域和槽对应的词向量相加而得, 记为dsj∈R1×d; 通过计算槽位语义 向量和对话历史序列中每 个词向量的夹角余弦值 来评估两者的语义相似度; 对于对话历史序列Seqt中的任一单词的词向量t=[t1,t2,...td], 第j个槽位的语义向 量 则t与dsj的夹角 θ 的余弦值计算公式如下: 按照上述方式, 对话历史序列中每个单词都计算得到其与第j个槽位的语义相似度, 将 其合并到一个词级别语义相似度向量中, 记为simj∈R1×len; 将词级别语义相似度向量 拼与槽位嵌入向量 拼接: 最后, 第t轮第j个槽位的槽门类别的预测结果 为: 权 利 要 求 书 2/3 页 3 CN 114860908 A 3

.PDF文档 专利 一种融合槽位关联和语义关联的任务型对话状态跟踪方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合槽位关联和语义关联的任务型对话状态跟踪方法 第 1 页 专利 一种融合槽位关联和语义关联的任务型对话状态跟踪方法 第 2 页 专利 一种融合槽位关联和语义关联的任务型对话状态跟踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。