全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210462525.1 (22)申请日 2022.04.28 (71)申请人 新疆大学 地址 830008 新疆维吾尔自治区乌鲁 木齐 市沙依巴克区西北路499号新疆大学 软件学院 (72)发明人 张哲 张涛 冷洪勇 钱育蓉  韩坤栋 彭玻  (74)专利代理 机构 乌鲁木齐合纵专利商标事务 所 65105 专利代理师 俞亮 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01)G06F 40/151(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 多视角句子匹配模型、 应用方法和相关装置 (57)摘要 本发明涉及一种句子匹配技术领域, 是一种 多视角句子匹配模型、 应用方法和相关装置, 前 者包括输入编码模块, 将句子进行编码, 获取句 子的原始特征表达; 等长交互注意力模块, 从两 个不同的方向捕获句子间的高层交互特征, 学习 句子的交互表示; 多特征空间信息提取模块, 捕 获句子底层特征的细节性信息; 预测模块利用句 子的交互表 示和细节性信息, 对两个句子的语义 关系进行判别。 本发明利用交互注 意力机制获取 句子的注 意力信息, 利用等长卷积运算减少每个 等长交互单元的时间和空间复杂度, 加速高层特 征的捕获过程; 通过多特征空间信息提取模块获 得底层特征中包含的大量的细 节性信息, 提高两 个句子的语义关系 判别的精确度。 权利要求书2页 说明书11页 附图3页 CN 114896962 A 2022.08.12 CN 114896962 A 1.一种多视角句子匹配模型, 其特征在于, 包括输入编码模块、 等长交互注意力模块、 多特征空间信息提取模块和预测模块; 输入编码模块, 将句子进行编码, 获取句子的原 始特征表达; 等长交互注意力模块, 从两个不同的方向捕获句子间的高层交互特征, 学习句子的交 互表示; 多特征空间信息提取模块, 捕获句子底层特 征的细节性信息; 预测模块, 利用句子的交 互表示和细节性信息, 对两个句子的语义关系进行判别。 2.根据权利要求1所述的多视角 句子匹配模型, 其特征在于, 所述等长交互注意力模块 包括多个等长交互单元, 多个等长交互单元从两个不同的方向捕获句子间的高层交互特 征, 学习句子的交互表示, 其中每个等长交互单元均包括第一子模块、 第二子模块和 第三子 模块; 第一子模块, 利用交 互注意力机制获取句子的注意力 信息; 第二子模块, 利用线性层对注意力 信息进行线性处 理; 第三子模块, 将线性处理后的注意力信息进行等长卷积运算, 融合句中每个词的上下 文信息, 捕获句子间的高层交 互特征, 学习句子的交 互表示; 或/和, 所述多特 征空间信息提取模块包括空间映射单 元、 特征提取单元; 空间映射单元, 根据特定的空间数对底层特征进行划分, 并经线性层后将底层特征映 射到不同的特 征空间; 特征提取单元, 对空间映射后的底层特征进行二维卷积运算, 捕获和融合不同特征空 间的细节性信息, 并使用最大池化 运算将细节性信息进行聚合。 3.根据权利要求1或2所述的多视角句子匹配模型, 其特征在于, 所述输入编码模块利 用孪生结构的Bi LSTM网络对句子进行编码, 获取句子的原 始特征表达; 或/和, 所述预测模块包括第一处 理单元、 第二处 理单元和结果融合单 元; 第一处理单元, 将句子的交互表示转换为向量, 且对其进行运算, 产生运算后的特征, 并将句子的交 互表示与运 算后的特 征拼接生成句子的高层语义特 征; 第二处理单元, 将细节性信息进行运算, 产生运算后的特征, 将细节性信息与运算后的 特征拼接生成句子的底层语义特 征; 结果融合单元, 将句子的高层语义特征和底层语义特征分别通过两个不同多层感知器 进行融合, 并通过归一 化函数获得最终判别结果。 4.一种多视角句子匹配模型的训练方法, 其特 征在于, 包括: 设置多视角句子匹配模型的中输入编码模块、 等长交互注意力模块、 多特征空间信息 提取模块和预测模块的初始参数; 获取训练样本, 利用训练样本对多视角句子匹配模型进行训练, 获得训练结果; 其中多 视角句子匹配模型 是如权利要求1至 3中任意一项所述的多视角句子匹配模型; 利用损失函数对训练结果进行分析; 根据损失函数的分析结果, 调节模型参数, 选取最优的参数, 输出多视角句子匹配模 型。 5.根据权利要求4所述的多视角 句子匹配模型的训练方法, 其特征在于, 所述损失函数 为交叉熵函数, 具体如下 所示:权 利 要 求 书 1/2 页 2 CN 114896962 A 2其中, 是预测概率, y是真实标签, N是样本类别数。 6.一种多视角句子匹配方法, 其特 征在于, 包括: 获取待进行语义关系 判别的两个句子; 将所述两个句子输入多视角 句子匹配模型, 得到两个句子的语义关系判别结果; 其中, 多视角句子匹配模型 是如权利要求1至 3中任意一项所述的多视角句子匹配模型。 7.一种多视角 句子匹配模型的训练装置, 所述多视角句子匹配模型的训练装置使用如 权利要求 4至5中任意一项所述的多视角句子匹配模型的训练方法, 其特 征在于, 包括: 参数设置单元, 设置多视角 句子匹配模型的中输入编码模块、 等长交互注意力模块、 多 特征空间信息提取模块和预测模块的初始参数; 第一训练单元, 获取训练样本, 利用训练样本对多视角 句子匹配模型进行训练, 获得训 练结果; 其中多视角句子匹配模 型是如权利要求 1至3中任意一项 所述的多视角句子匹配模 型; 分析单元, 利用损失函数对训练结果进行分析; 第二训练单元, 根据损失函数的分析结果, 调节模型参数, 选取最优的参数, 输出多视 角句子匹配模型。 8.一种多视角句子匹配装置, 所述多视角句子匹配装置使用如权利要求6所述的多视 角句子匹配方法, 其特 征在于, 包括: 原始数据获取 单元, 获取待 进行语义关系 判别的两个句子; 执行单元, 将所述两个句子输入多视角句子匹配模型, 得到两个句子的语义关系判别 结果; 其中, 多视角句子匹配模型是如权利要求1至3中任意一项所述的多视角句子匹配模 型。 9.一种终端, 其特征在于, 包括处理器、 存储器、 通信接口, 以及一个或多个程序, 所述 一个或多个程序被存储在所述存储器中, 并且被配置由所述处理器执行, 所述程序包括用 于执行如权利要求6所述的方法中步骤的指令 。 10.一种服务器, 其特征在于, 包括处理器、 存储器、 通信 接口, 以及一个或多个程序, 所 述一个或多个程序被存储在所述存储器中, 并且被配置由所述处理器执行, 所述程序包括 用于执行如权利要求 4或5所述的方法中步骤的指令 。权 利 要 求 书 2/2 页 3 CN 114896962 A 3

.PDF文档 专利 多视角句子匹配模型、应用方法和相关装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多视角句子匹配模型、应用方法和相关装置 第 1 页 专利 多视角句子匹配模型、应用方法和相关装置 第 2 页 专利 多视角句子匹配模型、应用方法和相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:50:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。