全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221046940 0.1 (22)申请日 2022.04.28 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 韩佳 杜新凯 吕超 谷姗姗  张晗 史辉 孙垚锋  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 钟扬飞 (51)Int.Cl. G06F 40/30(2020.01) G06F 16/33(2019.01) G06N 20/00(2019.01) (54)发明名称 一种训练语义识别模型、 查找语句的方法、 装置及介质 (57)摘要 本申请实施例提供一种训练语义识别模型、 查找语句的方法、 装置及介质, 该方法包括: 获取 原始样本数据, 其中, 所述原始样本数据包括多 条原始训练语句; 根据所述原始样 本数据得到目 标样本数据, 其中, 所述目标样本数据包括多条 目标训练语句集合, 每个目标训练语句集合包括 一条原始训练语句和与所述原始训练语句语义 相同且构造不同第一构造训练语句; 至少根据所 述目标样本数据对待训练的语义识别模型进行 训练, 获得目标语义识别模型。 通过本申请的一 些实施例能够使得到的目标语义识别模型更准 确的识别待匹配 语句的语义。 权利要求书2页 说明书12页 附图3页 CN 114818729 A 2022.07.29 CN 114818729 A 1.一种训练语义识别模型的方法, 其特 征在于, 所述方法包括: 获取原始样本数据, 其中, 所述原 始样本数据包括多条原 始训练语句; 根据所述原始样本数据得到目标样本数据, 其中, 所述目标样本数据包括多条目标训 练语句集合, 每个目标训练语句集合包括一条原始训练语句和与所述原始训练语句语义相 同且构造不同第一构造训练语句; 至少根据 所述目标样本数据对待训练 的语义识别模型进行训练, 获得目标语义识别模 型。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一构造训练语句为双重否定训练语 句, 所述双重 否定训练语句是通过在所述原 始训练语句中加入双重 否定词得到的。 3.根据权利要求1 ‑2任一项所述的方法, 其特 征在于, 所述每个目标训练语句集合还包括与所述原始训练语句语义相反的第二构造训练语 句, 以及与所述第二构造训练语句语义相同且构 造不同的第三构造语句, 其中, 所述第三构 造语句是通过在所述第二构造训练语句中添加双重 否定词后得到的。 4.根据权利要求3所述的方法, 其特 征在于, 所述至少根据 所述目标样本数据对待训练 的语义识别模型进行训练, 获得目标语义识 别模型, 包括: 将所述目标样本数据输入到待训练的语义识别模型中; 通过所述语义识别模型获取与所述目标训练语句集 合对应的语义预测结果; 根据目标损失函数和所述语义预测结果, 获得目标损失值; 通过所述目标损失值, 调整所述待训练的语义识别模型中的参数; 重复上述步骤, 直至所述目标损 失值满足预设要求, 终止训练并且获得所述目标语义 识别模型。 5.根据权利要求4所述的方法, 其特征在于, 所述目标损失函数至少与相似度损失子函 数相关; 其中, 所述通过所述语义识别模型获取与所述目标训练语句集合对应的语义预测结果, 包 括: 获取针对所述原始训练语句的原始语句语义预测结果、 针对所述第 一构造训练语句的 第一构造语句语义预测结果、 针对所述第二构 造训练语句的第二构造语句语义预测结果和 针对所述第三构造训练语句的第三构造语句语义预测结果; 所述根据目标损失函数和所述语义预测结果, 获得目标损失值, 包括: 通过所述相似度损失子函数计算所述原始语句语义预测结果与所述第一构造语句语 义预测结果、 所述第二构 造语句语义预测结果和所述第三构造语句语义预测结果之 间的总 边际损失值; 将所述总边际损失值作为所述目标损失值。 6.根据权利要求5所述的方法, 其特征在于, 所述相似度损失子函数包括第 一损失函数 和第二损失函数; 所述通过所述相似度损失子函数计算所述原始语句语义预测结果与所述第一构造语 句语义预测结果、 所述第二构 造语句语义预测结果和所述第三构 造语句语义预测结果之间 的总边际损失值, 包括:权 利 要 求 书 1/2 页 2 CN 114818729 A 2通过所述第一损失函数计算所述原始语句语义预测结果与所述第一构造语句语义预 测结果、 所述第二构 造语句语义预测结果和所述第三构造语句语义预测结果之 间的相似度 差值; 基于所述相似度差值和所述第二损失函数, 获得 所述总边际损失值。 7.根据权利要求6所述的方法, 其特征在于, 所述目标损失函数还与对比损失子函数相 关; 在所述根据目标损 失函数和所述语义预测结果, 获得目标损 失值之前, 所述方法还包 括: 获取原始负例样本数据, 其中, 所述原 始负例样本数据中包括多条负例训练语句; 所述根据目标损失函数和语义预测结果, 获得目标损失值, 包括: 通过所述对比损失子函数计算所述原始负例 样本数据的语义预测结果, 和所述原始训 练语句之间的对比损失值; 将所述对比损失值和所述总边际损失值进行加权求和, 获得目标损失值。 8.一种查找语句的方法, 其特 征在于, 所述方法包括: 获取待匹配 语句; 将所述待匹配语句输入采用 如权利要求1 ‑7任一项所得到的目标语义识别模型中, 并 通过所述目标语义识别模型 得到与所述待匹配 语句相对应的语义向量; 根据所述语义向量 查找与所述待匹配 语句匹配的目标语句。 9.一种训练语义识别模型的装置, 其特 征在于, 所述装置包括: 数据获取模块, 被配置为获取原始样本数据, 其中, 所述原始样本数据包括多条原始训 练语句; 数据生成模块, 被配置为根据 所述原始样本数据 得到目标样本数据, 其中, 所述目标样 本数据包括多 条目标训练语句集合, 每个目标训练语句集合包括一条原始训练语句和与所 述原始训练语句语义相同且构造不同第一构造训练语句; 模型训练模块, 被配置为至少根据 所述目标样本数据对待训练 的语义识别模型进行训 练, 获得目标语义识别模型。 10.一种电子设备, 其特 征在于, 包括: 处 理器、 存储器和总线; 所述处理器通过所述总线与所述存储器相连, 所述存储器存储有计算机可读取指令, 当所述计算机可读取指令由所述处 理器执行时, 用于实现如权利要求1 ‑8任一项所述方法。权 利 要 求 书 2/2 页 3 CN 114818729 A 3

.PDF文档 专利 一种训练语义识别模型、查找语句的方法、装置及介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种训练语义识别模型、查找语句的方法、装置及介质 第 1 页 专利 一种训练语义识别模型、查找语句的方法、装置及介质 第 2 页 专利 一种训练语义识别模型、查找语句的方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。