全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210397779.X (22)申请日 2022.04.15 (71)申请人 贝壳找房网 (北京) 信息技 术有限公 司 地址 101500 北京市密云区经济开发区兴 盛南路8号开发区办公楼501室-1834 (经济开发区集中办公区) (72)发明人 邓勇 马宝昌 陈亮宇  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 王治东 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01)G06F 40/211(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种意图分类的方法和装置 (57)摘要 本发明提供一种意图分类的方法和装置, 其 中, 所述方法包括: 将待增强语句抽取关键词; 将 关键词进行掩盖处理得到处理后的待增强语句, 将处理后的待增强语句输入意图分类模型得到 多个增强预测语句; 通过第一评估函数对增强预 测语句进行评估, 将评估分数最高的增强预测语 句作为最终增强语句; 将最终增强语句再次输入 至意图分类模 型, 确定最终增强语句对应的意图 分类; 其中, 意图分类模型通过初始样本语句执 行训练任务得到, 训练任务包括基于初始样本语 句的词语掩盖预测任务 以及基于标注语句的意 图分类任务, 从而提高意图分类模型的鲁棒性, 进而提升模型的识别性能。 权利要求书2页 说明书11页 附图5页 CN 114722153 A 2022.07.08 CN 114722153 A 1.一种意图分类的方法, 其特 征在于, 包括: 将待增强语句 抽取关键词; 将所述关键词进行掩盖处理得到处理后的待增强语句, 将所述处理后的待增强语句输 入意图分类模型, 得到多个增强预测语句; 通过第一评估函数对所述增强预测语句进行评估, 将评估分数最高的增强预测语句作 为最终增强语句; 其中, 所述第一评估函数用于评估所述待增强语句和所述增强预测语句 之间的语义相似度和内容差异度的综合 值; 将最终增强语句再次输入至所述意图分类模型, 确定所述最终增强语句对应的意图分 类; 其中, 所述意图分类模型通过初始样本语句执行训练任务得到, 所述初始样本语句包 括标注语句和未标注语句, 所述训练任务包括基于所述初始样本语句的词语掩盖预测任 务, 以及基于所述标注语句的意图分类任务。 2.根据权利要求1所述的意图分类的方法, 其特征在于, 将待增强语句抽取关键词, 包 括: 将所述待增强语句进行词语分割, 得到多个词语; 构建词语之间的连通权重 图, 基于所述词语之间的连通权重 图确定权重排序, 根据权 重排序确定所述关键词; 或 将所述待增强语句输入至预先训练 的主题模型中, 输出候选关键词和所述待增强语句 对应的文章主题; 确定所述文章主题以及候选关键词的相似度并排序, 将前n个候选关键词作为所述关 键词, 其中, n 为大于1的整数。 3.根据权利要求1所述的意图分类的方法, 其特征在于, 将所述关键词进行掩盖处理得 到处理后的待增强语句, 包括: 确定每个所述关键词包括的字单 元个数; 设置不同字单 元个数对应的关键词的掩盖比例; 基于所述掩盖比例, 分别将所述待增强语句中不同字单元个数对应的关键词进行掩盖 处理, 得到所述处 理后的待增强语句。 4.根据权利要求1所述的意图分类的方法, 其特征在于, 基于所述初始样本语句的词语 掩盖预测任务对所述 意图分类模型进行训练, 包括: 对所述初始样本语句 抽取样本关键词; 将所述初始样本语句进行样本关键词的掩盖处理得到掩盖样本语句, 将所述掩盖样本 语句输入至意图分类模型, 输出每 个所述掩盖样本语句对应的增强样本语句; 确定所述初始样本语句与所述增强样本语句的内容差异度和语义相似度; 基于预设的第二评估函数以及所述初始样本语句与所述增强样本语句的内容差异度 和语义相似度, 对所述意图分类模型进行训练, 直至第二评估函数达到收敛条件; 其中, 所 述第二评估函数用于评估所述初始样本语句与所述增强样本语句的内容差异度和语义相 似度的综合 值。 5.根据权利要求4所述的意图分类的方法, 其特征在于, 将所述初始样本语句进行样本权 利 要 求 书 1/2 页 2 CN 114722153 A 2关键词的掩盖处 理得到掩盖样本语句, 包括: 确定每个所述样本关键词包括的字单 元个数; 设置不同字单 元个数对应的样本关键词的掩盖比例; 基于所述掩盖比例, 分别将所述初始样本语句中不同字单元个数对应的样本关键词进 行掩盖处 理, 得到所述掩盖样本语句。 6.根据权利要求1所述的意图分类的方法, 其特征在于, 基于所述标注语句的意图分类 任务对所述 意图分类模型进行训练, 包括: 通过预设的损 失函数, 所述标注语句及其对应的意图分类标签, 对所述意图分类模型 进行有监 督训练, 直至所述损失函数的损失值小于预设值。 7.根据权利要求1所述的意图分类的方法, 其特 征在于, 所述第一评估函数包括: T=Min(J(A1,B1) )+Max(Sim(A1,B1) ) 其中, J(A1,B1)为待增强语句A1和所述增强预测语句B1的内容差异度; Sim(A1,B1)为待增强语句A1和所述增强预测语句B1的语义相似度; 8.一种意图分类的装置, 其特 征在于, 包括: 抽取模块, 用于将待增强语句 抽取关键词; 增强预测模块, 用于将所述关键词进行掩盖处理得到处理后的待增强语句, 将所述处 理后的待增强语句输入意图分类模型, 得到多个增强预测语句; 评估模块, 用于通过第一评估函数对所述增强预测语句进行评估, 将评估分数最高的 增强预测语句作为最终增强语句; 其中, 所述第一评估函数用于评估所述待增强语句和所 述增强预测语句之间的语义相似度和内容差异度的综合 值; 意图分类模块, 用于将最终增强语句再次输入至所述意图分类模型, 确定所述最终增 强语句对应的意图分类; 其中, 所述意图分类模型通过初始样本语句执行训练任务得到, 其中, 所述初始样本语 句包括标注语句和未标注语句, 所述训练任务包括基于所述初始样本语句的词语掩盖预测 任务, 以及基于所述标注语句的意图分类任务。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处 理器执行时实现如权利要求1至7任一项所述 意图分类的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至7任一项所述 意图分类的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114722153 A 3

.PDF文档 专利 一种意图分类的方法和装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种意图分类的方法和装置 第 1 页 专利 一种意图分类的方法和装置 第 2 页 专利 一种意图分类的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。