全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211213985.7 (22)申请日 2022.09.30 (71)申请人 太保科技有限公司 地址 200010 上海市黄浦区中山 南路1号1 1 层(名义楼层)1 1V6室 (72)发明人 尹陆鋆  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 曹伟 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 一种新意图类别的确定方法及装置 (57)摘要 本申请公开了一种新意图类别的确定方法 及装置, 在该方法中, 将待识别语音数据通过双 层实体识别模型进行识别, 获得目标实体组合; 若目标实体组合不属于实体库, 将目标实体组合 输入至预训练语 言模型, 获得目标 实体组合对应 的目标实体向量; 将目标 实体向量与多个已有意 图类别向量 分别进行距离计算, 获得多个向量距 离, 多个意图类别向量由实体库中多个已有实体 组合对应的多个已有实体向量聚类得到; 若多个 向量距离均大于预设阈值, 根据待识别语音数据 确定新意图类别。 可见, 该方法避免进行人工分 析, 以避免新意图类别确定的过程中存在主观性 的问题, 使得新意图类别的确定结果更加客观, 从而提高新 意图类别确定结果的准确性。 权利要求书2页 说明书11页 附图2页 CN 115510191 A 2022.12.23 CN 115510191 A 1.一种新 意图类别的确定方法, 其特 征在于, 所述方法包括: 将待识别语音数据通过双 层实体识别模型进行识别, 获得目标实体组合; 若所述目标实体组合不属于实体库, 将所述目标实体组合输入至预训练语言模型, 获 得所述目标实体组合对应的目标实体向量; 将所述目标实体向量与多个 已有意图类别向量分别进行距离计算, 获得多个向量距 离, 所述多个已有意图类别向量由所述 实体库中多个已有实体组合对应的多个已有实体向 量聚类得到; 若所述多个向量距离均大于预设阈值, 根据所述待识别语音数据确定新 意图类别。 2.根据权利要求1所述的方法, 其特征在于, 所述将待识别语音数据通过双层实体识别 模型进行识别, 获得目标实体组合, 包括: 将待识别语音数据通过所述双层实体识别模型中基于多个第一预设实体类别的第一 层模型进行识别, 获得所述待识别语音数据对应的第一目标实体类别和所述第一目标实体 类别对应的实体; 将待识别语音数据通过所述双层实体识别模型中基于多个第二预设实体类别的第二 层模型进行识别, 获得所述待识别语音数据对应的第二 目标实体类别、 所述第二 目标实体 类别对应的实体和未识别实体, 所述多个第二预设实体类别是所述多个第一预设实体类别 的子类别; 根据所述第二目标实体类别、 所述第二目标实体类别对应的实体和所述未识别实体, 获得目标实体组合。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述第二目标实体类别、 所述第 二目标实体 类别对应的实体和所述未识别实体, 获得目标实体组合, 包括: 若所述未识别实体在所述第 一目标实体类别对应的实体中, 将所述未识别实体确定为 新的第二预设实体 类别; 根据所述新的第二预设实体类别, 对所述第二目标实体类别、 所述第二目标实体类别 对应的实体和所述未识别实体进 行更新, 获得更新后的第二目标实体类别和所述更新后的 第二目标实体 类别对应的实体; 将所述更新后的第二目标实体类别与所述更新后的第二目标实体类别对应的实体进 行叠加, 获得 所述目标实体组合。 4.根据权利要求2或3所述的方法, 其特征在于, 所述双层实体识别 模型的训练步骤, 包 括: 获取多个语音样本数据和每个语音样本数据的第 一标注数据和第 二标注数据, 所述第 一标注数据用于标注所述多个第一预设实体类别, 所述第二标注数据用于标注所述多个第 二预设实体 类别; 将所述语音样本数据输入双层识别网络进行识别, 获得所述语音样本数据的第 一识别 数据和第二识别数据, 所述第一识别数据包括基于所述多个第一预设实体类别的识别数 据, 所述第二识别数据包括基于所述多个第二预设实体 类别的识别数据; 根据所述第一识别数据、 所述第 二识别数据、 所述第 一标注数据、 所述第 二标注数据以 及所述双 层识别网络的损失函数, 训练所述双 层识别网络的模型参数; 将训练完成的所述双 层识别网络确定为所述双 层实体识别模型。权 利 要 求 书 1/2 页 2 CN 115510191 A 25.根据权利要求 4所述的方法, 其特 征在于, 所述实体库的构建步骤, 包括: 根据所述第二识别数据, 获得 所述多个已有实体组合; 根据所述多个已有实体组合构建所述实体库。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述多个已有实体组合构建所述 实体库, 包括: 将所述多个已有实体组合 通过关联规则挖掘算法进行挖掘, 获得目标关联规则; 根据所述目标关联规则对所述多个已有实体组合进行加工, 获得加工后的多个已有实 体组合; 根据所述加工后的多个已有实体组合构建所述实体库。 7.根据权利要求2所述的方法, 其特征在于, 所述多个第 一预设实体类别包括: 动作词, 专有名词, 疑问词以及待处 理的问题词。 8.根据权利要求1所述的方法, 其特征在于, 所述若所述目标实体组合不属于实体库之 后, 还包括: 按照预设规则对所述目标实体组合进行加工, 获得加工后的目标实体组合; 所述将所述目标实体组合输入至预训练语言模型, 获得所述目标实体组合对应的目标 实体向量, 包括: 将所述加工后的目标实体组合输入至所述预训练语言模型, 获得 所述目标实体向量。 9.根据权利要求1至8任意一项所述的方法, 其特征在于, 所述多个已有意图类别向量 的聚类步骤, 包括: 对每个已有实体向量分别与所述多个已有实体向量中剩余实体向量之间的相近关系 进行标注, 获得多个标注实体向量; 根据所述多个标注实体向量的标注数量对所述多个标注实体向量进行排序, 获得实体 向量序列; 根据所述实体向量序列的顺序依次对标注相近关系的已有实体向量进行聚类, 获得多 个已有意图类别向量。 10.一种新 意图类别的确定装置, 其特 征在于, 所述装置包括: 识别模块, 用于将待识别语音数据通过双层实体识别模型进行识别, 获得目标实体组 合; 获得模块, 用于若所述目标实体组合不属于实体库, 将所述目标实体组合输入至预训 练语言模型, 获得 所述目标实体组合对应的目标实体向量; 计算模块, 用于将所述目标实体向量与多个已有意图类别向量分别进行距离计算, 获 得多个向量距离, 所述多个意图类别向量由所述 实体库中多个已有实体组合对应的多个已 有实体向量聚类得到; 确定模块, 用于若所述多个向量距离均大于预设阈值, 根据所述待识别语音数据确定 新意图类别。权 利 要 求 书 2/2 页 3 CN 115510191 A 3

.PDF文档 专利 一种新意图类别的确定方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种新意图类别的确定方法及装置 第 1 页 专利 一种新意图类别的确定方法及装置 第 2 页 专利 一种新意图类别的确定方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。