全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111638989.5 (22)申请日 2021.12.2 9 (71)申请人 广州华多网络科技有限公司 地址 511442 广东省广州市番禺区南村镇 万达广场B1栋24层 (72)发明人 许强  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 代理人 王增鑫 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01)G06F 40/35(2020.01) G06K 9/62(2022.01) G06Q 30/00(2012.01) (54)发明名称 问答知识库构建方法及其装置、 设备、 介质、 产品 (57)摘要 本申请公开一种 问答知识库构建方法及其 装置、 设备、 介质、 产品, 所述方法包括: 获取语料 数据库, 该语料数据库包含多个聊天记录, 每个 聊天记录包含提问用户提出的问句文本与人工 客服用户对应该问句文本而回复的答案文本; 将 与问答知识库内问题单元中的问题文本实现语 义匹配的问句文本添加至该问题单元中; 将与该 问句文本相对应的答案文本配置为所述问题单 元相对应的回复单元中的回复文本; 确定每个回 复单元中相对于该回复单元内其他回复文本具 有相对较高平均相似距离评分的部分回复文本, 作为该回复单元最终保留的目标回复文本。 本申 请基于语料的有效优选与基于语义的精准匹配 构建出的问答知识库, 能够全面提升智能客服系 统的智能化 程度。 权利要求书2页 说明书17页 附图6页 CN 114265921 A 2022.04.01 CN 114265921 A 1.一种问答知识库构建方法, 其特 征在于, 包括如下步骤: 获取语料数据库, 该语料数据库包含多个聊天记录, 每个聊天记录包含提问用户提出 的问句文本与人工客 服用户对应该问句文本而回复的答案文本; 将与问答知识库内问题单元中的问题文本实现语义匹配的所述语料数据库内的问句 文本添加至该问题单元中; 其中, 每个所述的问题单元包括一个或多个所述的问题文本, 其 中一个问题文本作为标准问题, 余 者均为该 标准问题的相似问题; 将语料数据库中与该问句文本相对应的答案文本配置为问答知识库中所述问题单元 相对应的回复单 元中的回复文本; 确定每个回复单元中相对于该回复单元内其他回复文本具有相对较高平均相似距离 评分的部分回复文本, 作为该回复单元最终保留的目标回复文本而完成该问答知识库的构 建。 2.根据权利要求1所述的问答知识库构建方法, 其特征在于, 获取语料数据库, 包括如 下步骤: 从预设的智能客 服系统中调用全量聊天记录; 对所述聊天记录进行数据清洗, 将其中由该智能客服系统自动应答的聊天记录删除, 仅保留人工客服用户应答的聊天记录, 使被保留的每个聊天记录包含提问用户提出的问句 文本与人工客 服用户对应该问句文本而回复的答案文本; 将被保留的聊天记录存 储至语料 数据库中。 3.根据权利要求1所述的问答知识库构建方法, 其特征在于, 将与问答知识库内问题单 元中的问题文本实现语义匹配的所述语料数据库内的问句文本添加至该问题单元中, 包括 如下步骤: 采用预先训练至收敛状态的文本提取第 一模型, 提取所述问答知识库内各个问题单元 中各个问题文本的句向量; 采用所述文本提取第一模型, 提取 所述语料 数据库中各个问句文本的句向量; 计算所述每个问句文本的句向量与每个所述的问题文本的句向量之间的数据距离, 确 定数据距离相对应的相似距离 评分; 为每个问句文本保留一个分值最高的相似距离评分, 获得所有问句文本与其最相似的 问题文本之间的相似距离 评分所构成的评分序列; 筛选出评分序列中相似距离评分超过预设阈值的元素, 将每一元素所对应的问句文本 作为与该元素所对应的问题文本实现语义匹配的问句文本, 将该问句文本添加至该问题文 本所在的问题单 元中构成相似问题。 4.根据权利要求1所述的问答知识库构建方法, 其特征在于, 所述文本提取第 一模型的 训练过程, 包括如下步骤: 采用所述问答知识库内一个问题单元中的一个相似问题为正样本, 或采用另一问题单 元中的相似问题为负 样本, 输入所述文本提取第一模型提取句向量; 通过分类 器将该文本提取第一模型进行二分类映射, 获得相应的分类标签; 以所述正样本相似问题相对应的标准问题为监督标签, 计算该分类标签的损 失值, 若 该损失值达到预设阈值而达到收敛状态, 终止训练; 否则, 实施梯度更新, 采用下一样本实 施迭代训练。权 利 要 求 书 1/2 页 2 CN 114265921 A 25.根据权利要求1所述的问答知识库构建方法, 其特征在于, 确定每个回复单元中相对 于该回复单元内其他回复文本具有相对较高平均相似距离评分的部 分回复文本, 作为该回 复单元最终保留的目标回复文本而完成该问答知识库的构建, 包括如下步骤: 采用预先训练至收敛状态的文本提取第 二模型, 提取出所述问答知识库内每个回复单 元中的每 个回复文本的句向量; 计算表征每个回复单元中两两回复文本的句向量之间的数值距离的相似距离评分, 获 得该回复单元中每个回复文本与该回复单元中各个回复文本之间的相似距离评分构成的 相似距离 评分序列; 根据每个回复单元中的每个回复文本的所述相似距离评分序列, 计算每个回复文本相 对应的平均相似距离 评分; 将每个回复单元中, 平均相似距离评分低于预设阈值的回复文本删除, 只保留平均相 似距离评分高于该 预设阈值的回复文本以完成该问答知识库的构建。 6.根据权利要求1至5中任意一项所述的问答知识库构建方法, 其特征在于, 完成该问 答知识库的构建之后, 包括如下步骤: 将所述问答知识库接入预设的智能客服系统, 由该智能客服系统响应提问用户提出的 问句文本, 从该问答知识库中确定与该问句文本构成语义相匹配的回复单元, 以该回复单 元中的回复文本之一应答该问句文本 。 7.一种问答知识库构建装置, 其特 征在于, 包括: 语料调用模块, 用于获取语料数据库, 该语料数据库包含多个聊天记录, 每个聊天记录 包含提问用户提出的问句文本与人工客 服用户对应该问句文本而回复的答案文本; 问题匹配模块, 用于将与问答知识库内问题单元中的问题文本实现语义匹配的所述语 料数据库内的问句文本添加至该问题单元中; 其中, 每个所述的问题单元包括一个或多个 所述的问题文本, 其中一个问题文本作为标准问题, 余 者均为该 标准问题的相似问题; 答案配置模块, 用于将语料数据库中与 该问句文本相对应的答案文本配置为问答知识 库中所述问题单 元相对应的回复单 元中的回复文本; 挖掘构建模块, 用于确定每个回复单元中相对于该回复单元内其他 回复文本具有相对 较高平均相似距离评分的部 分回复文本, 作为该回复单元最 终保留的目标回复文本而完成 该问答知识库的构建。 8.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用 运行存储于所述存储器中的计算机程序以执行如权利要求1至6中任意一项所述的方法的 步骤。 9.一种计算机可读存储介质, 其特征在于, 其以计算机可读指令的形式存储有依据权 利要求1至6中任意一项 所述的方法所实现的计算机程序, 该计算机程序被计算机调用运行 时, 执行相应的方法所包括的步骤。 10.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 该计算机程序/指令被 处理器执行时实现权利要求1至 6任意一项中所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114265921 A 3

.PDF文档 专利 问答知识库构建方法及其装置、设备、介质、产品

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 问答知识库构建方法及其装置、设备、介质、产品 第 1 页 专利 问答知识库构建方法及其装置、设备、介质、产品 第 2 页 专利 问答知识库构建方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。