说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211034862.7 (22)申请日 2022.08.26 (71)申请人 上海国民集团健康科技有限公司 地址 201107 上海市闵行区闵北路8 8弄1- 30号104幢1层A区 (72)发明人 贾声声  (74)专利代理 机构 上海光华专利事务所(普通 合伙) 31219 专利代理师 倪静 (51)Int.Cl. G06N 5/02(2006.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/205(2020.01)G06F 40/253(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于大规模对话数据知识挖掘的知识库构 建方法、 系统及终端 (57)摘要 本发明的基于大规模对话数据知识挖掘的 知识库构建方法、 系统及终端, 通过多层次知识 挖掘算法根据所述大规模中医医疗对话数据挖 掘对应的中医业务知识, 并获得融合所述中医业 务知识的中医对话话题层次知识库。 本发明通过 多层次挖掘算法自动挖掘对话数据中有价值的 知识, 多维度构建与完善现有的中医业务知识 库, 提高知识库建立和完 善的效率。 权利要求书2页 说明书10页 附图2页 CN 115392462 A 2022.11.25 CN 115392462 A 1.一种基于大规模 对话数据知识挖掘的知识库构建方法, 其特 征在于, 所述方法包括: 获取待挖掘的大规模中 医医疗对话数据; 基于多层次知识挖掘算法, 根据所述大规模中医医疗对话数据挖掘对应的中医业务知 识, 并获得融合所述中 医业务知识的中 医对话话题层次知识库。 2.根据权利要求1中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述多层次知识挖掘算法包括: 基于深度 学习的问句判定算法, 根据输入的大规模中医医疗对话数据获得对应的中医 相关业务知识问句数据; 基于中医对话话题聚类算法, 根据 所述中医相关业务知识问句数据获得对应的中医聚 类话题标准数据; 其中, 所述中医聚类话题标准数据包括: 一或多个分别对应一中医对话话 题的中医业务知识问句; 基于相似度自动归类算法, 将各中医业务知识问句依据其对应的中医对话话题自动归 类到初始中 医对话话题层次知识库中, 以获得最终的中 医对话话题层次知识库。 3.根据权利要求2中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述基于深度学习的问句判定算法, 根据输入的大规模中医医疗对话数据获得对应 的中医相关业 务知识问句数据包括: 基于CD‑CNN算法, 对大规模中医医疗对话数据进行中医业务知识问句自动化识别, 以 获得包含一或多个中 医相关业 务知识问句的中 医相关业 务知识问句数据。 4.根据权利要求3中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述对大规模中 医医疗对话数据进行中 医业务知识问句自动化识别包括: 基于规则模板库, 获得对应所述大规模中医医疗对话数据的一或多个初步中医相关业 务知识问句; 基于构建的关键语法特征词库以及中医知识特征词库构对各初步中医相关业务知识 问句提取问句关键语法特征以及知识特征, 并将提取的每个初步中医相关业务知识问句提 取问句关键语法特征以及知识特征与各初步中医相关业务知识问句融合, 获得对应各初步 中医相关业 务知识问句的输入数据; 基于外部语法特征知识库, 对各输入数据分别采用卷积层滑动窗口以及固定窗口提取 特征, 并将提取 的特征相结合, 以获得对应各初步中医相关业务知识问句的中医相关业务 知识问句。 5.根据权利要求3中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述基于中医对话话题 聚类算法, 根据所述中医相关业务知识问句数据获得对应的 中医聚类话题标准数据包括: 基于LF‑Kmeans算法, 对各中医相关业务知识问句进行中医话题标签聚类, 并获得文本 向量化的中医聚类话题标准数据; 其中, 所述LF ‑Kmeans算法的簇数由构建的具有一或多个标签层级的中医层次化标签 库确定; 其中, 每 个标签层级包 含: 一或多个中 医层次化标签。 6.根据权利要求4中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述对各中医相关业务知识问句进行中医话题标签聚类, 并获得文本 向量化的中医 聚类话题标准数据包括:权 利 要 求 书 1/2 页 2 CN 115392462 A 2将各中医相关业 务知识问句进行基本特 征向量化, 获得对应的基础特 征向量; 抽取各中医相关业务知识问句对应的中医话题知识标签, 并 映射为对应的中医知识标 签库向量; 融合各中医相关业务知识问句所对应的基础特征向量以及中医知识标签库向量, 以获 得文本向量 化的中医聚类话题标准数据。 7.根据权利要求2中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述基于相似度自动归类算法, 将各中医业务知识问句依据其对应的中医对话话题 自动归类到初始中医对话话题层次知识库中, 以获得最终的中医对话话题层次知识库包 括: 基于Siamese  Network网络, 通过相似度计算将各中医业务知识问句自动归类到初始 中医对话话题层次知识库中。 8.根据权利要求7中所述的基于大规模对话数据知识挖掘的知识库构建方法, 其特征 在于, 所述通过相似度计算将各中医对话话题的中医业务知识问句自动归类到初始中医对 话话题层次知识库包括: 将各中医业务知识问句分别与初始中医对话话题层次知识库中与其相同中医对话话 题的中医业务知识进行相似度计算, 以获得对应各中 医业务知识问句的相似度计算结果; 基于各中 医业务知识问句的相似度计算结果判断是否符合相似条件; 将符合相似条件的中医业务知识问句添加到所述初始初始中医对话话题层次知识库 中与所述中 医业务知识问句对应的中 医对话话题的中 医业务知识中; 将不符合相似条件的中医业务知识问句授予新的中医对话话题, 并将在所述初始中医 对话话题层次知识库构建该中 医对话话题的中 医业务知识。 9.一种基于大规模 对话数据知识挖掘的知识库构建系统, 其特 征在于, 所述系统包括: 数据获取模块, 用于获取待挖掘的大规模中 医医疗对话数据; 挖掘与知识库构建模块, 连接所述数据获取模块, 用于基于多层次知识挖掘算法, 根据 所述大规模中医医疗对话数据挖掘对应的中医业务知识, 并获得融合所述中医业务知识的 中医对话话题层次知识库。 10.一种基于大规模对话数据知识挖掘的知识库构建终端, 其特征在于, 包括: 一或多 个存储器及一或多个处 理器; 所述一或多个存 储器, 用于存 储计算机程序; 所述一或多个处理器, 连接所述存储器, 用于运行所述计算机程序以执行如权利要求1 至8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115392462 A 3

.PDF文档 专利 基于大规模对话数据知识挖掘的知识库构建方法、系统及终端

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大规模对话数据知识挖掘的知识库构建方法、系统及终端 第 1 页 专利 基于大规模对话数据知识挖掘的知识库构建方法、系统及终端 第 2 页 专利 基于大规模对话数据知识挖掘的知识库构建方法、系统及终端 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 02:14:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。