说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211385948.4 (22)申请日 2022.11.07 (71)申请人 四川大学 地址 610000 四川省成 都市一环路南 一段 24号 (72)发明人 刘忠禹 曾筱茜 姚佳 应志野  付平 李春漾  (74)专利代理 机构 成都高远知识产权代理事务 所(普通合伙) 51222 专利代理师 郑勇力 全学荣 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G16H 50/70(2018.01) (54)发明名称 一种基于知识库的可解释性医疗数据结构 化方法和系统 (57)摘要 本发明属于医学数据处理技术领域, 具体涉 及一种基于知识库的可解释性医疗数据结构化 方法和系统。 本发明的方法包括如下步骤: 输入 待结构化医疗文本; 通过医疗知识库指导生成正 则式; 利用知识抽取模型, 采用所述正则式对所 述待结构化医疗文本进行结构化处理; 输出结构 化处理的结果。 本发明还提供用于实现上述方法 的系统。 本发 明针对医疗文本数据实现了可解释 可推理、 鲁棒性强、 可适配不同类别文本的结构 化技术方案, 具有很好的应用前 景。 权利要求书2页 说明书5页 附图3页 CN 115438198 A 2022.12.06 CN 115438198 A 1.一种基于知识库的可解释性医疗数据结构化方法, 其特 征在于, 包括如下步骤: 步骤1, 输入待结构化医疗文本; 步骤2, 通过医疗知识库指导 生成正则式; 步骤3, 利用知识抽取模型, 采用所述正则式对所述待结构化医疗文本进行结构化处 理; 步骤4, 输出 结构化处 理的结果。 2.按照权利要求1所述的医疗数据结构化方法, 其特征在于: 所述步骤3还包括: 对所述 正则式或所述结构化处理的结果进行人工校正; 采用校正后的正则式对对 所述待结构化医 疗文本进行结构化处理, 并迭代至输出准确的结构化结果; 将校正后的正则式更新至所述 医疗知识库中。 3.按照权利要求1所述的医疗数据结构化方法, 其特征在于: 所述医疗知识库基于对不 同病种和不同类型的大规模医疗文本数据进 行分析构建得到, 所述医疗知识库包括医学实 体、 实体属性、 结构化 正则式及属性 规范化函数。 4.按照权利要求1所述的医疗数据结构化方法, 其特征在于: 所述知识抽取模型包括实 体描述抽取模块、 属性字段抽取模块和 属性字段规范化模块。 5.按照权利要求4所述的医疗数据结构化方法, 其特征在于: 所述实体描述抽取模块执 行如下步骤: 步骤a1, 接收待结构化医疗文本作为输入, 从所述医疗知识库中获取当前实体正则层 中的实体默认起始字符候选集及默认终止 字符候选集; 步骤a2, 通过遍历起始字符候选集及终止字符候选集, 将所有起始字符和终止字符一 一配对, 生成实体抽取正则; 步骤a3, 遍历完起始及终止字符集后, 将所有正则抽取到的结果非空且字符数最少的 作为最优结果, 输出并传递到属性抽取模块。 6.按照权利要求5所述的医疗数据结构化方法, 其特征在于: 所述属性字段抽取模块执 行如下步骤: 步骤b1, 接收实体抽取最优结果作为输入, 从知识库中获取当前属性默认抽取正则, 并 对输入进行处 理, 同时计算当前正则覆盖率, 公式如下: 覆盖率=抽取 结果非空的文本数/ 输入文本总数 ×100%; 步骤b2, 对当前正则生成的字典树进行剪枝和合并, 生成新的正则并计算覆盖率, 直至 覆盖率不再提升; 步骤b3, 以覆盖率最高的正则抽取结果作为最优结果, 输出并传递到属性字段规范化 模块。 7.按照权利要求6所述的医疗数据结构化方法, 其特征在于: 所述属性字段规范化模块 接收所述属性字段抽取模块的输出结果作为输入, 从医疗知识库中获取当前属性规范化处 理函数对输入的文本进行处 理, 输出最终属性 规范化处 理结果。 8.一种用于执行权利要求1 ‑6任一项所述医疗数据 结构化方法的系统, 其特征在于, 包 括: 输入模块, 用于 输入待结构化医疗文本; 医疗知识库, 用于存 储病理知识图谱, 指导 生成正则式;权 利 要 求 书 1/2 页 2 CN 115438198 A 2知识抽取模型, 用于采用所述 正则式对所述待结构化医疗文本进行 结构化处 理; 输出模块, 用于 输出结构化处 理的结果。 9.按照权利要求8所述的系统, 其特征在于: 还包括人机协同校正模块, 用于对所述正 则式或所述结构化处 理的结果进行 人工校正。 10.一种计算机可读存储介质, 其特征在于: 其上存储有计算机程序, 所述计算机程序 用于实现权利要求1 ‑6任一项所述的医疗数据结构化方法。权 利 要 求 书 2/2 页 3 CN 115438198 A 3

.PDF文档 专利 一种基于知识库的可解释性医疗数据结构化方法和系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识库的可解释性医疗数据结构化方法和系统 第 1 页 专利 一种基于知识库的可解释性医疗数据结构化方法和系统 第 2 页 专利 一种基于知识库的可解释性医疗数据结构化方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:39:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。