说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049662.9 (22)申请日 2022.08.30 (71)申请人 陕西师范大学 地址 710119 陕西省西安市长安区西长安 街620号 (72)发明人 袁柳 剌媛  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 张宇鸽 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/205(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01)G06F 16/835(2019.01) G06F 16/838(2019.01) G06F 16/951(2019.01) (54)发明名称 一种领域知识库中的概念自动获取方法、 系 统、 装置及 介质 (57)摘要 本发明公开了一种领域知识库中的概念自 动获取方法、 系统、 装置及介质; 包括: 基于DOM解 析半结构化文档, 获取文档的关键词信息; 基于 关键词信息, 爬取Web网页数据; 对Web网页数据 进行动态解析, 抽取三元组, 构建本体; 基于本 体, 构建终身机器学习模型; 基于终身机器学习 模型, 获取未被命名的概念, 并以三元组的形式 扩充至本体知识库中。 本发明能够有效整合知识 结构, 更加方便用户地理解和使用, 同时进行本 体的构建, 能够根据现有的概念和属性, 推理出 复杂的逻辑 关系, 使得程序可以轻而易举的读懂 语义逻辑; 并且在系统不断学习的过程中, 实现 了web信息知识的动态获取与整合, 不断地扩大 领域知识库, 对 所构建的知识概念 结构也在进行 及时地更新。 权利要求书2页 说明书9页 附图3页 CN 115270776 A 2022.11.01 CN 115270776 A 1.一种领域知识库中的概念自动获取 方法, 其特 征在于, 包括: 基于DOM解析半结构化文档, 获取文档的关键词信息; 基于关键词信息, 爬取Web网页数据; 对Web网页数据进行动态解析, 抽取三元组, 构建本体; 基于本体, 构建终身机器学习模型; 基于终身机器学习模型, 获取未被命名的概念, 并以三元组的形式扩充至本体知识库 中。 2.根据权利要求1所述的领域知识库中的概念自动获取方法, 其特征在于, 所述半结构 化文档包括: UMLS、 SNOM ED‑CT和MeSH; 基于DOM解析半结构化文档, 获取文档的关键词信息, 具体为: 通过DOM对UMLS、 SNOMED  CT、 MeSH半结构化数据进行解析, 提取关键词的描述、 概念、 术 语的关系信息 。 3.根据权利要求2所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于关 键词信息, 爬取Web网页数据, 具体为: 基于DOM解析的关键词的描述信息, 在Web页面中去搜索仅限于关键词的文章信息, 对 文章信息进 行爬取, 获取文章的标题、 发布时间和内容, 创建输出文件并将结果写入本地es 库。 4.根据权利要求3所述的领域知识库中的概念自动获取方法, 其特征在于, 所述对Web 网页数据进行动态解析, 抽取三元组, 具体为: 基于自然语言处 理中的实体解析技 术, 对Web网页数据进行动态解析; 构建与所爬取非/半结构化数据相匹配的语义模板, 并通过正则表达 式规则将DOM解析 的半结构化数据转换成结构化数据, 从爬取的Web网页数据中抽取<S, P, O>, 构建本体所需 的实体及其属性关系。 5.根据权利要求4所述的领域知识库中的概念自动获取方法, 其特征在于, 所述构建本 体, 具体为: 将结构化数据和Web资源中抽取的<S, P, O>三元组作为本体构建的数据源; 元数据获取: 利用Jsoup解析获取HTML文本内容, 获取元数据; 所获取的元数据 为web页 面中的文本段落信息; 生成断言层:对元 数据进行 预处理, 生成断言; 语义概念提取层:提取文本内容中的关键词概念; 语义关系提取层:从每条断言中抽象出RDF规范中的三元组, 三元组的每一部分的信息 内容需要采用语义 概念提取层所提取到的术语或者 概念; RDF数据是状态的集合, 称为三元组, 形式为<S, P, O>, S表示标题, P是断言, O代指对象; 每个三元组描述了S与O之间的联系; 三元组集合表示为直接典型的图, 图中节点代表S, O, 边代表断言, 连接起S, O; 一个句子包 含三元组; 其中三元组是<S, P, O>的形式, S, O是实体, P是两个实体的关系; 本体语言表示层:利用RDF和OWL语言对已有 的三元组集合进行永久性存储, 即将数据 源进行存储; 使上一层获取到的语义关系能够被本体语言表示, 将学习到的知识输出为本 体文件;权 利 要 求 书 1/2 页 2 CN 115270776 A 2基于Prot égé工具完成本体构建, 启动Hermit推理机推理语义逻辑关系, 获取语义逻 辑。 6.根据权利要求5所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于本 体, 构建终身机器学习模型, 具体为: 接收任务管理器所发送的任务; 基于本体知识库中的先 前任务信息, 对 任务进行 学习, 并存 储至本体知识库中; 学习器执行的N个学习任务及各学习任务所对应的数据集, 当接收任务管理器所发送 的第N+1个任务TN+1和其对应的数据集DN+1时, 学习器利用本体知识库中的历史知识学习 TN+1, 本体知识库 维护先前学习到的知识, 并通过学习先前任务来进行知识积累; 当完成学 习TN+1后, 对本体知识库进行 更新。 7.根据权利要求6所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于终 身机器学习模型, 获取未被命名的概念, 具体为: 利用频繁模式和关联规则挖掘已有概念中 的未知现象; FP‑tree算法对现有的概念结构进行两次扫描, 构建FP ‑tree树, 通过其找出频繁项集; FP‑growth算法的流 程如下: 第一次扫描, 对数据集进行扫描得到频繁项为1的项目集, 定义最小支持度, 删除小于 最小支持度的项目, 然后将原 始数据集中的条目按 项目集中降序进行排列; 第二次扫描, 从上往下降序创建项头表以及FP树; 对于每个项目找到其条件模式基, 递归调用树结构, 删除小于最小支持度的项; 如果最 终呈现单一路径的树结构, 则直接列举所有组合; 非单一路径的则继续调用树结构, 直到形 成单一路径即可; 通过频繁项集在PIS中发现多个概念实体之间的频繁项集及关联规则, 获取未被命名 的概念。 8.一种领域知识库中的概念自动获取系统, 其特 征在于, 包括: 第一获取模块, 所述第一获取模块基于DOM解析半结构化文档, 获取文档的关键词信 息; 爬取模块, 所述爬取模块基于关键词信息, 爬取Web网页数据; 解析模块, 所述 解析模块用于对Web网页数据进行动态解析, 抽取三元组, 构建本体; 构建模块, 所述构建模块基于 本体, 构建终身机器学习模型; 第二获取模块, 所述第二获取模块基于终身机器学习模型, 获取未被命名的概念, 并以 三元组的形式扩充至 本体知识库中。 9.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑7任 一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115270776 A 3

PDF文档 专利 一种领域知识库中的概念自动获取方法、系统、装置及介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种领域知识库中的概念自动获取方法、系统、装置及介质 第 1 页 专利 一种领域知识库中的概念自动获取方法、系统、装置及介质 第 2 页 专利 一种领域知识库中的概念自动获取方法、系统、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。