说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211049662.9 (22)申请日 2022.08.30 (71)申请人 陕西师范大学 地址 710119 陕西省西安市长安区西长安 街620号 (72)发明人 袁柳 剌媛 (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 张宇鸽 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/205(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01)G06F 16/835(2019.01) G06F 16/838(2019.01) G06F 16/951(2019.01) (54)发明名称 一种领域知识库中的概念自动获取方法、 系 统、 装置及 介质 (57)摘要 本发明公开了一种领域知识库中的概念自 动获取方法、 系统、 装置及介质; 包括: 基于DOM解 析半结构化文档, 获取文档的关键词信息; 基于 关键词信息, 爬取Web网页数据; 对Web网页数据 进行动态解析, 抽取三元组, 构建本体; 基于本 体, 构建终身机器学习模型; 基于终身机器学习 模型, 获取未被命名的概念, 并以三元组的形式 扩充至本体知识库中。 本发明能够有效整合知识 结构, 更加方便用户地理解和使用, 同时进行本 体的构建, 能够根据现有的概念和属性, 推理出 复杂的逻辑 关系, 使得程序可以轻而易举的读懂 语义逻辑; 并且在系统不断学习的过程中, 实现 了web信息知识的动态获取与整合, 不断地扩大 领域知识库, 对 所构建的知识概念 结构也在进行 及时地更新。 权利要求书2页 说明书9页 附图3页 CN 115270776 A 2022.11.01 CN 115270776 A 1.一种领域知识库中的概念自动获取 方法, 其特 征在于, 包括: 基于DOM解析半结构化文档, 获取文档的关键词信息; 基于关键词信息, 爬取Web网页数据; 对Web网页数据进行动态解析, 抽取三元组, 构建本体; 基于本体, 构建终身机器学习模型; 基于终身机器学习模型, 获取未被命名的概念, 并以三元组的形式扩充至本体知识库 中。 2.根据权利要求1所述的领域知识库中的概念自动获取方法, 其特征在于, 所述半结构 化文档包括: UMLS、 SNOM ED‑CT和MeSH; 基于DOM解析半结构化文档, 获取文档的关键词信息, 具体为: 通过DOM对UMLS、 SNOMED CT、 MeSH半结构化数据进行解析, 提取关键词的描述、 概念、 术 语的关系信息 。 3.根据权利要求2所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于关 键词信息, 爬取Web网页数据, 具体为: 基于DOM解析的关键词的描述信息, 在Web页面中去搜索仅限于关键词的文章信息, 对 文章信息进 行爬取, 获取文章的标题、 发布时间和内容, 创建输出文件并将结果写入本地es 库。 4.根据权利要求3所述的领域知识库中的概念自动获取方法, 其特征在于, 所述对Web 网页数据进行动态解析, 抽取三元组, 具体为: 基于自然语言处 理中的实体解析技 术, 对Web网页数据进行动态解析; 构建与所爬取非/半结构化数据相匹配的语义模板, 并通过正则表达 式规则将DOM解析 的半结构化数据转换成结构化数据, 从爬取的Web网页数据中抽取<S, P, O>, 构建本体所需 的实体及其属性关系。 5.根据权利要求4所述的领域知识库中的概念自动获取方法, 其特征在于, 所述构建本 体, 具体为: 将结构化数据和Web资源中抽取的<S, P, O>三元组作为本体构建的数据源; 元数据获取: 利用Jsoup解析获取HTML文本内容, 获取元数据; 所获取的元数据 为web页 面中的文本段落信息; 生成断言层:对元 数据进行 预处理, 生成断言; 语义概念提取层:提取文本内容中的关键词概念; 语义关系提取层:从每条断言中抽象出RDF规范中的三元组, 三元组的每一部分的信息 内容需要采用语义 概念提取层所提取到的术语或者 概念; RDF数据是状态的集合, 称为三元组, 形式为<S, P, O>, S表示标题, P是断言, O代指对象; 每个三元组描述了S与O之间的联系; 三元组集合表示为直接典型的图, 图中节点代表S, O, 边代表断言, 连接起S, O; 一个句子包 含三元组; 其中三元组是<S, P, O>的形式, S, O是实体, P是两个实体的关系; 本体语言表示层:利用RDF和OWL语言对已有 的三元组集合进行永久性存储, 即将数据 源进行存储; 使上一层获取到的语义关系能够被本体语言表示, 将学习到的知识输出为本 体文件;权 利 要 求 书 1/2 页 2 CN 115270776 A 2基于Prot égé工具完成本体构建, 启动Hermit推理机推理语义逻辑关系, 获取语义逻 辑。 6.根据权利要求5所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于本 体, 构建终身机器学习模型, 具体为: 接收任务管理器所发送的任务; 基于本体知识库中的先 前任务信息, 对 任务进行 学习, 并存 储至本体知识库中; 学习器执行的N个学习任务及各学习任务所对应的数据集, 当接收任务管理器所发送 的第N+1个任务TN+1和其对应的数据集DN+1时, 学习器利用本体知识库中的历史知识学习 TN+1, 本体知识库 维护先前学习到的知识, 并通过学习先前任务来进行知识积累; 当完成学 习TN+1后, 对本体知识库进行 更新。 7.根据权利要求6所述的领域知识库中的概念自动获取方法, 其特征在于, 所述基于终 身机器学习模型, 获取未被命名的概念, 具体为: 利用频繁模式和关联规则挖掘已有概念中 的未知现象; FP‑tree算法对现有的概念结构进行两次扫描, 构建FP ‑tree树, 通过其找出频繁项集; FP‑growth算法的流 程如下: 第一次扫描, 对数据集进行扫描得到频繁项为1的项目集, 定义最小支持度, 删除小于 最小支持度的项目, 然后将原 始数据集中的条目按 项目集中降序进行排列; 第二次扫描, 从上往下降序创建项头表以及FP树; 对于每个项目找到其条件模式基, 递归调用树结构, 删除小于最小支持度的项; 如果最 终呈现单一路径的树结构, 则直接列举所有组合; 非单一路径的则继续调用树结构, 直到形 成单一路径即可; 通过频繁项集在PIS中发现多个概念实体之间的频繁项集及关联规则, 获取未被命名 的概念。 8.一种领域知识库中的概念自动获取系统, 其特 征在于, 包括: 第一获取模块, 所述第一获取模块基于DOM解析半结构化文档, 获取文档的关键词信 息; 爬取模块, 所述爬取模块基于关键词信息, 爬取Web网页数据; 解析模块, 所述 解析模块用于对Web网页数据进行动态解析, 抽取三元组, 构建本体; 构建模块, 所述构建模块基于 本体, 构建终身机器学习模型; 第二获取模块, 所述第二获取模块基于终身机器学习模型, 获取未被命名的概念, 并以 三元组的形式扩充至 本体知识库中。 9.一种终端设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器上 运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑7任 一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115270776 A 3
专利 一种领域知识库中的概念自动获取方法、系统、装置及介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:07:06
上传分享
举报
下载
原文档
(625.3 KB)
分享
友情链接
GB-T 3098.23-2020 紧固件机械性能 M42~M72螺栓、螺钉和螺柱.pdf
TTAF 180.4—2023 小程序个人信息保护规范 第4部分:全生命周期.pdf
DB3301-T 71—2018 数字城管系统运维服务规范 杭州市.pdf
HB 8574-2020 民用飞机机载嵌入式操作系统应用集成验证要求.pdf
GB-T 5375-2006 摩托车和轻便摩托车型号编制方法.pdf
GB-T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第2部分:指标体系.pdf
GB-T 30257-2013 节能量测量和验证技术要求 通风机系统.pdf
GB-T 36412-2018 力标准机的检验与校准.pdf
GB-T 4937.42-2023 半导体器件 机械和气候试验方法 第42部分:温湿度贮存.pdf
亿格云 陈吴栋 零信任SASE 助力数字化企业建立多云安全访问体系.pdf
YD-T 2669-2013 第三方安全服务能力评定准则.pdf
SC-T 1135.3-2021 稻渔综合种养技术规范 第3部分:稻蟹.pdf
GB-T 10051.15-2010 起重吊钩 第15部分:叠片式单钩.pdf
GB 3096-2008_声环境质量标准.pdf
DB34-T 5037-2022 船闸工程施工安全检查标准 安徽省.pdf
GM-T 0081-2020 SM9密码算法加密签名消息语法规范.pdf
GB-T 8239-2014 普通混凝土小型砌块.pdf
T-GDFZ 0001—2018 无缝压胶服装.pdf
国家密码局 信息安全等级保护 商用密码技术实施要求 2009.pdf
DB65-T 3902-2016 烟花爆竹批发、零售及储存库事故隐患排查技术规范 新疆维吾尔自治区.pdf
交流群
-->
1
/
15
评价文档
赞助2元 点击下载(625.3 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。