专利 一种领域知识库中的概念自动获取方法、系统、装置及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211049662.9 (22)申请日 2022.08.30 (71)申请人陕西师范大学地址 710119 陕西省西安市长安区西长安街620号 (72)发明人袁柳　剌媛　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师张宇鸽 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/205(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 20/00(2019.01)G06F 16/835(2019.01) G06F 16/838(2019.01) G06F 16/951(2019.01) (54)发明名称一种领域知识库中的概念自动获取方法、系统、装置及介质 (57)摘要本发明公开了一种领域知识库中的概念自动获取方法、系统、装置及介质；包括：基于DOM解析半结构化文档，获取文档的关键词信息；基于关键词信息，爬取Web网页数据；对Web网页数据进行动态解析，抽取三元组，构建本体；基于本体，构建终身机器学习模型；基于终身机器学习模型，获取未被命名的概念，并以三元组的形式扩充至本体知识库中。本发明能够有效整合知识结构，更加方便用户地理解和使用，同时进行本体的构建，能够根据现有的概念和属性，推理出复杂的逻辑关系，使得程序可以轻而易举的读懂语义逻辑；并且在系统不断学习的过程中，实现了web信息知识的动态获取与整合，不断地扩大领域知识库，对所构建的知识概念结构也在进行及时地更新。权利要求书2页说明书9页附图3页 CN 115270776 A 2022.11.01 CN 115270776 A 1.一种领域知识库中的概念自动获取方法，其特征在于，包括：基于DOM解析半结构化文档，获取文档的关键词信息；基于关键词信息，爬取Web网页数据；对Web网页数据进行动态解析，抽取三元组，构建本体；基于本体，构建终身机器学习模型；基于终身机器学习模型，获取未被命名的概念，并以三元组的形式扩充至本体知识库中。 2.根据权利要求1所述的领域知识库中的概念自动获取方法，其特征在于，所述半结构化文档包括： UMLS、 SNOM ED‑CT和MeSH；基于DOM解析半结构化文档，获取文档的关键词信息，具体为：通过DOM对UMLS、 SNOMED CT、 MeSH半结构化数据进行解析，提取关键词的描述、概念、术语的关系信息。 3.根据权利要求2所述的领域知识库中的概念自动获取方法，其特征在于，所述基于关键词信息，爬取Web网页数据，具体为：基于DOM解析的关键词的描述信息，在Web页面中去搜索仅限于关键词的文章信息，对文章信息进行爬取，获取文章的标题、发布时间和内容，创建输出文件并将结果写入本地es 库。 4.根据权利要求3所述的领域知识库中的概念自动获取方法，其特征在于，所述对Web 网页数据进行动态解析，抽取三元组，具体为：基于自然语言处理中的实体解析技术，对Web网页数据进行动态解析；构建与所爬取非/半结构化数据相匹配的语义模板，并通过正则表达式规则将DOM解析的半结构化数据转换成结构化数据，从爬取的Web网页数据中抽取<S， P， O>，构建本体所需的实体及其属性关系。 5.根据权利要求4所述的领域知识库中的概念自动获取方法，其特征在于，所述构建本体，具体为：将结构化数据和Web资源中抽取的<S， P， O>三元组作为本体构建的数据源；元数据获取：利用Jsoup解析获取HTML文本内容，获取元数据；所获取的元数据为web页面中的文本段落信息；生成断言层:对元数据进行预处理，生成断言；语义概念提取层:提取文本内容中的关键词概念；语义关系提取层:从每条断言中抽象出RDF规范中的三元组，三元组的每一部分的信息内容需要采用语义概念提取层所提取到的术语或者概念； RDF数据是状态的集合，称为三元组，形式为<S， P， O>， S表示标题， P是断言， O代指对象；每个三元组描述了S与O之间的联系；三元组集合表示为直接典型的图，图中节点代表S， O，边代表断言，连接起S， O；一个句子包含三元组；其中三元组是<S， P， O>的形式， S， O是实体， P是两个实体的关系；本体语言表示层:利用RDF和OWL语言对已有的三元组集合进行永久性存储，即将数据源进行存储；使上一层获取到的语义关系能够被本体语言表示，将学习到的知识输出为本体文件；权　利　要　求　书 1/2 页 2 CN 115270776 A 2基于Prot égé工具完成本体构建，启动Hermit推理机推理语义逻辑关系，获取语义逻辑。 6.根据权利要求5所述的领域知识库中的概念自动获取方法，其特征在于，所述基于本体，构建终身机器学习模型，具体为：接收任务管理器所发送的任务；基于本体知识库中的先前任务信息，对任务进行学习，并存储至本体知识库中；学习器执行的N个学习任务及各学习任务所对应的数据集，当接收任务管理器所发送的第N+1个任务TN+1和其对应的数据集DN+1时，学习器利用本体知识库中的历史知识学习 TN+1，本体知识库维护先前学习到的知识，并通过学习先前任务来进行知识积累；当完成学习TN+1后，对本体知识库进行更新。 7.根据权利要求6所述的领域知识库中的概念自动获取方法，其特征在于，所述基于终身机器学习模型，获取未被命名的概念，具体为：利用频繁模式和关联规则挖掘已有概念中的未知现象； FP‑tree算法对现有的概念结构进行两次扫描，构建FP ‑tree树，通过其找出频繁项集； FP‑growth算法的流程如下：第一次扫描，对数据集进行扫描得到频繁项为1的项目集，定义最小支持度，删除小于最小支持度的项目，然后将原始数据集中的条目按项目集中降序进行排列；第二次扫描，从上往下降序创建项头表以及FP树；对于每个项目找到其条件模式基，递归调用树结构，删除小于最小支持度的项；如果最终呈现单一路径的树结构，则直接列举所有组合；非单一路径的则继续调用树结构，直到形成单一路径即可；通过频繁项集在PIS中发现多个概念实体之间的频繁项集及关联规则，获取未被命名的概念。 8.一种领域知识库中的概念自动获取系统，其特征在于，包括：第一获取模块，所述第一获取模块基于DOM解析半结构化文档，获取文档的关键词信息；爬取模块，所述爬取模块基于关键词信息，爬取Web网页数据；解析模块，所述解析模块用于对Web网页数据进行动态解析，抽取三元组，构建本体；构建模块，所述构建模块基于本体，构建终身机器学习模型；第二获取模块，所述第二获取模块基于终身机器学习模型，获取未被命名的概念，并以三元组的形式扩充至本体知识库中。 9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1‑7任一项所述方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1 ‑7任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115270776 A 3

专利 一种领域知识库中的概念自动获取方法、系统、装置及介质

专利一种领域知识库中的概念自动获取方法、系统、装置及介质