说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210373359.8 (22)申请日 2022.04.11 (71)申请人 中国软件与技 术服务股份有限公司 地址 100081 北京市海淀区学院南路5 5号 (中软大厦) (72)发明人 程序 杨春平 谭太龙 王峰 罗洪海 谷金哲 周军 孙延春 孙蕾 王纲 吴凡 (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 邱晓锋 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 基于知识图谱的自动化构建知识库的方法 及系统 (57)摘要 本发明涉及一种基于知识图谱的自动化构 建知识库的方法及系统。 该方法包括: 获取非结 构化的数据, 并对数据进行处理以形成训练集文 件和预测集文件; 图形化地构建知识图谱的 Schema, 用于描述领域中实体与实体之间的关 系; 根据构建的Sch ema对训练集文件中的实体进 行标注; 利用标注后的文件和以及预先建立的规 则集文件, 训练用于预测实体间关系的服务模 型; 将预测集文件输入训练完成的服务模型, 执 行预测任务, 得到预测结果 即实体‑关系‑实体的 三元组数据; 将服务模型的预测结果转换为知识 图谱, 并将知识图谱自动化地添加到知识库中。 本发明能够实现知识图谱的自动化构建, 为利用 数据洞察隐藏的关键信息提供了极大的便利。 权利要求书2页 说明书7页 附图4页 CN 114911893 A 2022.08.16 CN 114911893 A 1.一种基于知识图谱的自动化构建知识库的方法, 其特 征在于, 包括以下步骤: 获取非结构化的数据, 并对数据进行处 理以形成训练集文件和预测集文件; 图形化地构建知识图谱的Sc hema, 用于描述领域中实体与实体之间的关系; 根据构建的Sc hema对训练集文件中的实体进行 标注; 利用标注后的文件和以及预先建立的规则集文件, 训练用于预测实体间关系的服务模 型; 将预测集文件输入训练完成的服务模型, 执行预测任务, 得到预测结果即实体 ‑关系‑ 实体的三元组数据; 将服务模型的预测结果 转换为知识图谱, 并将知识图谱自动化 地添加到知识库中。 2.根据权利要求1所述的方法, 其特征在于, 所述获取非结构化的数据, 数据的来源有 两方面: 一是将终端本地的文档进行上传, 文件较多时批量上传; 二是定时任务上传, 从下 载平台定时地获取文档, 根据不同的需求下 载相应的文档, 并进行 上传。 3.根据权利要求1所述的方法, 其特征在于, 所述对数据进行处理以形成训练集文件和 预测集文件, 包括: a)进行数据清洗, 对数据进行重新审查和校验, 删除重复的数据, 纠正错误的数据, 在 规定时间补全残缺数据, 并且提供 数据的一 致性; b)将数据转化成TXT格式, 并分别生成训练集和预测集文件, 以供模型的训练及预测使 用。 4.根据权利要求1所述的方法, 其特征在于, 所述图形化地构建知识图谱的Schema, 是 采用可拖拽的方式构建Sc hema。 5.根据权利要求1所述的方法, 其特 征在于, 所述 服务模型为BERT+CRF模型。 6.根据权利要求1所述的方法, 其特征在于, 所述将服务模型的预测结果转换为知识图 谱, 包括: 采用聚类技术对服务模型预测的实体 ‑关系‑实体的三元组数据进行消歧和关系 融合, 然后利用脚本文件 对产生的结果进行解析, 形成知识图谱。 7.根据权利要求1所述的方法, 其特征在于, 所述知识库使用图形数据库进行存储, 所 述图形数据库为 Neo4j图形数据库。 8.一种采用权利要求1~7中任一权利要求所述方法的基于知识图谱的自动化构建知 识库的系统, 其特征在于, 包括项目管 理模块、 数据管 理模块、 构建Schema模块、 数据标注模 块、 模型训练模块、 批量预测模块、 知识图谱 模块; 所述项目管理模块用于创建并管理关于自动构建知识图谱的项目; 所述数据 管理模块用于获取非结构化的数据, 并对数据进行处理以形成训练集文件和 预测集文件; 所述构建Schema模块用于图形化地构建知识图谱的Schema, 用于描述领域中实体与实 体之间的关系; 所述数据标注模块用于根据构建的Sc hema对训练集文件中的实体进行 标注; 所述模型训练模块用于利用标注后的文件和以及预先建立的规则集文件, 训练用于预 测实体间关系的服 务模型; 所述批量预测模块用于将预测集文件输入训练完成的服务模型, 执行预测任务, 得到 预测结果即实体 ‑关系‑实体的三元组数据;权 利 要 求 书 1/2 页 2 CN 114911893 A 2所述知识图谱模块用于将服务模型的预测结果转换为知识图谱, 并将知识图谱自动化 地添加到知识库中。 9.一种电子装置, 其特征在于, 包括存储器和 处理器, 所述存储器存储计算机程序, 所 述计算机程序被配置为由所述处理器执行, 所述计算机程序包括用于执行权利要求 1~7中 任一权利要求所述方法的指令 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 所述计算机程序被 计算机执 行时, 实现权利要求1~7中任一权利要求所述的方法。权 利 要 求 书 2/2 页 3 CN 114911893 A 3
专利 基于知识图谱的自动化构建知识库的方法及系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 08:57:45
上传分享
举报
下载
原文档
(818.1 KB)
分享
友情链接
GB-T 40211-2021 工业通信网络 网络和系统安全 术语、概念和模型 ISO 62443-1-1-2009.pdf
DB52-T 1239.2-2017 政府数据 核心元数据 第2部分:法人单位基础数据 贵州省.pdf
SY-T 7657.3-2021 天然气 利用光声光谱-红外光谱-燃料电池联合法测定组成 第3部分:红外光谱法测定乙烷及以上烷烃、二氧化碳、一氧化碳含量.pdf
T-CAGHP 016—2018 地质灾害监测仪器物理接口规定 试行.pdf
GB-T 34349-2017 输气管道内腐蚀外检测方法.pdf
T-CESA 1299-2023 信息技术服务 运行维护服务能力成熟度模型.pdf
NY-T 848-2004 蔬菜产地环境技术条件.pdf
ISO 21511 2018 Work breakdown structures for project and programme management.pdf
GB-T 7921-2008 均匀色空间和色差公式.pdf
SY-T 6306-2020 钢质原油储罐运行安全规范.pdf
GB-T 8769-2010 锆及锆合金棒材和丝材.pdf
GB-T 15166.6-2023 高压交流熔断器 第6部分:用于变压器回路的高压熔断器的熔断件选用导则.pdf
T-HNCAA 052—2023 公路桥梁结构健康监测系统实施和验收标准.pdf
GB-T 17657-2022 人造板及饰面人造板理化性能试验方法.pdf
GB 9706.205-2020 医用电气设备 第2-5部分:超声理疗设备的基本安全和基本性能专用要求.pdf
GB-T 29362-2023 法庭科学 电子数据搜索检验规程.pdf
GB-T 24804-2023 提高在用电梯安全性的规范.pdf
T-GCHA 1.1—2018 定制家居产品 人造板定制衣柜 第1部分:术语和定义.pdf
GB-T 35397-2017 科技人才元数据元素集.pdf
NB-T 10857-2021 水电工程合理使用年限及耐久性设计规范.pdf
1
/
3
14
评价文档
赞助2.5元 点击下载(818.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。