全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211327205.1 (22)申请日 2022.10.27 (71)申请人 国网河北省电力有限公司信息通信 分公司 地址 050000 河北省石家庄市裕华区富强 大街10号 申请人 华北电力大 学 (保定)   国家电网有限公司 (72)发明人 陈曦 辛锐 李士林 吴军英  姜丹 王新颖 常永娟 张鹏飞  贺月 张博 彭姣 卢艳艳  刘汝坤 李涛  (74)专利代理 机构 石家庄国为知识产权事务所 13120 专利代理师 付晓娣(51)Int.Cl. G06N 5/02(2006.01) G06F 40/279(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 21/60(2013.01) (54)发明名称 电力数据伦理知识图谱构建方法和系统 (57)摘要 本申请适用于知识图谱技术领域, 提供了一 种电力数据伦理知识图谱构建方法和系统, 该方 法包括: 获取多模态的电力数据, 电力数据包括 非结构化数据, 非结构化数据包括第一文本数 据, 第一文本数据包括数据伦理的政 策文件和法 律法规; 基于实体识别模型对非结构化数据进行 实体抽取, 获得候选实体集, 候选实体集包括多 个候选实体; 对候选实体集中的每个候选实体进 行实体对齐, 获得实体集, 实体集中的每个实体 为知识图谱的一个节点。 本申请可以规避电力数 据的隐私泄露问题和数据安全问题, 使电力数据 合理、 高效、 规范的服 务于人们生产和生活。 权利要求书3页 说明书11页 附图2页 CN 115545196 A 2022.12.30 CN 115545196 A 1.一种电力数据伦理知识图谱构建方法, 其特 征在于, 应用于电力数据中 台, 包括: 获取多模态 的电力数据, 所述电力数据包括非结构化数据, 所述非结构化数据包括第 一文本数据, 所述第一文本数据包括数据伦理的政策文件和/或法律法规; 基于实体识别模型对所述非结构化数据进行实体抽取, 获得候选实体集, 所述候选实 体集包括多个候选实体; 对所述候选实体集中的每个所述候选实体进行实体对齐, 获得实体集, 所述实体集中 的每个实体为知识图谱的一个节点。 2.如权利要求1所述的电力数据伦理知识图谱构建方法, 其特征在于, 所述电力数据还 包括结构化数据和半结构化数据, 所述非结构化数据还包括音频数据、 图片数据和视频数 据; 所述获取多模态的电力数据, 包括: 基于所述电力数据中台获取电力业务系统上的结构化数据, 所述结构化数据包括电力 营销系统数据库表、 电力生产系统数据库表以及电力物资系统数据库表; 采用爬虫技术获取网络上数据伦理 的半结构化数据, 基于所述电力数据中台获取所述 电力数据中 台的系统日志文件的半结构化数据; 通过收集数据伦理的政策文件和/或法律法规, 获得所述第一文本数据的非结构化数 据, 通过采集电力客服和电力用户的通话录音, 获得所述音频数据的非结构化数据, 通过采 集电力用户在所述电力数据中台上 的图片记录, 获得所述图片数据的非结构化数据, 通过 采集电力用户在所述电力数据中 台上的视频记录, 获得 所述视频 数据的非结构化数据。 3.如权利要求1所述的电力数据伦理知识图谱构建方法, 其特征在于, 在所述获取多模 态的电力数据后, 所述方法还包括: 基于多模态的电力数据, 构建电力数据伦理知识的本体 库; 所述构建电力数据伦理知识的本体库, 包括: 基于电力数据类型和预设电力数据伦理分类, 构建多个电力数据伦理本体, 所述电力 数据伦理本体包括用电个人用户隐私、 用电企业用户隐私、 用电数据安全以及科研数据, 所 述预设电力数据伦理分类包括隐私泄 露类和数据安全类; 对多个所述电力数据伦理本体进行语义描述, 构建所述电力数据伦理知识的本体库。 4.如权利要求2所述的电力数据伦理知识图谱构建方法, 其特征在于, 在所述基于实体 识别模型对所述非结构化数据进行实体抽取 前, 所述方法还 包括: 采用语音识别技 术将所述音频 数据转换为第二文本数据; 采用机器视 觉技术识别所述图片数据中的第三文本数据和第一图像实体; 采用所述语音识别技术和所述机器视觉技术识别所述视频数据中的敏感目标, 获取第 四文本数据和第二图像实体; 采用结巴分词模型对所述第一文本数据、 所述第二文本数据、 所述第三文本数据和所 述第四文本数据按照中文语法进行词语划分; 构建三元组特 征模板, 所述 三元组特 征模板为实体、 关系和实体的形式。 5.如权利要求1所述的电力数据伦理知识图谱构建方法, 其特征在于, 所述对所述候选 实体集中的每 个所述候选实体进行实体对齐, 包括: 采用word2vec算法分析每 个所述候选实体, 获得每 个所述候选实体的语义向量;权 利 要 求 书 1/3 页 2 CN 115545196 A 2采用余弦相似度公式或相对熵的方式, 计算每 个所述语义向量的相似度; 根据预设相似度阈值判定每个所述语义向量的相似度, 将大于等于所述预设相似度阈 值的所述 候选实体进行实体对齐。 6.一种电力数据伦理知识图谱构建系统, 其特 征在于, 应用于电力数据中 台, 包括: 数据获取模块, 用于获取多模态的电力数据, 所述电力数据包括非结构化数据, 所述非 结构化数据包括第一文本数据, 所述第一文本数据包括数据伦理的政策文件和/或法律法 规; 实体抽取模块, 用于基于实体识别模型对所述结构化数据进行实体抽取, 获得候选实 体集, 所述 候选实体集包括多个候选实体; 实体对齐模块, 用于对所述候选实体集中的每个多个候选实体进行实体对齐, 获得实 体集, 所述实体集中的每 个实体为知识图谱的一个节点。 7.如权利要求6所述的电力数据伦理知识图谱构建系统, 其特征在于, 所述数据获取模 块用于获取结构化数据和半结构化数据的电力数据, 所述数据获取模块 获取的非结构化数 据还包括音频 数据、 图片数据和视频 数据; 所述数据获取模块用于获取 所述电力数据, 具体包括: 基于所述电力数据中台获取电力业务系统上的结构化数据, 所述结构化数据包括电力 营销系统数据库表、 电力生产系统数据库表以及电力物资系统数据库表; 采用爬虫技术获取网络上数据伦理 的半结构化数据, 基于所述电力数据中台获取所述 电力数据中 台的系统日志文件的半结构化数据; 通过收集数据伦理的政策文件和/或法律法规, 获得所述第一文本数据的非结构化数 据, 通过采集电力客服和电力用户的通话录音, 获得所述音频数据的非结构化数据, 通过采 集电力用户在所述电力数据中台上 的图片记录, 获得所述图片数据的非结构化数据, 通过 采集电力用户在所述电力数据中 台上的视频记录, 获得 所述视频 数据的非结构化数据。 8.如权利要求6所述的电力数据伦理知识图谱构建系统, 其特征在于, 所述系统还包括 本体库构建模块, 所述本体库构建模块, 用于基于多模态的电力数据, 构建电力数据伦理知 识的本体库; 所述本体库构建模块构建电力数据理论知识的本体库, 包括: 基于电力数据类型和预设电力数据伦理分类, 构建多个电力数据伦理本体, 所述电力 数据伦理本体包括用电个人用户隐私、 用电企业用户隐私、 用电数据安全以及科研数据, 所 述预设电力数据伦理分类包括隐私泄 露类和数据安全类; 对多个所述电力数据伦理本体进行语义描述, 构建所述电力数据伦理知识的本体库。 9.如权利要求7所述的电力数据伦理知识图谱构建系统, 其特征在于, 在所述实体抽取 模块基于实体识别模型对所述非结构化数据进行实体抽取 前, 所述系统还 包括: 音频数据处理单元, 用于采用语音识别技 术将所述音频 数据转换为第二文本数据; 图片数据处理单元, 用于采用机器视觉技术识别所述图片数据中的第 三文本数据和第 一图像实体; 视频数据处理单元, 用于采用所述语音识别技术和所述机器视觉技术识别所述视频数 据中的敏感目标, 获取第四文本数据和第二图像实体; 文本数据处理单元, 用于采用结巴分词模型对所述第 一文本数据、 所述第 二文本数据、权 利 要 求 书 2/3 页 3 CN 115545196 A 3

.PDF文档 专利 电力数据伦理知识图谱构建方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 电力数据伦理知识图谱构建方法和系统 第 1 页 专利 电力数据伦理知识图谱构建方法和系统 第 2 页 专利 电力数据伦理知识图谱构建方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:44:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。