全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111639822.0 (22)申请日 2021.12.2 9 (71)申请人 国网天津市电力公司 地址 300010 天津市河北区五经路39号 申请人 国家电网有限公司   国网天津市电力公司信息通信公司   国网天津市电力公司城东供电分公 司 (72)发明人 刘宇行 熊光普 宋建永 刘瑜  尹喜阳 卢志鑫 吕国远 付连宇  刘乙召 王强  (74)专利代理 机构 天津盛理知识产权代理有限 公司 12209 代理人 王雨晴(51)Int.Cl. G06F 40/289(2020.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06F 16/36(2019.01) G06F 16/33(2019.01) G06K 9/62(2022.01) (54)发明名称 面向电力业务数据的基于图结构的语义级 模糊匹配方法 (57)摘要 本发明涉及一种面向电力业务数据的基于 图结构的语义级模糊匹配方法, 包括以下步骤: 步骤1、 对电网数据中的原始通道路由数据进行 预处理; 步骤2、 将预处理后的数据的路由拓 扑信 息进行结构化表示, 形成结构化的路由拓扑数 据。 本发明能够分别从子串级别和网络拓扑结构 级别两个角度对数据进行有效 匹配。 权利要求书2页 说明书5页 附图1页 CN 114358005 A 2022.04.15 CN 114358005 A 1.一种面向电力业务数据的基于图结构的语义级模糊匹配方法, 其特征在于: 包括以 下步骤: 步骤1、 对电网数据中的原 始通道路由数据进行 预处理; 步骤2、 将预处理后的数据的路由拓扑信 息进行结构化表示, 形成结构化的路由拓扑数 据。 2.根据权利要求1所述的一种面向电力业务数据的基于图结构的语义级模糊匹配方 法, 其特征在于: 所述步骤1的对电网数据中的原始 通道路由数据进 行预处理的具体步骤包 括: (1)首先, 对电网数据中的原始通道路由数据, 用jieba分词等方法进行语义分割, 形成 结构化链 表数据; (2)其次, 对结构化链表数据用python正则方法进行初步的去冗余, 去掉无实际意义的 标点等字符; (3)随后, 将所有结构化链表数据根据是否结构、 描述方式完备分为准确的历史数据以 及待清洗校核的业 务数据两 部分; (4)最后, 将准确的历史数据, 整理成包含站点列表、 设备列表以及光纤列表的基础数 据表。 其中, 站 点列表、 设备列 表包含了准确的站 点、 设备名称信息, 光纤列 表包含了各类准 确的通道路由数据。 这张基础数据表将被用来作为后续 步骤的匹配 基准数据源。 3.根据权利要求1所述的一种面向电力业务数据的基于图结构的语义级模糊匹配方 法, 其特征在于: 所述 步骤2的具体步骤 包括: ⑴.首先对待清洗校核的路由通道数据进行语义分割, 形成: ①.待匹配站点和设备序 列②连接符序列; ⑵.运用匹配算法将待匹配站点和设备序列中的每 个字段进行匹配与消歧; ⑶.将连接符序列 中的每个连接符用One ‑hot编码规则重新编码, 形成One ‑hot编码后 的连接符序列; ⑷.将One‑hot编码后的连接符序列用Kmeans算法进行聚类; ⑸.对于聚类后 每个类别的连接符序列, 将中心点的One ‑hot编码序列还原为对应的连 接符序列, 生成该类别的拓扑路由 的正则表达式; ⑹.将每条路由通道数据用对应的正则表达 式将匹配与消歧后的站点和设备信 息进行 重组, 形成结构化的路由拓扑 数据。 4.根据权利要求3所述的一种面向电力业务数据的基于图结构的语义级模糊匹配方 法, 其特征在于: 所述 步骤2第(3)步的具体步骤 包括: ⑴.将基础数据表中的站点、 设备列表转 化为站点、 设备词袋, 构建Trie树; ⑵.根据基础数据表中的光纤表中的通道路由数据构造成对应的拓扑网络 图, 作为查 询图; ⑶.将待匹配的站点、 设备名称数据作为查询字段输入到Trie树中进行搜索匹配, 若完 全匹配到词袋中的站点、 设备名称, 则跳过后续步骤, 直接将站点、 设备名称数据作为输出 结果。 若在Trie树中未完全匹配, 则执 行步骤(4)、 (5)、 (6); ⑷.对于未完全匹配的查询字段, 以最大公共子串长度算法分别计算词袋中各站点名 称与字段之间的语义距离, 对结果进 行排序, 取距离最近的几个站 点、 设备名称作为语义匹权 利 要 求 书 1/2 页 2 CN 114358005 A 2配的候选集; ⑸.将未完全匹配的查询字段所属的路由链路构造小型子 图, 将构造出的小型子 图输 入到查询图中进 行子图匹配, 取图相似度最近的几个匹配结果对应的节点名称作为结构匹 配的候选集; ⑹.将语义匹配的候选集与结构匹配的候选集计算交集, 取交集中语义距离最近的站 点、 设备名称作为输出 结果, 进一 步提升候选集的推荐准确率。权 利 要 求 书 2/2 页 3 CN 114358005 A 3

.PDF文档 专利 面向电力业务数据的基于图结构的语义级模糊匹配方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向电力业务数据的基于图结构的语义级模糊匹配方法 第 1 页 专利 面向电力业务数据的基于图结构的语义级模糊匹配方法 第 2 页 专利 面向电力业务数据的基于图结构的语义级模糊匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。