(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211016463.8
(22)申请日 2022.08.24
(71)申请人 浪潮云信息技 术股份公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S01号楼
(72)发明人 宋洪恩 周永进 李国涛 张立勇
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 姜鹏
(51)Int.Cl.
G06F 16/25(2019.01)
(54)发明名称
一种基于ETL的数据流 转监控方法及系统
(57)摘要
本发明涉及数据处理技术领域, 具体为一种
基于ETL的数据流转监控方法包括以下步骤, 收
集数据链路对应表和所属数据库信息, 继而录入
系统之中, 通过工具和系统中的脚本程序, 实现
元数据采集; 在采集到数据链路的元数据信息
后, ETL工具和脚本程序会自动转换和 处理成数
据表; 通过ETL工具和脚本程序, 将获取到的元数
据进行统计和对目标库、 表的状态获取; 有益效
果为: 本发明提出的基于ETL的数据流转监控方
法及系统通过采集系统中所有数据库的元数据
信息, 监控数据库表的各类指标, 测得数据库的
连通性, 数据表链路的完整性和及时性, 从而监
控和获得整体数据流转过程的健康状态, 达到监
控和管理的目的。
权利要求书2页 说明书6页 附图1页
CN 115438110 A
2022.12.06
CN 115438110 A
1.一种基于ETL的数据流转监控方法, 其特征在于: 所述基于ETL的数据流转监控方法
包括以下步骤:
收集数据链路对应表和所属数据库信息, 继而录入系统之中, 通过工具和系统中的脚
本程序, 实现元 数据采集;
在采集到数据链路的元 数据信息后, ETL工具和脚本程序会自动转换和处 理成数据表;
通过ETL工具和脚本程序, 将获取到的元 数据进行统计和对目标库、 表的状态获取;
通过采集数据链路的相关信息, 来获取链路的情况, 将信 息录入到系统中, 通过编写和
调用ETL程序来实现对数据链路的元 数据的采集;
通过ETL工具调用编写好的转换程序, 转换程序将采集到的元数据信息进行整合与汇
总, 实现对 海量数据的管理;
通过ETL工具调用编写好的监控程序, 对采集到的链路信息进行进一步统计, 获取链路
的状态等信息, 从而实现对数据链路状态的监控目的。
2.根据权利要求1所述的一种基于ETL的数据流转监控方法, 其特征在于: 收集数据库
信息时, 在本系统的本地数据库中, 建立不同类型的元数据对应的数据 表, 用来接应抽取到
的元数据信息;
数据库信 息: 将获取到的数据库信息集中整合到一起, 包含: 连接地址, 数据库名称, 登
录用户名称等信息;
表信息: 将获取到的所有数据库下的所有数据库表 的信息整合到一起, 包含: 表名称、
表注释、 表所属用户等信息;
字段信息: 将获取到的所有数据库下所有字段信息整合到一起, 包含: 字段名称、 字段
注释、 字段 所属表信息 。
3.根据权利要求2所述的一种基于ETL的数据流转监控方法, 其特征在于: 元数据进行
统计和对目标库、 表的状态获取时,
对数据链路监控的数据库的数据表信息进行收集, 将收集到的信息, 与采集到的库表
元数据进 行匹配, 将原本 没有关联关系的 “表‑‑表”之间, 定义出关联关系, 将该关系保存整
合在新的表中, 形成固定且可维护的表;
通过维护和动态添加、 修改 “表‑‑表”关系, 来实现数据流 转信息的落 地;
获取到数据链路后, 通过关联表信 息, 来将数据表之间的链路信 息做统一的展示, 可以
对接web UI或者通过ETL将数据分享给其 他平台。
4.根据权利要求1所述的一种基于ETL的数据流转监控方法, 其特征在于: 元数据进行
统计和对目标库、 表的状态获取时包括,
完整性监控、 及时性 监控以及连通 性监控。
5.根据权利要求1所述的一种基于ETL的数据流转监控方法, 其特征在于: 元数据进行
统计和对目标库、 表的状态获取时,
通过配置和从落地的元数据表中获取表信 息, 通过对数据链路的来源端的数据库的访
问来统计表的行数和其他最新的信息, 统计完成后, 通过ETL工具返回需要的行数等结果,
加已转换、 清洗等组件的功能, 将处理后的结果数据存入本地的数据库中, 获得被监控链路
两端的表的行 数等基本信息, 继而可以进行 下一步的链路监控。
6.一种如上述要求1 ‑5任意一项所述的基于ETL的数据流转监控系统, 其特征在于: 所权 利 要 求 书 1/2 页
2
CN 115438110 A
2述该系统由采集元数据、 转换处理模块、 统计监控模块、 开发采集模块、 转换模块以及执行
模块构成;
采集元数据, 用于收集数据链路对应表和所属数据库信 息, 继而录入系统之中, 通过工
具和系统中的脚本程序, 实现元 数据采集;
转换处理模块, 用于在采集到数据链路的元数据信息后, ETL工具和脚本程序会自动转
换和处理成数据表;
统计监控模块, 用于通过ETL工具和脚本程序, 将获取到的元数据进行统计和对目标
库、 表的状态获取;
开发采集模块, 用于通过采集数据链路的相关信息, 来获取链路的情况, 将信 息录入到
系统中, 通过编写和调用ETL 程序来实现对数据链路的元 数据的采集;
转换模块, 用于通过ETL工具调用编写好的转换程序, 转换程序将采集到的元数据信息
进行整合与汇总, 实现对 海量数据的管理;
执行模块, 用于通过ETL工具调用编写好的监控程序, 对采集到的链路信息进行进一步
统计, 获取链路的状态等信息, 从而实现对数据链路状态的监控目的。
7.根据权利要求6所述的一种基于ETL的数据流转监控系统, 其特征在于: 所述采集元
数据在本系统的本地数据库中, 建立不同类型 的元数据对应的数据表, 用来接应抽取到的
元数据信息;
数据库信 息: 将获取到的数据库信息集中整合到一起, 包含: 连接地址, 数据库名称, 登
录用户名称等信息;
表信息: 将获取到的所有数据库下的所有数据库表 的信息整合到一起, 包含: 表名称、
表注释、 表所属用户等信息;
字段信息: 将获取到的所有数据库下所有字段信息整合到一起, 包含: 字段名称、 字段
注释、 字段 所属表信息 。
8.根据权利要求7所述的一种基于ETL的数据流转监控系统, 其特征在于: 所述统计监
控模块对数据链路监控的数据库的数据表信息进行收集, 将收集到的信息, 与采集到的库
表元数据进 行匹配, 将原本 没有关联关系的 “表‑‑表”之间, 定义出关联关系, 将该关系保存
整合在新的表中, 形成固定且可维护的表;
通过维护和动态添加、 修改 “表‑‑表”关系, 来实现数据流 转信息的落 地;
获取到数据链路后, 通过关联表信 息, 来将数据表之间的链路信 息做统一的展示, 可以
对接web UI或者通过ETL将数据分享给其 他平台。
9.根据权利要求8所述的一种基于ETL的数据流转监控系统, 其特征在于: 所述统计监
控模块包括, 完整性 监控、 及时性 监控以及连通 性监控。
10.根据权利要求9所述的一种基于ETL的数据流转监控系统, 其特征在于: 所述统计监
控模块通过配置和从落地的元数据表中获取表信息, 通过对数据 链路的来源端的数据库的
访问来统计表的行数和其他最新的信息, 统计完成后, 通过ETL工具返回需要的行数等结
果, 加已转换、 清洗等组件的功能, 将处理后的结果数据存入本地的数据库中, 获得被监控
链路两端的表的行 数等基本信息, 继而可以进行 下一步的链路监控。权 利 要 求 书 2/2 页
3
CN 115438110 A
3
专利 一种基于ETL的数据流转监控方法及系统
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:01:43上传分享