全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211272120.8 (22)申请日 2022.10.18 (71)申请人 中国农业银行股份有限公司 地址 100005 北京市东城区建国门内大街 69号 (72)发明人 许吉来 罗晓峰 姜帆 张延堂  林发全  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 康欢欢 (51)Int.Cl. G06F 16/25(2019.01) G06F 9/48(2006.01) G06F 9/50(2006.01) G06F 16/182(2019.01)G06F 16/28(2019.01) (54)发明名称 一种数据抽取方法、 装置、 设备及存 储介质 (57)摘要 本发明公开了一种数据抽取方法、 装置、 设 备及存储介质, 涉及数据处理技术领域, 具体涉 及大数据技术领域。 该方法包括: 根据Sqoop进 程 并发数、 资源管理器Yarn集群的集群资源、 以及 目标数据表的空间占用信息, 确定对目标数据表 进行数据抽取时所需的目标映射任务并发数; 根 据目标映射任务并发数, 对目标数据表进行数据 抽取。 采用该技术方案, 可 以动态确定目标映射 任务并发数, 并根据目标映射任务并发数对目标 数据表进行并发的数据抽取, 缩短了从目标数据 表中抽取 数据的时间, 提高了数据抽取的效率。 权利要求书2页 说明书10页 附图4页 CN 115510140 A 2022.12.23 CN 115510140 A 1.一种数据抽取 方法, 其特 征在于, 包括: 根据Sqoop进程并发数、 资源管理器Yarn集群的集群资源、 以及目标数据表的空间占用 信息, 确定对目标 数据表进行 数据抽取时所需的目标映射任务并发数; 根据所述目标映射任务并发数, 对所述目标 数据表进行 数据抽取。 2.根据权利要求1所述的方法, 其特征在于, 所述根据Sqoop进程并发数、 资源管理器 Yarn集群的集群资源、 以及目标数据表的空间占用信息, 确定对目标数据表进行数据抽取 时所需的目标映射任务并发数, 包括: 根据所述目标数据表的空间占用信 息, 确定对目标数据表进行数据抽取时所需的初始 映射任务并发数; 根据Sqoop进程并发数和所述集群资源中的中央处理器CPU内核数量, 确定第一映射任 务并发数; 根据所述初始映射任务并发数、 所述第一映射任务并发数和第二映射任务并发数, 确 定对目标 数据表进行 数据抽取时所需的目标映射任务并发数。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述目标数据表的空间占用信 息, 确定对目标 数据表进行 数据抽取时所需的初始映射任务并发数, 包括: 确定所述目标 数据表的空间占用信息与预设数值之间的第一比值结果; 对所述第一比值结果进行向下取整处理, 将得到的结果作为对目标数据表进行数据抽 取时所需的初始映射任务并发数。 4.根据权利要求2所述的方法, 其特征在于, 所述根据Sqoop进程并发数和所述集群资 源中的CPU内核数量, 确定第一映射任务并发数, 包括: 确定所述 集群资源中的CPU内核数量与所述Sqo op进程并发数之间的第二比值结果; 对所述第二比值结果进行向下 取整处理, 将得到的结果作为第一映射任务并发数。 5.根据权利要求2所述的方法, 其特征在于, 所述根据所述初始映射任务并发数、 所述 第一映射任务并发数和第二映射任务并发数, 确定对目标数据表进行数据抽取时所需的目 标映射任务并发数, 包括: 若所述初始映射任务并发数大于所述第 一映射任务并发数, 则将所述第 一映射任务并 发数作为对目标 数据表进行 数据抽取时所需的目标映射任务并发数; 若所述初始映射任务并发数大于或等于第 二映射任务并发数, 且小于或等于所述第 一 映射任务并发数, 则将所述初始映射任务并发数作为对目标数据 表进行数据抽取时所需的 目标映射任务并发数; 若所述初始映射任务并发数小于第 二映射任务并发数, 则将第 二映射任务并发数作为 对目标数据表进行 数据抽取时所需的目标映射任务并发数; 其中, 所述第一映射任务并发数 大于或等于所述第二映射任务并发数。 6.根据权利要求1所述的方法, 其特 征在于, 还 包括: 根据所述目标 数据表中的隐藏字段, 对所述目标 数据表进行切分。 7.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标映射任务并发数, 对所 述目标数据表进行 数据抽取, 包括: 若所述目标数据表存储于第一关系型数据库, 则根据所述目标映射任务并发数, 将所 述目标数据表从所述第一关系型 数据库中抽取到第一Hado op集群中;权 利 要 求 书 1/2 页 2 CN 115510140 A 2若所述目标数据表存储于第二Hadoop集群中, 则根据所述目标映射任务并发数, 将所 述目标数据表从所述第二Hado op集群中抽取到第二关系型 数据库中。 8.一种数据抽取装置, 其特 征在于, 包括: 并发数确定模块, 用于根据Sqoop进程并发数、 资源管理器Yarn集群的集群资源、 以及 目标数据 表的空间占用信息, 确定对目标数据表进行数据抽取时所需的目标映射任务并发 数; 数据抽取模块, 用于根据所述目标映射任务并发数, 对所述目标 数据表进行 数据抽取。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 数据抽取 方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的数据抽取 方法。权 利 要 求 书 2/2 页 3 CN 115510140 A 3

PDF文档 专利 一种数据抽取方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据抽取方法、装置、设备及存储介质 第 1 页 专利 一种数据抽取方法、装置、设备及存储介质 第 2 页 专利 一种数据抽取方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。