(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211194937.8
(22)申请日 2022.09.28
(71)申请人 武汉众邦银行股份有限公司
地址 432200 湖北省武汉市黄陂区盘龙城
经济开发区汉口北大道88号汉口北国
际商品交易中心D2区1-2层、 2 2-23层
(72)发明人 李烨 朱俊
(74)专利代理 机构 成都正煜知识产权代理事务
所(普通合伙) 51312
专利代理师 李龙
(51)Int.Cl.
G06Q 40/02(2012.01)
G06Q 10/10(2012.01)
G06F 9/50(2006.01)
G06F 9/48(2006.01)
(54)发明名称
一种大数据文件处理方法、 装置及存 储介质
(57)摘要
本发明涉及数据处理技术领域, 提供了一种
大数据文件处理方法、 装置及存储介质。 目的在
于解决批量较多的情况下, 无统一的定时任务管
理, 对于报错的定时任务, 不能很好的监控以及
查找原因的问题。 主要方案包括获取数据文件,
创建批量文件job, 每种类型文件对应Setp读取
对应类型文件, 并将读取的数据放入ReaderItem
对象中; ItemProcess将ReaderIrem数据进行处
理, 将处理结果放入ProcessItem对象中; 获取
ProcessItem对 象后, 通过ItemWriter将转换后
的数据写入 数据库中、 或者生 成新的数据文件文
件, 写入成功后将批量文件job的批量作业的状
态更新为“已完成”。
权利要求书2页 说明书8页
CN 115456767 A
2022.12.09
CN 115456767 A
1.一种大 数据文件处 理方法, 其特 征在于, 包括以下步骤:
步骤1、 获取上游系统提供的数据文件, 所述数据文件包括账单文件、 还款计划文件、 还
款流水文件;
步骤2、 创建批量文件job, 命名为FileProcess, 在FileProcess中, 将不同类型 的文件
处理命名为 不同的Step, 得到每种类型文件 对应的Step;
步骤3、 每种类型文件 对应Setp读取对应 类型文件, 具体的为:
通过ItemReader方法, 检查数据文件是否送到, 将数据文件中错误格式的数据进行过
滤, 并将错误数据存入数据库中, 可以读取的错误数据另行 处理, 检查无误后, 读取步骤1中
的数据文件中的单个数据文件;
通过MultiResourceItemReader读 取步骤1中的数据文件中 的多个数据文件, 配置多线
程对数据文件进行读取, 并将 读取的数据放入ReaderItem对象中;
步骤4、 数据放入ReaderItem对象后, 需要对读 取到的数据进行转换, 通过ItemProcess
将ReaderItem数据进行处理, 然后放入ProcessItem对象中, ItemProcess将ReaderItem数
据进行处 理, 将处理结果放入Proces sItem对象中;
步骤5、 获取ProcessItem对象后, 通过ItemWriter将转换后的数据写入数据库中、 或者
生成新的数据文件文件, 可根据不同的业务场景将数据写到多个不同的资源文件当中, 写
入成功后将 批量文件job的批量作业的状态更新为 “已完成”, 写入失败的批量文件job的批
量作业的状态更新 为“未完成”;
步骤6: 配置quartz的定时任务获取批量文件job的批量作业的状态, 对状态为 “未完
成”的批量文件job进行二次执 行操作。
2.根据权利要求1所述的一种大数据文件处理方法, 其特征在于, 步骤4中通过
ItemProcess将ReaderItem数据进行处理包括, 将账单流水数据合并, 得到客户级账单, 将
还款流水合并, 得到客户级还款汇总, 将合并后的结果关联到客户名下, 并根据客户的还款
计划, 计算客户五级分类, 根据客户的五级分类、 客户级的明细数据, 对客户打标, 将打标后
的数据放入Proces sItem对象中。
3.根据权利要求1所述的一种大 数据文件处 理方法, 其特 征在于, 步骤6包括以下步骤:
步骤6.1、 将需要执 行的批量文件job, 通过JobDetai l对象注册到Scheduler中;
步骤6.2、 通过jobDetail, 获取到批量文件job的装填和参数, 并将获取到的信息放入
到JobDataMap中;
步骤6.3、 通过Scheduler创建Trigger, 用来激发单位事件的批量文件job, 在指定的时
间, 重复N次, 激发时间的延迟为M;
步骤6.4、 通过Sc heduler建立批量文件job和Trig ger的对应关系;
步骤6.5、 启动Sc heduler.star t(), 执行任务, 获取job任务的执 行状态。
4.根据权利要求1所述的一种大数据文件处理方法, 其特征在于, 步骤2中, 不同类型的
文件为jso n文件、 .xml、 .data、 .xls、 .csv、 定 长文件、 分隔符文件。
5.一种大 数据文件处 理装置, 其特 征在于, 包括以下模块:
数据获取模块、 获取上游系统提供的数据文件, 所述数据文件包括账单文件、 还款计划
文件、 还款 流水文件;
任务创建模块、 创建批量文件job, 命名为FileProcess, 在FileProcess中, 将不同类型权 利 要 求 书 1/2 页
2
CN 115456767 A
2的文件处 理命名为 不同的Step, 得到每种类型文件 对应的Step;
文件读取模块、 每种类型文件 对应Setp读取对应 类型文件, 具体的为:
通过ItemReader方法, 检查数据文件是否送到, 将数据文件中错误格式的数据进行过
滤, 并将错误数据存入数据库中, 读取的错误数据另行 处理, 检查无误后, 读取步骤1 中的数
据文件中的单个数据文件;
通过MultiResourceItemReader读 取步骤1中的数据文件中 的多个数据文件, 配置多线
程对数据文件进行读取, 并将 读取的数据放入ReaderItem对象中;
数据处理模块、 数据放入ReaderItem对象后, 需要对读取到的数据进行转换, 通过
ItemProcess将ReaderItem数据进行处理, 然后放入ProcessItem对象中, ItemProcess将
ReaderItem数据进行处 理, 将处理结果放入Proces sItem对象中;
数据写入模块、 获取ProcessItem对象后, 通过ItemWriter将转换后的数据写入数据库
中、 或者生成新的数据文件文件, 可根据不同的业务场景将数据写到多个不同的资源文件
当中, 写入成功后将批量文件job的批量作业的状态更新为 “已完成”, 写入失败的批量文件
job的批量作业的状态更新 为“未完成”;
二次批处理模块、 配置 quartz的定时任务获取批量文件job的批量作 业的状态, 对状态
为“未完成”的批量文件job进行二次执 行操作。
6.根据权利要求6所述的一种大 数据文件处 理装置, 其特 征在于, 数据处 理模块中:
将账单流水数据合并, 得到客户级账单, 将还款流水合并, 得到客户级还款汇总, 将合
并后的结果关联到客户名下, 并根据客户的还款计划, 计算客户五级分类, 根据客户的五级
分类、 客户级的明细数据, 对客户打标, 将打标后的数据放入Proces sItem对象中。
7.根据权利要求6所述的一种大数据文件处理装置, 其特征在于, 二 次批处理模块包括
以下步骤:
步骤6.1、 将需要执 行的批量文件job, 通过JobDetai l对象注册到Scheduler中;
步骤6.2、 通过jobDetail, 获取到批量文件job的装填和参数, 并将获取到的信息放入
到JobDataMap中;
步骤6.3、 通过Scheduler创建Trigger, 用来激发单位事件的批量文件job, 在指定的时
间, 重复N次, 激发时间的延迟为M;
步骤6.4、 通过Sc heduler建立批量文件job和Trig ger的对应关系;
步骤6.5、 启动Sc heduler.star t(), 执行任务, 获取job任务的执 行状态。
8.根据权利要求6所述的一种大数据文件处理装置, 其特征在于, 任务创建模块中, 不
同类型的文件为jso n文件、 .xml、 .data、 .xls、 .csv、 定 长文件、 分隔符文件。
9.一种存储介质, 其特征在于, 处理器执行存储介质中的程序时实现如权利要求1 ‑5任
一所述的一种大 数据文件处 理方法。权 利 要 求 书 2/2 页
3
CN 115456767 A
3
专利 一种大数据文件处理方法、装置及存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:13上传分享