专利 一种大数据文件处理方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211194937.8 (22)申请日 2022.09.28 (71)申请人武汉众邦银行股份有限公司地址 432200 湖北省武汉市黄陂区盘龙城经济开发区汉口北大道88号汉口北国际商品交易中心D2区1-2层、 2 2-23层 (72)发明人李烨　朱俊　 (74)专利代理机构成都正煜知识产权代理事务所(普通合伙) 51312 专利代理师李龙 (51)Int.Cl. G06Q 40/02(2012.01) G06Q 10/10(2012.01) G06F 9/50(2006.01) G06F 9/48(2006.01) (54)发明名称一种大数据文件处理方法、装置及存储介质 (57)摘要本发明涉及数据处理技术领域，提供了一种大数据文件处理方法、装置及存储介质。目的在于解决批量较多的情况下，无统一的定时任务管理，对于报错的定时任务，不能很好的监控以及查找原因的问题。主要方案包括获取数据文件，创建批量文件job，每种类型文件对应Setp读取对应类型文件，并将读取的数据放入ReaderItem 对象中； ItemProcess将ReaderIrem数据进行处理，将处理结果放入ProcessItem对象中；获取 ProcessItem对象后，通过ItemWriter将转换后的数据写入数据库中、或者生成新的数据文件文件，写入成功后将批量文件job的批量作业的状态更新为“已完成”。权利要求书2页说明书8页 CN 115456767 A 2022.12.09 CN 115456767 A 1.一种大数据文件处理方法，其特征在于，包括以下步骤：步骤1、获取上游系统提供的数据文件，所述数据文件包括账单文件、还款计划文件、还款流水文件；步骤2、创建批量文件job，命名为FileProcess，在FileProcess中，将不同类型的文件处理命名为不同的Step，得到每种类型文件对应的Step；步骤3、每种类型文件对应Setp读取对应类型文件，具体的为：通过ItemReader方法，检查数据文件是否送到，将数据文件中错误格式的数据进行过滤，并将错误数据存入数据库中，可以读取的错误数据另行处理，检查无误后，读取步骤1中的数据文件中的单个数据文件；通过MultiResourceItemReader读取步骤1中的数据文件中的多个数据文件，配置多线程对数据文件进行读取，并将读取的数据放入ReaderItem对象中；步骤4、数据放入ReaderItem对象后，需要对读取到的数据进行转换，通过ItemProcess 将ReaderItem数据进行处理，然后放入ProcessItem对象中， ItemProcess将ReaderItem数据进行处理，将处理结果放入Proces sItem对象中；步骤5、获取ProcessItem对象后，通过ItemWriter将转换后的数据写入数据库中、或者生成新的数据文件文件，可根据不同的业务场景将数据写到多个不同的资源文件当中，写入成功后将批量文件job的批量作业的状态更新为 “已完成”，写入失败的批量文件job的批量作业的状态更新为“未完成”；步骤6：配置quartz的定时任务获取批量文件job的批量作业的状态，对状态为 “未完成”的批量文件job进行二次执行操作。 2.根据权利要求1所述的一种大数据文件处理方法，其特征在于，步骤4中通过 ItemProcess将ReaderItem数据进行处理包括，将账单流水数据合并，得到客户级账单，将还款流水合并，得到客户级还款汇总，将合并后的结果关联到客户名下，并根据客户的还款计划，计算客户五级分类，根据客户的五级分类、客户级的明细数据，对客户打标，将打标后的数据放入Proces sItem对象中。 3.根据权利要求1所述的一种大数据文件处理方法，其特征在于，步骤6包括以下步骤：步骤6.1、将需要执行的批量文件job，通过JobDetai l对象注册到Scheduler中；步骤6.2、通过jobDetail，获取到批量文件job的装填和参数，并将获取到的信息放入到JobDataMap中；步骤6.3、通过Scheduler创建Trigger，用来激发单位事件的批量文件job，在指定的时间，重复N次，激发时间的延迟为M；步骤6.4、通过Sc heduler建立批量文件job和Trig ger的对应关系；步骤6.5、启动Sc heduler.star t()，执行任务，获取job任务的执行状态。 4.根据权利要求1所述的一种大数据文件处理方法，其特征在于，步骤2中，不同类型的文件为jso n文件、 .xml、 .data、 .xls、 .csv、定长文件、分隔符文件。 5.一种大数据文件处理装置，其特征在于，包括以下模块：数据获取模块、获取上游系统提供的数据文件，所述数据文件包括账单文件、还款计划文件、还款流水文件；任务创建模块、创建批量文件job，命名为FileProcess，在FileProcess中，将不同类型权　利　要　求　书 1/2 页 2 CN 115456767 A 2的文件处理命名为不同的Step，得到每种类型文件对应的Step；文件读取模块、每种类型文件对应Setp读取对应类型文件，具体的为：通过ItemReader方法，检查数据文件是否送到，将数据文件中错误格式的数据进行过滤，并将错误数据存入数据库中，读取的错误数据另行处理，检查无误后，读取步骤1 中的数据文件中的单个数据文件；通过MultiResourceItemReader读取步骤1中的数据文件中的多个数据文件，配置多线程对数据文件进行读取，并将读取的数据放入ReaderItem对象中；数据处理模块、数据放入ReaderItem对象后，需要对读取到的数据进行转换，通过 ItemProcess将ReaderItem数据进行处理，然后放入ProcessItem对象中， ItemProcess将 ReaderItem数据进行处理，将处理结果放入Proces sItem对象中；数据写入模块、获取ProcessItem对象后，通过ItemWriter将转换后的数据写入数据库中、或者生成新的数据文件文件，可根据不同的业务场景将数据写到多个不同的资源文件当中，写入成功后将批量文件job的批量作业的状态更新为 “已完成”，写入失败的批量文件 job的批量作业的状态更新为“未完成”；二次批处理模块、配置 quartz的定时任务获取批量文件job的批量作业的状态，对状态为“未完成”的批量文件job进行二次执行操作。 6.根据权利要求6所述的一种大数据文件处理装置，其特征在于，数据处理模块中：将账单流水数据合并，得到客户级账单，将还款流水合并，得到客户级还款汇总，将合并后的结果关联到客户名下，并根据客户的还款计划，计算客户五级分类，根据客户的五级分类、客户级的明细数据，对客户打标，将打标后的数据放入Proces sItem对象中。 7.根据权利要求6所述的一种大数据文件处理装置，其特征在于，二次批处理模块包括以下步骤：步骤6.1、将需要执行的批量文件job，通过JobDetai l对象注册到Scheduler中；步骤6.2、通过jobDetail，获取到批量文件job的装填和参数，并将获取到的信息放入到JobDataMap中；步骤6.3、通过Scheduler创建Trigger，用来激发单位事件的批量文件job，在指定的时间，重复N次，激发时间的延迟为M；步骤6.4、通过Sc heduler建立批量文件job和Trig ger的对应关系；步骤6.5、启动Sc heduler.star t()，执行任务，获取job任务的执行状态。 8.根据权利要求6所述的一种大数据文件处理装置，其特征在于，任务创建模块中，不同类型的文件为jso n文件、 .xml、 .data、 .xls、 .csv、定长文件、分隔符文件。 9.一种存储介质，其特征在于，处理器执行存储介质中的程序时实现如权利要求1 ‑5任一所述的一种大数据文件处理方法。权　利　要　求　书 2/2 页 3 CN 115456767 A 3

专利 一种大数据文件处理方法、装置及存储介质

专利一种大数据文件处理方法、装置及存储介质