easy-batch job readers

easy-batch 提供了一些已经实现好的reader,对于从数据源读取records ,我们只需要注册实现好的RecordReader 接口
(当然可以自己实现)

readers

  • 代码参考
 
Job job = new JobBuilder()
    .reader(new MyRecordReader(myDataSource))
    .build();
  • 支持的源
flat files  
xml, json && yaml 
MS Excel 
in-memory 字符串
databases
JMS queues 
BlockingQueue and Iterable objects
Java 8 streams
标准输入
  • 参加源于模块

来自官方的表格

数据读取失败处理

easy-batch提供了一些策略,我们可以方便的处理数据源读取的异常

  • 参考代码
 
Job job = new JobBuilder()
    .reader(new RetryableRecordReader(unreliableDataSourceReader, new RetryPolicy(5, 1, SECONDS)))
    .build();

性能说明

  • JdbcRecordReader 对于数据的处理是按块的,对于大量数据的处理,可以设置MaxRows 以及fetchSize 参数,避免大量数据加载内存
  • JpaRecordReader 对于数据的加载通过JPQL 查询到java.util.List 对象,所以对于大数据集的需要有耐心,同时可以通过maxResults 指定
    最大数据加载的rows
  • HibernateRecordReader 使用org.hibernate.ScrollableResults 处理数据,可以通过fetchSize以及 maxResult 指定获取的数据大小以及最大
    行数

多文件数据加载

我们可以通过MultiFileRecordReader 加载多文件数据,但是数据格式必须是一样的,当然也提供了json,yaml,xml,flatfile 的多文件
加载模式

JdbcRecordReader 警告

JdbcRecordReader生产类型的记录JdbcRecord。JdbcRecord有一个java.sql.ResultSetas负载。在有一个主
作业从关系数据库中读取数据并将其分派给worker的情况下,当worker仍在处理这些记录时,该主工作可能已经完成了
读取数据源并将所有记录分派给worker队列的工作。因此,主作业将关闭数据库连接,并且分派的JDBC记录不再可用,
因为它们的有效负载取决于已由主作业关闭的连接!
解决此问题的方法是使主作业将JDBC记录映射到域对象,然后将这些对象安全地分派给worker,可以通过fork / join模式解决

参考资料

https://github.com/j-easy/easy-batch/wiki/readers

原文地址:https://www.cnblogs.com/rongfengliang/p/12730100.html