kettle的job中运行每行

job中运行每行

有时，我们须要job或转换执行多次。且每次传入的參数都不同。假如你正在做数据迁移的工作，须要导入每天的旧数据，则须要一个job依据指定的日期导入数据，该日期被指定作为參数。假设我们须要导入从一个起始日期到昨天全部的旧数据，手工执行job是痛苦的也是错误的做法，kettle是能够首先计算正确的日期然后依据每一个日期执行导入job。
在主job中，首先运行返回日期转换（每一个日期作为一行），实际导入数据的job放在转换的后面运行。而且依据转换的结果运行每一行，job能够被设置从一个结果字段中获取參数。

生成日期
这个转换负责生成仅仅有一个日期字段的数据行，“set start date ”步骤生成10000行数据流（依据实际情况估算行数，測试时能够设置小点）。包含一个日期类型常量字段。“calc days”步骤插入一个序列到数据流中，为了在“calc date”步骤能够计算连续的日期；其后的步骤去除掉其它的辅助字段。然后添加昨天的日期到数据流中。接着是一个比較功能的步骤，推断每行的中日期是否早于今天。假设进入“discard”步骤，否则进入“copy rows to result”步骤。

主job
主job中运行生成日期转换之后。是子job，负责运行每一个输入日期。该job必须要明白设置去运行每一个输入行，即设置“execute for every input row”复选框选中。同一时候须要传入一个计算日期。通过“date”參数，所以“copy previous results to parameters？”也须要选中。

最后參数必须从输入行中映射，參数名和输入字段都命名为“date”。

子job
子job接收每行的“date”日期參数并执行，演示样例中简单使用date參数记录日志然后完毕。

下载
这里下载本演示样例，主job执行子job，针对从2010-01-01到昨天的全部行。须要指出的是，本演示样例的技术并不适合全部的场合。特别“循环直到条件为真”（不确定次数）。这时可能用到这篇文章的方法去实现循环。