datax 离线数据同步工具

datax(https://github.com/alibaba/DataX)是一个离线的数据同步工具,提供了异构数据源之间的同步。

datax整体项目结构清晰,core提供了核心功能,剩下的都是各种数据源的reader和write。

核心功能就是根据配置信息,抽取源数据,导入到目标数据,中间还有各种的流量控制。 

datax作为一个离线数据同步平台,使用还是比较广泛的,其中大数据就是一个比较典型的场景,大数据ETL平台需要从各个数据源抽取数据,除了sqoop, datax也是一个不错的选择。 

datax是一个离线批量的数据同步工具,与之对应的还有canal这种通过解析binlog的实时数据同步工具

我的注解版:

https://github.com/zhaoyb/DataX

原文地址:https://www.cnblogs.com/beyondbit/p/13941915.html