数据同步


目前主流的工具有Sqoop、DataX、Oracle GoldenGate for Big Data等几种。
Sqoop使用sql语句获取关系型数据库中的数据后,通过hadoop的MapReduce把数据从关系型数据库中导入数据到HDFS,其通过指定递增列或者根据时间戳达到增量导入的目的,从原理上来说是一种离线批量导入技术;
用OOZIE 调度,然后 sqoop 将数据从 线上  抽取到 hdfs.

工作流引擎服务器 Hadoop Oozie 介绍

跟实例学Oozie




DataX 直接在运行DataX的机器上进行数据的抽取及加载,其主要原理为:通过Reader插件读取源数据,Writer插件写入数据到目标 ,使用Job来控制同步作业,也是一种离线批量导入技术;

阿里出品的ETL工具dataX初体验

DataX 产品说明





Oracle Goldengate for Big Data抽取在线日志中的数据变化,转换为GGS自定义的数据格式存放在本地队列或远端队列中,并利用TCP/IP传输数据变化,集成数据压缩,提供理论可达到9:1压缩比的数据压缩特性,它简化了向常用大数据解决方案的实时数据交付,可以在不影响源系统性能的情况下将交易数据实时传入大数据系统。


原文地址:https://www.cnblogs.com/gym333/p/6565149.html