095实战 ETL的数据来源，处理，保存

095实战 ETL的数据来源，处理，保存

1.ETL

　　数据来源：HDFS

　　处理方式：Mapreduce

　　数据保存：HBase

　　

2.为什么保存在Hbase中

　　数据字段格式不唯一/不相同/不固定，采用hbase的动态列的功能非常适合
　　因为我们的分析一般情况下，是对于部分事件数据进行分析的，不需要所有的数据，希望将数据的初步过滤放到服务器上进行操作，所以采用hbase的regionserver来过滤初步的条件(scan的filter机制)
　　

　　

3.HBase注意点

　　

4.数据处理　　

　　MapReduce
　　　　数据流: hbase -> mapreduce -> mysql
　　Hive
　　　　数据流：hbase -> hive -> hdfs -> sqoop -> mysql

5.来源HDFS

　　这些数据是在flume中收集来的数据，这些数据在前面已经被上传到HDFS。

　　

　　

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/juncaoit/p/6212445.html