初识alluxio

Alluxio
Tachyon 前身的名字超光速粒子
以内存为中心的分布式文件系统
HDFS、S3....
介于计算层和存储层之间
计算层：Spark、Flink、MapReduce
存储层在内存中的一个Cache系统
Spark/Alluxio：AMPLab
2012/12 0.1.0
将计算和存储分离移动计算优于移动数据

能够为我们带来什么？？？

Flink能否替代Spark成为第三代/新一代执行引擎？
Hadoop真的凉了吗？那我还有必须学习Hadoop吗？
Flume吞吐量多少？Spark Application放多少资源？
如何保证数据不丢失

自动动手测试一下

时效性的要求是越来越高的

基于内存  Memory is King   Spark Flink

两面性

1） 2 Spark Application 需要共享数据，必须通过写XX操作
2）基于JVM对数据进行缓存
Spark Application = 1 Driver + N executor
3）2 Spark Application操作相同的数据
HDFS ==> WC ==> SINK
HDFS ==> XXX ==> SINK

Alluxio不是Apache的顶级项目
https://www.alluxio.io/
https://github.com/Alluxio/alluxio

特点：
1）原生的API和文件系统的非常类似
2）兼容性 Hadoop Spark Flink
3）列式
4）底层文件系统是可插拔的
5）Web UI
6）Command line interaction
hadoop/hdfs fs -ls ...
alluxio fs ....

Spark 两个不同角度的应用进行实战
Spark 离线
Spark 实时

Alluxio部署
1）下载
2）解压到app
3）配置到系统环境变量
4）conf/
alluxio-site.properties
masters
workers
5）格式化
6）启动
7）hadoop000:19999 可以看到Alluxio的Web UI

Alluxio常用的命令行参数
alluxio fs
ls lsr mkdir cat
copyFromLocal copyToLocal mv
pin
count location

Alluxio和HDFS整合

Alluxio和MapReduce整合

hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar wordcount -libjars /home/hadoop/app/alluxio-1.8.1/client/alluxio-1.8.1-client.jar alluxio://hadoop000:19998/alluxio/wc/input/hello.txt alluxio://hadoop000:19998/alluxio/wc/output

Alluxio和Spark整合

做了这几个与Alluxio的整合，业务逻辑根本没有发生变化，只是:

环境上变化
hdfs ==> alluxio