http://www.cs.berkeley.edu/~rxin/ &&& spark生态系统简析

http://www.cs.berkeley.edu/~rxin/

tar zxvf

生态系统简析

Spark Streaming：Spark Streaming实质上仍然是批处理，但是把之前大的批处理拆为小的batch。同时，当下Spark Streaming已支持限流，当流量很大时，Spark可以挡住。此外，它还可以支持实时机器学习。在Spark Streaming中，数据丢失一般因为两种情况——worker failure和driver failure。在之前版本中，可能会存在小部分的数据丢失，而在1.2版本发布后，reliable receiver模式保证了所有数据不会丢失，这点在Kafka的连接上非常适用。

MLlib：当下的算法已经非常丰富，包括分类、聚类、回归、协同过滤、降维等等。ML Pipeline可以大幅度的减少开发时间，它可以帮开发者打通数据收集、数据清理、特征提取，模型训练，测试、评估、上线整个流程。

Graphx：在这里，Spark的优势是既能处理表视图，也能处理图视图。

Spark SQL：Spark生态圈中最火的组件，目的很简单，用来支持SQL标准。对比Spark SQL，因为基于MapReduce的进程模型，Hive中存在许多一直未修复的多线程bug。值得一提的是，Spark SQL的贡献者中，一半以上是华人。

Tachyon可以支撑几乎所有框架

Tachyon：内存分布式系统，让不同的Job或者框架分享数据，从而绕过HDFS，以更快地速度执行。同时，它还可以避免任务失败时的数据重算。最后，Tachyon可以让系统避免多次GC。

SparkR：让R语言调用Spark。原理是Spark Context通过JNI调用Java Spark Context，随后通过Worker上的Excutor调用R的shell来执行。现在存在的问题是，每次task执行时都需要启动R shell，所以还亟待优化。

BlinkDB，一个任性的数据库

BlinkDB：很任性的一个数据库，允许操作者带着time bounds或者error bounds去查。原理是在原始数据上维护一组多维样本，当然其中还需要一个动态的样本选择策略。

JobServer：提供了一个RESTful接口来提交和管理Apache Spark job、jars及job contexts，即Spark as a Service。

来源： <http://www.csdn.net/article/2015-02-02/2823796-spark-codis-crazyjvm-goroutine>

来自为知笔记(Wiz)