Spark基础学习

1.初识Spark

Spark是一个基于内存的开源计算框架,于2009年诞生于加州大学伯克利分校AMPLab(AMP:Algorithms,Machines,People),它最初属于伯克利大学的研究性项目,后来在2010年正式开源,并于 2013 年成为了
Apache 基金项目,到2014年便成为 Apache 基金的顶级项目,该项目整个发展历程刚过六年时间,但其发展速度非常惊人。正由于Spark来自于大学,其整个发展过程都充满了学术研究的标记,是学术带动Spark
核心架构的发展,如弹性分布式数据集(RDD,resilient distributed datasets)、流处理(Spark streaming)、机器学习(MLlib)、SQL分析(Spark SQL)和图计算(GraphX),本节将主要介绍Spark发展历程和特点。 

原文地址:https://www.cnblogs.com/xiatian21/p/13905189.html