Spark各个版本新特性

后续会添加spark生态系统中各个组件的兼容支持情况。。。

Spark2.0.0

* 2016-07-27正式发布
	* 它是2.x版本线的上的第一个版本。
	* 300位contributors的超过2500个patches
* Programming APIs
	* DataFrame和Dataset统一(scala和Java中)
	* SparkSession将要替换旧的SQLContext和HiveContext,保留后者
* Spark SQL
	* 支持SQL2003,Spark SQL现在可以运行所有的99 TPC-DS查询
* Removals
	* 支持Hadoop 2.1及其之前版本
* Behavior Changes
	* 编译时默认使用Scala 2.11而不是2.10

Spark1.6新特性

* 新增Dataset API

Spark1.5新特性

* 引入Project Tungsten(钨丝项目)
	* 该项目通过对几个底层框架构建的优化进一步Spark性能
* 可用性和互操作性
	* 增加了在UI界面中查看SQL和DataFrame查询计划,能够根据不同的操作和运行时的内存使用显示不同的查询计划
* Hive支持
	* 支持可以连接Hive 0.13, 0.14, 1.0/0.14.1, 1.1, 1.2的metastore。

Spark1.4新特性

* 正式引入SparkR
	它是一个R API, SparkR是基于Spark的DataFrame抽象。
* Spark Core
	Spark为应用提供了REST API来获取各种信息(jobs / stages / tasks / storage info)
* Spark Streaming
	Streaming在这个版本中增加了新的UI

Spark1.3新特性

* 新增DataFrame API
* Spark SQL正式脱离alpha版本

Spark1.0新特性

* 引入Spark SQL组件(alpha项目)
* 应用提交工具spark-submit
原文地址:https://www.cnblogs.com/fuyiming/p/6270406.html