大数据之 Spark

1 渊源

　　于2009由Matei Zaharia创立了spark大数据处理和计算框架，基于内存，用scala编写。

2 部署

2.1 需要软件包下载路径见已有博文

　　Jdk ——因为运行环境为jvm

　　Python2.7

　　Scala2.10.4

　　Spark1.0.1

　　Hadoop stable version 如果搭建yarn的spark，需要部署yarn版本的hadoop

2.2 配置依赖

   <groupId>org.apache.spark</groupId>
   <artifactId>spark-core_2.10</artifactId>
   <version>1.0.1</version>

   <groupId>org.apache.hadoop</groupId>
   <artifactId>hadoop-client</artifactId>

2.3 在windows下的spark环境搭建

　　准备以上包

　　其中spark hadoop包为已经编译好的包，下载直接使用即可，但是需要配置到path中

3 核心概念

RDD 只读可分区的分布式数据集

4 变量配置

SPARK_HOME

PATH新增spark配置，PATH=$SPARK_HOME/bin:$PATH

spark/spark/conf/spark-env.sh

HADOOP_HOME HADOOP_CONF SPARK_CLASSPATH

log4j.properties设置控制台日志级别，设置第三方日志级别，设置sparksql相关配置

5 启动集群

spark/spark/sbin/start-all.sh

6 扩展

华为FusionInsight大数据平台

YARN 即Hadoop 2 ，他是一个与hadoop关联的集群计算和资源调度框架。

HBase

Kerberos认证

Sparksql 提供了类sql查询，返回spark-dataframe的数据结构