Spark 基本概念 & 安装

1. Spark 基本概念

　　1.0 官网

　　传送门

　　1.1 简介

　　Spark 是用于大规模数据处理的快如闪电的统一分析引擎。

　　1.2 速度

　　Spark 可以获得更高的性能，针对 batch 计算和流计算都可以。

　　用到了 DAG scheduler (有向无环图调度器)、查询优化器、物理执行引擎

　　同 Hadoop 进行逻辑回归测试，Spark 速度超过 Hadoop 100x 倍。

　　1.3 易用性

　　Spark 提供了 80+ 个高级算子，可以轻松构建并行 app

　　支持多种语言，Java、Scala、Python、R 和 SQL shell
　　

　　1.4 通用性

　　Spark 有5大模块，Core 、SQL 、Streaming 、MLlib 、GraphX
　　可以对 SQL 和 Streaming 以及复杂分析进行组合应用。

　　1.5 执行场景
　　spark可以运行在 Hadoop 、Mesos 、standalone 、云上。
　　可以访问多种数据源。

　　2.1 解压

tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft/

　　2.2 创建符号链接

ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark

　　2.3 配置环境变量

# 编辑环境变量配置文件
sudo vi /etc/profile

# spark 环境变量 
export SPARK_HOME=/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

　　2.4 生效环境变量

source /etc/profile

　　2.5 启动 spark shell

　　【启动前提】

# 启动 ZooKeeper 集群
xzk.sh start

# 启动 HDFS
start-dfs.sh

# 启动 Spark 服务，在 spark/sbin 目录下执行
 ./start-all.sh

　　【启动】

[centos@s101 /soft/spark/bin]$ spark-shell

且将新火试新茶，诗酒趁年华。