Spark 基本概念 & 安装


1. Spark 基本概念

  1.0 官网 

  传送门

  1.1 简介

  Spark 是用于大规模数据处理的快如闪电的统一分析引擎。

  1.2 速度

  Spark 可以获得更高的性能,针对 batch 计算和流计算都可以。

  用到了 DAG scheduler (有向无环图调度器)、查询优化器、物理执行引擎

  同 Hadoop 进行逻辑回归测试,Spark 速度超过 Hadoop 100x 倍。

  

  1.3 易用性

  Spark 提供了 80+ 个高级算子,可以轻松构建并行 app

  支持多种语言,Java、Scala、Python、R 和 SQL shell
  

  1.4 通用性

  Spark 有5大模块,Core 、SQL 、Streaming 、MLlib 、GraphX
  可以对 SQL 和 Streaming 以及复杂分析进行组合应用。

  

  1.5 执行场景
  spark可以运行在 Hadoop 、Mesos 、standalone 、云上。
  可以访问多种数据源。

  



2. 安装 Spark

  2.1 解压

tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz -C /soft/

  2.2 创建符号链接

ln -s /soft/spark-2.1.0-bin-hadoop2.7 /soft/spark

  2.3 配置环境变量

# 编辑环境变量配置文件
sudo vi /etc/profile

# spark 环境变量 export SPARK_HOME
=/soft/spark export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

  2.4 生效环境变量

source /etc/profile

  2.5 启动 spark shell

  【启动前提】

# 启动 ZooKeeper 集群
xzk.sh start

# 启动 HDFS
start-dfs.sh

# 启动 Spark 服务,在 spark/sbin 目录下执行
 ./start-all.sh

  【启动】

[centos@s101 /soft/spark/bin]$ spark-shell 

   


且将新火试新茶,诗酒趁年华。
原文地址:https://www.cnblogs.com/share23/p/9755209.html