PySpark 安装教程使用 Jupyter 作编辑器

Spark 的安装并不依赖于安装 Hadoop。当在本地运行Spark的时候，Hadoop并不是必要条件，但依然在运行spark的时候会有一些错误，但你忽略即可，无伤大雅。只有在集群上运行Spark的时候，才需要 Hadoop

环境：Windows 10

安装分为以下步骤：

Java的安装（JDK）
Python的安装（Anaconda)
pyspark的安装
Jupyter的设置

JDK 的安装

在JDK官网（OpenJDK, oraclejdk都行）下载安装包，依次点击下一步即可。此处是用的OpenJDK，安装后将 C:Program FilesAdoptOpenJDKjdk-14.0.1.7-hotspotin 添加进系统的path。

path 的添加步骤是：计算机->右击->属性->系统属性->高级->环境变量->系统变量->找到path

成功的标准是在 powershell 中是否可以识别 java 命令：

java

python 的安装

此处使用 anaconda , 在官网下载最近安装包，注意过程中将 conda 的命令添加进入 path 方便使用。

anaconda 安装成功的标志是可以识别 python 命令， conda 命令。

python

conda

Spark 的安装

在 spark 官网下载安装包，名字大概是叫这个： spark-3.0.0-bin-hadoop3.2.tgz，用 7zip 解压，成为tar，再解压一次成为文件夹。我解压到了E:spark-3.0.0-bin-hadoop3.2，进入E:spark-3.0.0-bin-hadoop3.2in 将这个路径添加上path，和上方一样的步骤。

安装成功的标志是在powershell中输入 pyspark 可以识别命令。出现类型下面的图就行了，不用管上方的错误提示。

spark

pyspark 的安装

先更改conda的源到清华的镜像，否则慢到抓狂。见这个链接： https://www.cnblogs.com/heenhui2016/p/12375305.html

打开一个powershell, 输入 conda install pyspark, 确认输入y，等待下载与安装。

评价是否安装成功的标准是输出以下命令没有报错：

import pyspark

jupyter 的设置

添加PYSPARK_DRIVER_PYTHON=jupyter到系统变量
添加PYSPARK_DRIVER_PYTHON_OPTS=lab到系统变量

jupyetr_var

注意，我是用 jupyter lab 做编辑器，而不是 jupyter notebook，若是以 notebook 作编辑器，将 PYSPARK_DRIVER_PYTHON_OPTS=notebook 添加到系统变量即可。

成功的标志是运行以下代码没有出毛病：

from pyspark import SparkContext
sc = SparkContext("local", "Hello World App")

查看版本和相关信息

sparkversion