1 在本机上创建单机版pyspark

1 安装java

pyspark需要java支持, 首先必须安装java,  至少安装java8,或者更高版本, 推荐java8

安装教程:https://www.runoob.com/java/java-environment-setup.html

记得配置环境变量:java_home

安装成功如下:

 2 下载spark并解压放在一个新的文件夹下

spark官网:https://archive.apache.org/dist/spark/

一定要下载比较老的版本,作者下载的是spark-2.3.1,参考的是国外一个印度小哥的视频,所以下载的和他一样。

j记得配置环境变量:spark_home

解压出来如下图:

3 winutils安装

windows环境下还需要装个东西来替换掉spark里的bin文件才行
https://github.com/steveloughran/winutils
替换完成后

 4 第一次检验

cmd pyspark, 如果找不到就说明spark_home环境变量没有配置好。打开如下这种是说python的环境没有激活, 

好, 那你现在用anaconda prompt打开, 再试试

这次并没有说未激活, 但是还是报错。按说明用的python的版本过高,spark不支持你目前的python, 比如我这里是python 3.8.8, 版本太高。

想法是降低python版本。

5 创建低python版本的虚拟环境

1 打开anaconda rprompt 

2 先更换镜像源, 让后面创建的时候快起来。

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda config --set show_channel_urls yes

用户目录下创建 .condarc 文件,然后把这个文件的 -default删除(针对windows),不然后面又要报错

3 创建虚拟环境
conda create --name pyspark_env python=3.6.9 

创建虚拟环境的名字是pyspark_env, python 版本3.6.9, 也是外国的小哥一样。

这里会让选择, 记得敲y. 回车。

4 为这个虚拟环境装其他包

pip install numpy
pip install pandas
pip install matplotlib
pip install seaborn
pip install numpy
pip install warings
pip install scipy
pip install scikit-learn
pip install requests
pip install notebook
pip install jupyterlab
pip install pyarrow
pip install Py4J -i https://pypi.douban.com/simple
pip install pyspark -i https://pypi.douban.com/simple

都可以加上镜像源, 或者用已经换源的conda都行,作者习惯pip。

6 进入虚拟环境再进入pyspark

成功。搞一天了,已经凌晨,赶紧记下来,。

补充:py4j版本有点高, 更换成下面这个版本。

 成功

原文地址:https://www.cnblogs.com/LUOyaXIONG/p/15056826.html