hadoop3.2.1,hive3.1.0,spark3.0.0 学习单机环境镜像 pyspark scala

镜像下载，导入虚拟机注意事项

使用虚拟机软件导入，

账号

root root       

hadoop hadoop

登录进入centos7,输入

ip addr

查看ip地址，然后修改/etc/hosts文件中的my-hadoop-host的ip映射，重启网卡火虚拟机即可使用。

虚拟机的所有软件安装到hadoop用户下/home/hadoop

已经装了

Miniconda,pyspark,jupyter

使用hadoop用户登录

1.启动hadoop hive spark

cd bigdata

sh start.sh

2.启动jupyter, token是123456

pyspark
或者
jupyter notebook

运行该文件，即可看到下面内容

也可以使用vs code 或者pycharm

也可以使用pycharm 使用ssh python的解释器来运行多个.py文件， debug等。spark-submit可能不能用，要把用户的环境变量中删除jupyter相关的配置。