2021年2022年寒假学习进度02

今天基于外包杯项目需要，学习了MATLAB相关的技术，对于图片数字识别的技术，具体不多说了。

今天主要进行spar运行k环境搭建，scala语言的相关使用后续继续学习

首先需要下载spark的包，这里我是根据尚硅谷的视频进行环境配置，所以直接使用尚硅谷给的资料中spark3的包，版本：spark-3.0.0-bin-hadoop3.2

需要注意的hadoop和spark有版本对应，所以下载spark的包时需要注意hadoop的版本，根据hadoop的版本进行选择。我的hadoop版本是3.1.3，使用spark3.0是没问题的。

具体下包去spark官网下载，官方地址为：https://spark.apache.org/downloads.html

之后打开虚拟机，上传之前下载的spark的包，进行环境搭建。

解压缩包：

解压成功没问题的话，是可以进入spark的目录下，使用bin/spark-shell进入命令界面的，这里的spark-local是对包进行了改名，使用mv改名即可。

执行一个简单wordcount用例，里面的word.txt需要自己到data下创建一个

运行成功，证明你当前本地环境是没有问题的

搭建

Spark 自身节点运行的集群模式，也就是我们所谓的

独立部署（Standalone）模式。Spark 的 Standalone 模式体现了经典的 master-slave 模式。

集群规划:

首先解压缩文件，和本地模式区分开，在同样的目录下再次解压spark的包，命名为spark-standalone

之后进入conf目录下修改，

进入解压缩后路径的 conf 目录，修改 slaves.template 文件名为 slaves

修改 slaves 文件，添加 work 节点，根据自己的虚拟机命名

修改 spark-env.sh.template 文件名为 spark-env.sh

修改 spark-env.sh 文件，添加 JAVA_HOME 环境变量和集群对应的 master 节点

之后分发到其他虚拟机，这里的xsync命令可以去尚硅谷的大海老师讲的hadoop视频去了解，这是自己写的一个脚本

测试集群是否成功：

运行成功即配置成功

之后就不多说了。今天配置了spark的两个模式，之后还有yarn模式和其他的模式，就不细说了，可以到尚硅谷根据视频学习，今天仅仅是记录配置记录，之后的yarn等模式，就不讲了。明天开始学习scala语言的使用，并开始学spark-core。

本文版权归作者和博客园共有，欢迎转载，但必须给出原文链接，并保留此段声明，否则保留追究法律责任的权利。