spark安装

 不跟hadoop在一个机器

1、vim /etc/profile 

export JAVA_HOME=/usr/local/jdk1.8.0_171
export JRE_HOME=$JAVA_HOME/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

export SPARK_HOME=/data1/spark-2.3.1
export PATH=$PATH:$SPARK_HOME/bin
export SCALA_HOME=/usr/local/scala-2.12.6
export PATH=$PATH:$SCALA_HOME/bin

2、修改spark-env.sh

cp spark-env.sh.template spark-env.sh
vi spark-env.sh

> export SPARK_SSH_OPTS="-p 21860"
> export JAVA_HOME=/usr/local/jdk1.8.0_171
> export SCALA_HOME=/usr/local/scala-2.12.6
> export HADOOP_HOME=/data1/hadoop
> export HADOOP_CONF_DIR=/data1/hadoop/etc/hadoop
> export SPARK_MASTER_IP=spark1
> export SPARK_WORKER_MEMORY=80g
> export SPARK_WORKER_CORES=2
> export SPARK_WORKER_INSTANCES=1

3、生成slves

spark1
spark2
spark3

4、把/data1/spark-2.3.1和/data1/hadoop同步到另外几个机器

 5、启动并查看集群状态

start-all.sh
http://spark1:8080/

查看某个机器:
http://spark2:8081/
 

 6、测试脚本spark-shell。访问远程hadoop数据

val file=sc.textFile("hdfs://namenode1:9000/hive/warehouse/test.db/test_log/test1.txt.gz")
val rdd = file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
rdd.collect()
rdd.foreach(println)

:quit

===================

下载java

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

卸载centos自己带的jdk

第一步:查看Linux自带的JDK是否已安装 (卸载centOS已安装的1.4)
安装好的CentOS会自带OpenJdk,用命令 java -version ,会有下面的信息:
java version "1.6.0"
OpenJDK Runtime Environment (build 1.6.0-b09)
OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode)
最好还是先卸载掉openjdk,在安装sun公司的jdk.
先查看 rpm -qa | grep java
显示如下信息:
java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
卸载:
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
还有一些其他的命令
rpm -qa | grep gcj
rpm -qa | grep jdk
如果出现找不到openjdk source的话,那么还可以这样卸载
yum -y remove java java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
<1># rpm -qa|grep jdk ← 查看jdk的信息或直接执行 
或 
# rpm -q jdk 
或 
# java -version 
<2># rpm -qa | grep gcj ← 确认gcj的版本号 
<3># yum -y remove java-1.4.2-gcj-compat ← 卸载gcj 

第二步:安装JDK 
<1>从SUN下载jdk-1_5_0_14-linux-i586-rpm.bin或jdk-1_5_0_14-linux-i586.bin 
在/usr下新建java文件夹,将安装包放在/usr/java目录下 
# mkdir /usr/java 
<2>安装JDK 
# cd /usr/java 
①jdk-1_5_0_14-linux-i586-rpm.bin文件安装 
# chmod 777 jdk-1_5_0_14-linux-i586-rpm.bin ← 修改为可执行 
# ./jdk-1_5_0_14-linux-i586-rpm.bin ← 选择yes同意上面的协议 
# rpm -ivh jdk-1_5_0_14-linux-i586.rpm ← 选择yes直到安装完毕 
②jdk-1_5_0_14-linux-i586.bin文件安装 
# chmod a+x jdk-1_5_0_14-linux-i586.bin ← 使当前用户拥有执行权限 
# ./jdk-1_5_0_14-linux-i586.bin ← 选择yes直到安装完毕 

rm -rf /usr/share/java/*

cp -rf jdk***/* /usr/share/java

原文地址:https://www.cnblogs.com/linn/p/4521739.html