Spark 入门学习

用到的软件:Hadoop-2.4.0、scala-2.10.4、spark-1.1.0

jdk我用的1.6,支持哪些jdk可以从发放文档中查找

一、预备工作

修改主机名字(名字比ip好使)、安装Orcal版的jdk、关闭防火墙、配好ssh,此外python系统已经自带不用二外安装

二、配置工作

首先配置Hadoop 这个可以参考官方网站电接点配置http://hadoop.apache.org/docs/r2.5.1/hadoop-project-dist/hadoop-common/SingleCluster.html

1、Hadoop2的配置文件在etc/hadoop目录下,需要修改的文件有core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、hadoop-env.sh、slaves

  • core-site.xml
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>  //我的主节点的机名就叫做master
  </property> </configuration>
  • hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value> //副本数量,一般设置为3个,但在这里,因为机子有限我只设置了一个
    </property>
   <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/zkpk/hadoop_name</value>
    </property>
  <property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/zkpk/hadoop_data</value>
    </property> </configuration>
  • mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value> //资源管理器指向yarn
    </property>
</configuration>
  • yarn-site.xml
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
  • hadoop-env.sh
修改该文件中的JAVA_HOME
  • slaves
直接在文件中输入如下
master
slave

详细的按需配置,可以到官方查看集群配置的方法
到此Hadoop配置完成
初始化完成之后可以使用sbin/start-all.sh启动集群,使用sbin/stop-all.sh结束集群
2、scala 安装解压包之后,配置下环境变量即可

3、安装spark

 解压好文件之后,需要到conf文件夹下修改一下配置文件slaves、spark-env.sh

  • slaves
在该文件中填写如下内容(是两台主机的名字)
master
slave
  • spark-env.sh

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/opt/scala-2.10.4

export HADOOP_PREFIX=/opt/hadoop-2.4.0

export SPARK_MASTER_IP=master

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

 这里需要注意,有的时候这个spark-evn.sh不配置也不会出现问题,但有时候不配置就会出现如下问题

4、配置环境变量

使用命令 vi /etc/profile 注意是在root权限下才可以修改,当然也可以修改本地的环境便令 文件是主目录下的 .bash_profile

使环境变量生效使用命令 source /etc/profile 使配置文件生效

环境变量里的内容如下

export JAVA_HOME=/usr/java/latest

export SCALA_HOME=/opt/scala-2.10.4

export HADOOP_PREFIX=/opt/hadoop-2.4.0

export SPARK_HOME=/opt/spark-1.1.0-bin-hadoop2.4

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib"

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export YARN_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

export PATH=$PATH:$JAVA_HOME:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

  最后要记得将配好的Hadoop、Scale、Spark、profile文件复制到slave节点上

原文地址:https://www.cnblogs.com/wyhong/p/4086516.html