Ubuntu16.04 install hadoop-2.8.1.tar.gz 伪分布式

1.安装SSH server、免密码ssh设置
sudo apt-get install openssh-server

现在确认能否不输入口令就用ssh登录localhost:
ssh localhost

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:

  ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  chmod 0600 ~/.ssh/authorized_keys


2.Hadoop的安装

http://hadoop.apache.org/releases.html 选择 binary

tar zxvf hadoop-2.8.1.tar.gz

sudo mv hadoop-2.8.1 /opt/hadoop

cd /etc/profile.d

sudo vim hdfs-env.sh

export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=/etc/hadoop/
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

echo $HADOOP_HOME

echo $PATH
source hdfs-env.sh

echo $HADOOP_HOME

echo $PATH
hadoop version



3.伪分布式配置

cd /opt/hadoop/etc

sudo mv hadoop /etc


sudo mkdir -p /data/hadoop/tmp
sudo mkdir -p /data/hadoop/dfs/name

sudo mkdir -p /data/hadoop/dfs/data
sudo chown -R donny:donny /data


hdfs配置:

vim etc/hadoop/hdoop-env.sh

export JAVA_HOME=/opt/jdk

core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。
vim etc/hadoop/core-site.xml
<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/data/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
</configuration>

hdfs-site.xml 文件中包含如复制数据的值,NameNode路径的信息,,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方。
vim etc/hadoop/hdfs-site.xml
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/data/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/data/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
</configuration>

mapred-site.xml用于指定正在使用MapReduce框架。缺省情况下,包含Hadoop的模板yarn-site.xml。首先,它需要从mapred-site.xml复制。获得mapred-site.xml模板文件使用以下命令。
mapreduce配置:
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
<configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
      <property>
          <name>mapreduce.jobhistory.address</name>
          <value>localhost:10020</value>  
    </property>
    <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>localhost:19888</value>
    </property>
</configuration>

yarn-site.xml配置成yarn在Hadoop中
vim etc/hadoop/yarn-site.xml
<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

格式化 hdfs namenode -format

  1. 第一种方式

    启动:分别启动HDFS和MapReduce

    命令如下:start-dfs.sh start-yarn.sh

    命令如下:stop-dfs.sh stop-yarn.sh

  2. 第二种方式

    全部启动或者全部停止

    启动:

    命令:start-all.sh

    启动顺序:NameNode,DateNode,SecondaryNameNode,JobTracker,TaskTracker

     

    停止:

    命令:stop-all.sh

    关闭顺序性:JobTracker,TaskTracker,NameNode,DateNode,SecondaryNameNode

  3. 第三种方式

    hadoop-daemon.sh start namenode

    如果namenode还做datanode则执行hadoop-daemon.sh start datanode

    yarn-daemon.sh start nodemanager
    mr-jobhistory-daemon.sh start historyserver
    yarn-daemon.sh start resourcemanager


访问http://localhost:50070 查看节点信息。
不启用 YARN 时,是 “mapred.LocalJobRunner” 在跑任务,启用 YARN 之后,是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况:http://localhost:8088/cluster 。

原文地址:https://www.cnblogs.com/DowneyJr/p/7623942.html