Hadoop伪分布式搭建

虚拟机创建和基本linux配置略过，重点记录单节点上搭建伪分布式hadoop集群的关键配置。

获取hadoop bin包解压等略过。

所有模式都需要修改此配置
/etc/profile
    export JAVA_HOME=/opt/apps/jdk
    export CLASSPATH=.:${JAVA_HOME}/lib
    export PATH=$PATH:$JAVA_HOME/bin
    
    export HADOOP_HOME=/opt/apps/hadoop
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib/native
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
hadoop-env.sh
    必须配置JAVA_HOME，默认JAVA_HOME=${ JAVA_HOME} 可能取不到
    export JAVA_HOME=/opt/apps/jdk
    
    配置HADOOP_HOME环境变量方便使用
    export HADOOP_HOME=/opt/apps/hadoop
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib/native
　　 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

特征：所有服务都在一台机器上，即可以使用本地文件系统，也可以使用分布式文件系统

core-site.xml
    fs.defaultFS = hdfs://Master:9000  文件系统
    hadoop.tmp.dir = /opt/workspace/hadoop  工作目录

hdfs-site.xml
    dfs.replication = 1 默认副本数，可由HDFS_Client重配置 ，伪分布式单节点不需要多副本
    
mapred-site.xml
    mapreduce.framework.name = yarn  mr运行框架

yarn-site.xml
    yarn.resourcemanager.hostname = Master  指定RM的hostname
    yarn.nodemanager.aux-services = mapreduce_shuffle  辅助服务
    
namenode格式化：hadoop namenode -format

启动集群
    start-dfs.sh
    start-yarn.sh
    
    节点将启动 Namenode SeconderyNamenode Datanode ResourceManager Nodemanager
    
基本测试
    Namenode UI
         http://192.8.0.10:50070
    运行MR Example
        hadoop jar hadoop-mapreduce-examples-2.7.6.jar pi 5 5
    CLI HDFS_Client
        Hadoop fs -ls /user