Hadoop-HDFS

课程软件存放目录

hadoop/hadoop

/home/hadoop

  software:存放安装的软件包

  app:存放的是所有软件的安装目录

  data:存放的是课程中所有使用的测试数据目录

  source:存放的是软件源码目录,spark

Hadoop环境搭建
1)下载Hadoop

  http://archive.cloudera.com/cdh5/cdh/5/

  2.6.0-cdh5.7.0

  wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

2)安装jdk

  jdk-7u51-linux-x64

  下载

  解压到app目录:tar -zxvf jdk-7u51-linux-x64.tar.gz - C ~/app/

  验证安装是否成功:~/app/jdk1.7.0_51/bin    ./java -version

  建议把bin目录配置到系统环境变量(~/bash_profile)中

    export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

    export PATH=$JAVA_HOME/bin:$PATH

3)机器参数设置

  hostname:hadoop001

  修改机器名;vi /etc/sysconfig/network

    NETWORKIN=yes

    HOSTNAME=hadoop001

  设置ip和hostname的映射关系:/etc/hosts

    192.168.199.200 hadoop001

    127.0.0.1 localhost

   ssh免密码登录(本步骤可省略,但是后面重启hadoop进程时需要手工输入密码才行)

    ssh-keygen - t rsa

    cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

4)hadoop配置文件修改:~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

  hadoop-env.sh

    export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

  core-site.xml

    <property>

      <name>fs.defaultFS</name>

      <value>hdfs://hadoop001:8020</value>

    </property>

    <property>

      <name>hadoop.tmp.dir</name>

      <value>/home/hadoop/app/tmp</value>

    </property>

  hdfs-site.xml

    <property>

      <name>dfs.replication</name>

      <value>1</value>

    </property>

5)格式化HDFS

    注意:这一步操作,只是在第一次时执行,每次如果都格式化的话,那么HDFS上的数据就会被清空

    bin目录下:bin/hdfs namenode -format

6)启动HDFS

  sbin/start-dfs.sh

  验证是否启动成功:

    jps

      Datanode

      SecondaryNameNode

      NameNode

    浏览器

      http://hadoop001:50070/

7)停止HDFS

  sbin/stop-dfs.sh

HDFS优缺点

  优点

    高容错

    适合批处理

    适合大数据处理

    可构建在廉价机器上

  缺点:

    低延迟的数据访问

    不适合小文件存储

原文地址:https://www.cnblogs.com/liuffblog/p/12882280.html