Hadoop-HDFS

课程软件存放目录

hadoop/hadoop

/home/hadoop

　　software：存放安装的软件包

　　app：存放的是所有软件的安装目录

　　data：存放的是课程中所有使用的测试数据目录

　　source：存放的是软件源码目录，spark

Hadoop环境搭建
1）下载Hadoop

　　http://archive.cloudera.com/cdh5/cdh/5/

　　2.6.0-cdh5.7.0

　　wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

2）安装jdk

　　jdk-7u51-linux-x64

　　下载

　　解压到app目录：tar -zxvf jdk-7u51-linux-x64.tar.gz - C ~/app/

　　验证安装是否成功：~/app/jdk1.7.0_51/bin ./java -version

　　建议把bin目录配置到系统环境变量（~/bash_profile）中

　　　　export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

　　　　export PATH=$JAVA_HOME/bin:$PATH

3)机器参数设置

　　hostname：hadoop001

　　修改机器名;vi /etc/sysconfig/network

　　　　NETWORKIN=yes

　　　　HOSTNAME=hadoop001

　　设置ip和hostname的映射关系：/etc/hosts

　　　　192.168.199.200 hadoop001

　　　　127.0.0.1 localhost

　　　ssh免密码登录（本步骤可省略，但是后面重启hadoop进程时需要手工输入密码才行）

　　　　ssh-keygen - t rsa

　　　　cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

4）hadoop配置文件修改：~/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

　　hadoop-env.sh

　　　　export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51

　　core-site.xml

　　　　　　<name>fs.defaultFS</name>

　　　　　　<value>hdfs://hadoop001:8020</value>

　　　　</property>

　　　　　　<name>hadoop.tmp.dir</name>

　　　　　　<value>/home/hadoop/app/tmp</value>

　　　　</property>

　　hdfs-site.xml

　　　　　　<name>dfs.replication</name>

　　　　</property>

5）格式化HDFS

　　　　注意：这一步操作，只是在第一次时执行，每次如果都格式化的话，那么HDFS上的数据就会被清空

　　　　bin目录下：bin/hdfs namenode -format

6）启动HDFS

　　sbin/start-dfs.sh

　　验证是否启动成功：

　　　　jps

　　　　　　Datanode

　　　　　　SecondaryNameNode

　　　　　　NameNode

　　　　浏览器

　　　　　　http://hadoop001:50070/

7）停止HDFS

　　sbin/stop-dfs.sh

HDFS优缺点

　　优点

　　　　高容错

　　　　适合批处理

　　　　适合大数据处理

　　　　可构建在廉价机器上

　　缺点：

　　　　低延迟的数据访问

　　　　不适合小文件存储