Hadoop 2.4.1安装笔记

Centos 6.4   这是6系列的一个稳定版

JDK 7版本,hadoop许多组件是基于7开发的~ 6就跑不起来了~

Vmware。网卡设置VMNET8(NAT)

启动后,配置网络setup,然后重启网络service network restart

关闭图形界面init 3

设置securecrt文字风格

让系统默认不启动图形界面,修改/etc/inittab将启动级别改为3

修改主机名/etc/sysconfig/network

技巧:securecrt下alt+p打开sftp,命令put上传文件


1、安装jdk

2、安装hadoop

目录结构:

lib:本地库

share:hadoop的jar包

sharedoc 帮助文档,可以删除

注意

sharehadoophdfshadoop-hdfs-2.4.1.jar hdfs核心包

sharehadoophdfslib hdfs依赖

例如hdfs开发导包时,注意导入这两个部分即可。

修改配置文件etc/:

hadoop-env.sh,hadoop的环境变量配置

  JAVA_HOME

core-site.xml 核心配置

  fs.defaultFS 默认的文件系统的uri(因为hadoop各组件是松耦合的),比如hdfs://hadoop1:9000

  hadoop.tmp.dir hadoop的工作目录,例如/usr/local/hadoop/data/

hdfs-site.xml 配置几个即可,其他都有默认值。blocksize默认128M,老版本64M

  dfs.replication 副本数

mapred-site.xml

  mapreduce.framework.name 设置mapred程序提交到哪个资源调度程序跑(jar包分发,分配运行的虚拟机...),例如yarn。如果不指定,则会在本地跑,不会进入集群

yarn-site.xml

  yarn.resourcemanager.hostname 设置yarn的老大resourcemanager,例如hadoop1

  yarn.nodemanager.aux-services 指定mapred程序里map产生的中间结果怎么传递给reduce,采用哪种机制。目前只有mapreduce_shuffle

slaves

  指定哪些机器上要启动dataname

3、关闭防火墙

service iptables stop 关闭

chkconfig iptables --list
chkconfig iptables off  禁止重启后自启

4、初始化hadoop

配置HADOOP_HOME,然后在PATH中加$HADOOP_HOME/bin

hadoop namenode -format  格式化hdfs

5、免密码登陆


测试hdfs

http://hadoop1:50070

hadoop fs -put a.tar.gz hdfs://hadoop1:9000/

hadoop fs -get hdfs://hadoop1:9000/a.tar.gz

测试mapreduce

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar pi 5 5

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /wc/in /wc/out

原文地址:https://www.cnblogs.com/sysout/p/5187252.html