Hadoop学习笔记二

一、设置无密码sudo权限，不用在普通用户和root用户间来回切换

chmod u+w /etc/sudoers

vim /etc/sudoers

#首行添加如下的内容：

hadoop ALL=(root)NOPASSWD:ALL

再执行chmod u-w /etc/sudoers

设置成功，测试： hadoop用户执行sudo service iptables status

二、关闭防火墙，设置主机名等

关闭防火墙： chkconfig iptables offadoop

关闭SELinux：vi /etc/sysconfig/selinux 设置SELINUX=disable

设置IP地址：ifconfig查看那个端口的收发包数量不为0，假设为ifeth0，vi /etc/sysconfig/network-scripts/ifcfg-eth0

修改hostname：vi /etc/sysconfig/network

IP与hosts绑定：vi /etc/hosts

安装JDK并设置环境变量

三、不建议在32位服务器或者windows上部署Hadoop

四、Hadoop可以以下三种方式运行

单机方式，伪分布式方式，完全分布式方式

伪分布式方式(Pseudo-Distributed)有5个独立的进程，NameNode,DataNode,SecondaryNameNode,ResourceManager,NodeManger。

单机模式文件和mr都是在本地文件系统。伪分布式是运行在yarn之上。

五、RPC协议

Remote Procedure Call，远程过程调用协议。客户端发送带参数的请求，等待服务器返回的信息。

Hadoop体系是建立在RPC之上的，类似WebService，Restful，JSON rpc等。

六、四大核心模块：common,hdfs,mapreduce,yarn。对应的hdfs的4个主要的配置文件：core-site.xml,hdfs-site.xml,yarn-site.xml,mapred.xml。

七、第一次启动hadoop之前，需要对namenode 文件系统进行格式化。/bin/hdfs namenode -formate。

八、启动命令：

启动namnode：sbin/hadoop-daemon.sh start namenode

启动datanode：sbin/hadoop-daemon.sh start datanode

启动secondary: sbin/hadoop-daemon.sh start secondarynamenode

启动yarn resourcemanager：/sbin/yarn-daemon.sh start resourcemanager

启动yarn nodemanager：/sbin/yarn-daemon.sh start nodemanager

启动historyserver： /sbin/mr-history-deamon.sh start historyserver

关闭命令。start改为stop即可

运行简单的mapreduce: /bin/hadoop jar share/hadoop/mapredurce/hadoop-mapreduce-examples-2.6.0.jar pi 2 10

九、监控页面

ip:50070对应于HDFS的监控页面。

ip:8088对应于yarn的监控界面。

wordcount程序是2个mapreduce任务

十、MapReduce运行的几种方式

单机模式，运行在本地，输入输出在本地文件系统。

　　运行在本地，输入输出在HDFS之上。mapred.xml运行方式为local。是调试MapReduce的常用方式。

运行在yarn之上，输入输出在HDFS之上。mapred.xml运行方式为yarn。