hadoop初体验

namnode format操作
- 首次启动集群需要针对hdfs 操作
- 操作只需要进行一次 通常在namenode所在节点进行
- format中主要创建了hadoop运行时依赖的一些文件夹和文件
```
Storage directory /export/data/hadoopdata/dfs/name has been successfully formatted.
```
```
-rw-r--r--. 1 root root 321 Jul 18 14:53 fsimage_0000000000000000000
-rw-r--r--. 1 root root  62 Jul 18 14:53 fsimage_0000000000000000000.md5
-rw-r--r--. 1 root root   2 Jul 18 14:53 seen_txid
-rw-r--r--. 1 root root 208 Jul 18 14:53 VERSION
```
- Q:如果不小心format多从会如何？怎么解决？
  - 后果：集群中主从角色互相不识别貌合神离之前集群的元数据都会丢失
- 解决：把3台机器上hadoop.tmp.dir 指定文件夹全部删除重新format一次
hadoop集群的启动方式
- 单节点逐个启动
  - hdfs集群
```
 hadoop-daemon.sh start|stop  namenode/datanode/secondarynamenode  
```
  - yarn集群
```
 yarn-daemon.sh start|stop  reourcemanager/nodemanager
```
  - 好处：可以精准的控制每个机器上每个进程启停状态便于后期维护集群
- 脚本一键启动
  - 前提是必须配置好 ssh免密登录指定slaves文件
  - hdfs集群
```
start-dfs.sh     stop-dfs.sh 
```
  - yarn集群
```
start-yarn.sh    stop-yarn.sh
```
  - 更狠的命令一键启动两个集群
```
start-all.sh  stop-all.sh
```
hadoop web-ui页面
- hdfs:http://namenode_ip:50070
- yarn:http://resourcemanager_ip:8088
初体验
- hdfs 存储文件集群
  - 本质就是用于文件存储的
  - 结构上也是目录树结构从/根目录开始
  - 文件夹是文件夹目录是目录
  - 操作起来比较慢？为什么慢？难道是分布式存储造成？
- yarn+mr
  - mr程序本质就是一个java程序
  - mr程序第一步去寻找yarn？为什么去？寻找资源。？
  - mr程序分为两个阶段的先map 再reduce
  - mr输出的结果好像有顺序字典序（a--z 0--9）