hadoop初体验

 

hadoop初体验

  • namnode format操作
    • 首次启动集群需要针对hdfs 操作
    • 操作只需要进行一次 通常在namenode所在节点进行
    • format中主要创建了hadoop运行时依赖的一些文件夹和文件
      Storage directory /export/data/hadoopdata/dfs/name has been successfully formatted.
      -rw-r--r--. 1 root root 321 Jul 18 14:53 fsimage_0000000000000000000
      -rw-r--r--. 1 root root 62 Jul 18 14:53 fsimage_0000000000000000000.md5
      -rw-r--r--. 1 root root   2 Jul 18 14:53 seen_txid
      -rw-r--r--. 1 root root 208 Jul 18 14:53 VERSION
    • Q:如果不小心format多从会如何?怎么解决?
      • 后果:集群中主从角色互相不识别 貌合神离 之前集群的元数据都会丢失
    • 解决:把3台机器上hadoop.tmp.dir 指定文件夹全部删除 重新format一次
  • hadoop集群的启动方式
    • 单节点逐个启动
      • hdfs集群
         hadoop-daemon.sh start|stop  namenode/datanode/secondarynamenode  
      • yarn集群
         yarn-daemon.sh start|stop  reourcemanager/nodemanager
      • 好处:可以精准的控制每个机器上每个进程启停状态 便于后期维护集群
    • 脚本一键启动
      • 前提是必须配置好 ssh免密登录 指定slaves文件
      • hdfs集群
        start-dfs.sh     stop-dfs.sh 
      • yarn集群
        start-yarn.sh    stop-yarn.sh
      • 更狠的命令 一键启动两个集群
        start-all.sh  stop-all.sh
  • hadoop web-ui页面
  • 初体验
    • hdfs 存储文件集群
      • 本质就是用于文件存储的
      • 结构上也是目录树结构 从/根目录开始
      • 文件夹是文件夹 目录是目录
      • 操作起来比较慢?为什么慢? 难道是分布式存储造成?
    • yarn+mr
      • mr程序本质就是一个java程序
      • mr程序第一步去寻找yarn?为什么去?寻找资源。?
      • mr程序分为两个阶段的 先map 再reduce
      • mr输出的结果好像有顺序 字典序(a--z 0--9)



原文地址:https://www.cnblogs.com/TiePiHeTao/p/11503951.html