hadoop 概述

一， hadoop 的安装：

　　修改 namenode 地址

　　修改 datanode 地址

　　修改JAVA_HOME

二 hdfs

　　hdfs 分布式文件系统。 namenode 存放在数据的元文件（文件名相关的信息）。datanode 存放着数据真实的内内容。 hadoop 启动以后。namenode 先启动，然后 datanode 启动，并且 datanode 上报自己管理的文件数据块给 namenode。datanode 上报的是数据编号。 namanode 里面存的文件名和文件由那些编号的数据库块组成。当 nama node 控制着 datanode的数据库副本关系。

datanode 数据块 block 默认大小是 64M （2.0 默认 128M），，也就是说一个数据最小占用 64M 硬盘。每次有数据修改的时候那么node先追加操作到edits 文件，然后等到一定时间以后由 secondary namenode 吧edits 的变化持久化到 fsimge 文件。这时候 name node 的新修改。是写到一个新的edits 文件。（ name node 吧 edits 传输给 secondary namenode ，然后由 secondary namenode 合并 edits 修改到 fsimage ，然后把这个新的 fs image 回传给 namenode ）

三 mapReduce

　　map 是分

　　reduce 是合

　　mapReduce 是一种离线的大数据计算方案。

　　spark 是一种基于内存的大数据计算方案。

　　storm 是一种流式的大数据计算方案。

四 namenode 的高可用

　　2.0 以后 hadoop 加入了 namenode 的高可用。namenode（active）分为主和从（standby），主的对外提供服务，如果过主挂了，那么剩下的从节点中会通过 zookeeper 的投票选举出一个新的主。

　　zookeeper 通过心跳机制（ZKFC）检测着每一个 namaname 的状态。 namenode 不在把源数据存在本地磁盘，而是存在 journal node 上面，多个journal node 是一个集群。并且是高可用的。主从 name node 共享着这些 journal node。journal node 代替了 secend marster node。

五 namenode 的单机解决方案 , federation

　　多个 namenode 同时对外提供服务。每个节点保存着一部分的元数据。并且他们共享着相同的 datanode 。客户端选着一个文件的元数据是放到哪个 namenode 上面去。

六资源调度 yarn

　　yarn 分成2 部分

　　　　ResourceManger:负责这个集群的资源调度和管理只有一个

　　　　AplicationMater（nodeManger）;负责任务相关的事务有多个

　　yarn 使得多个计算框架可以在同一个集群上运行

　　在 MRv2 上面 mr 运行在 yarn 上。废除了 jobtracker 和 tasktracker

七 hadoop 2.0 高可用集群配置步骤

　　　　1 配置 javaHOME hadoop-env.sh
　　　　2 指定集群名称 cpre-site.xml
　　　　3 配置集群有哪些 namenode cpre-site.xml
　　　　4 配置 namenode 的 rpc 和http 访问地址和端口
　　　　5 配置 journal node edits 目录和地址
　　　　6 配置客户端 ha 提供类
　　　　7 配置 ssh fencing
　　　　8 配置 journal 工作目录 hdfs-site.xml
　　　　9 配置开启自动切换 hdfs-site.xml
　　　　10 配置zk 集群 cpre-site.xml

　　　　11 配置 data node 数据目录

　　　　12 配置 slaver

　　启动顺序

　　　　1 journal node

　　　　2 格式化 namenode 数据目录

　　　　3 启动那个格式化了的 namenode

　　　　4 在没有没有格式化的 namenode 机子上拉取格式化的namenode 的数据文件。（检查是否有数据文件生成）

　　　　5 停止所有服务

　　　　6 初始化 zkfc

　　　　7 在启动一个节点注册zkfc

　　　　8 启动所有服务。

hadoop 包含的东西：