Hadoop安装

hadoop安装

1. 安装jdk

  a.复制jdk-xx.tar.gz 到~Downloads

  b.解压

  c. 移动到/soft ; 创建软连接ln -s /soft/jdk-xxx  jdk

  d.配置环境变量

    [/etc/enviroment]

    JAVA_HOME=/soft/jdk

    PATH=".../soft/jdk/bin"

  e. 刷新环境变量:$> source /etc/enviroment

  f. 验证安装结果

    $> java -version

2. 安装hadoop

  a. 复制解压hadoop-xxx-tar.gz 到/soft/ ;创建软连接ln -s  hadoop-xxx hadoop;

  b. 增加环境变量,source生效

    [/etc/enviroment]

    HADOOP_HOME=/soft/hadoop

  c. 重启系统,执行hadoop -version 确认安装结果

Hadoop 包含三个模块  

  1. Hadoop Common: 支持其他模块的基础模块

  2. HDFS(Hadoop Distributed File System) 分布式文件系统,提供应用层数据的高吞吐量访问

    [进程]          节点名称    功能

    NameNode       //名称节点      存放目录

    DataNode       //数据节点      存放数据

    SecondaryNameNode  //辅助名称节点     备份目录

    启动脚本:start-dfs.sh/stop-dfs.sh

  3. Hadoop YARN:  资源调度框架(作业调度和集群资源管理)

    [进程]  

    ResourceManager    // 资源管理器--RM

    NodeManager      //节点管理器--NM

    start-yarn.sh/stop-yarn.sh

  4. MapReduce : 基于yarn系统的对大数据集进行并行处理的技术

Hadoop 三种部署方式

  1. Standalone/local

    本地模式,安装后无需其他配置

    查看文件系统的方式

    hadoop fs -ls

    查看java进程

    jps

  2. Pseudodistributed mode伪分布式: 

    单机运行所有服务(start-all.sh)

    (name node, dataNode, 2namenode,RM 资源管理器,nameNode manager, )

    配置文件:

    [core-site.xml]

    fs.defaultFS=hdfs://localhost:8020

    [hdfs-site.xml]

    dfs.replication=1

    [mapred-site.xml]

    mapreduce.framwork.name=yarn

    

    [yarn-site.xml]

    yarn.resourcemanager.hostname=localhost

  3. Full distributed mode 完全分布式

    不同节点运行不同服务,配置文件需要各个节点一样。

    主机名:s100,s101,s102,s103,s104 为例

    [core-site.xml]

    fs.defaultFS=hdfs://s100:8020    

    [hdfs-site.xml]

    dfs.replication=3

    <name>dfs.namenode.secondary.http-address</name>

    <value>s104</value>

    [mapred-site.xml]

    mapreduce.framwork.name=yarn

    

    [yarn-site.xml]

    yarn.resourcemanager.hostname=s100

    yarn.nodemanager.aux-services=mapreduce_shuffle

    [/soft/hadoop/etc/hadoop/slaves]  #数据节点

    s101

    s103

    s103

  

  

默认配置文件模板整理

  [core-default.xml]

    hadoop-common-2.7.2.jar/core-default.xml

  [hdfs-default.xml]

    hadoop-hdfs-2.7.2.jar/hdfs-default.xml

  [yarn-default.xml]

    hadoop-yarn-2.7.2.jar/yarn-default.xml

  [mapred-default.xml]

    hadoop-mapreduce-client-core-2.7.2.jar/mapred-default.xml

脚本分析

1.satart-all.sh

  libexec/hadoop-config.sh   -- 设置启动 变量

  sbin/start-dfs.sh --config $HADOOP_CONF_DIR  启动hdfs

  sbin/start-yarn.sh --config $HADOOP_CONF_DIR  启动yarn

2. libexec/hadoop-config.sh

  各个模块的目录变量

  COMMON_DIR

  HADOOP_CONF_DIR=...

  HEAP_SIZE=1000m

  CLASS_PATH=...

 3. sbin/start-dfs.sh --config $HADOOP_CONF_DIR

  1) libexec/hdfs-config.sh

  2) # 获得名称节点地址(主机名)

    NAMENODES = hdfs getconf -namenodes

  3) 启动名称节点

  $HADOOP_PREFIX/sbin/hadoop-daemons.sh

  --config "$HADOOP_CONF_DIR"

  --hostnames "$NAMENODES"

  --script "$bin/hdfs" start  namenode $nameStartOpt

  4)启动dataNode

  $HADOOP_PREFIX/sbin/hadoop-daemons.sh

  --config "$HADOOP_CONF_DIR"

  --script "$bin/hdfs" start  datanode $nameStartOpt

  5)启动2nn

  "$HADOOP_PREFIX/sbin/hadoop-daemons.sh"

  --config "$HADOOP_CONF_DIR"

  --hostnames "$SECONDARY_NAMENODES"

  --script "$bin/hdfs" start  secondarynamenode

4. libexec/hdfs-config.sh

  libexec/hadoop-config.sh

5. sbin/hadoop-daemons.sh 启动守护进程脚本

  1)libexec/hdfs-config.sh启动配置脚本

  2)slaves.sh 启动数据节点

    [bin/hadoop-daemon.sh]

常用命令

1. 格式化文件系统

  hadoop namenode -format

2. put 向HDFS上传文件

  hadoop fs -put  <本地文件> <hdfs目录>

  hdfs dfs -put   <本地文件> <hdfs目录>

  两种命令等价

3. hdfs dfs

  

  

  

原文地址:https://www.cnblogs.com/zhangmingda/p/13785854.html