hadoop安装

  经暑假的几次安装失败,首先是对配置文件的原理不懂,对于虚拟机上的设备使用较少,linux命令处于忘记边缘。感谢林子雨老师的教程,来自于厦门大学数据实验室出品,相对与其他博客更加准确,适用性更强。
  hadoop两大核心,HDFS和MapReduce,完成海量数据的集群分布式处理。hadoop可以使用普通pc机构成一个集群,成本低,允许在linux平台。支持多种编程语言。典型应用为数据分析、数据实时查询、数据挖掘。MapReduce基于磁盘,spark基于内存,hive数据仓库用于企业数据分析,支持sql语句。Pig流数据处理,提供类似sql的查询语言Pig Latin。Oozie作业流调度系统,Zookeeper分布式协调服务,集群管理、Hbase分布式数据库,sqoop关系数据库与hadoop平台数据传递。Ambari部署工具,支持集群的供应、管理、监控。
1、推荐Ubuntu轻量级。2、内存大于4g用于64位。3、双系统。
 
关于Linux基础知识
  • shell是指“提供使用者使用界面”的软件(命令解析器)类似于DOS下的command和后来的cmd.exe。它接收用户命令然后调用相应的应用程序。
  • sudo命令。是Ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一下需要root权限执行的操作,当使用sudo命令时,一般输入当前用户密码。
  • shift键完成中英文切换
  • shift+ctrl+v/c复制,粘贴
Hadoop安装方式
  • 单机模式:默认模式为非分布式模式(本机模式)无需进行其他配置即可运行非分布式即单java进程,方便进行调试。
  • 伪分布式模式:hadoop可以在单节点上以伪分布式的方式运行,hadoop进程以分离的Java进程来运行,节点既作为namenode也作为datanode。同时,读取的是HDFS中的文件。
  • 分布式模式:使用多个节点构成集群环境来运行hadoop。
虚拟机:virtualbox
如果选择的系统是64位Ubuntu系统,你们在安装虚拟机前,我们还要进入blos开启cpu的虚拟化。
 
安装双操作系统
  • 制作安装u盘
  • 双系统安装
Hadoop的安装与使用
创建hadoop用户->SSH登录权限设置->安装Java环境->单机安装配置->伪分布式安装配置
1、创建hadoop用户,增加名为hadoop的用户,首先按ctrl+alt+t打开终端窗口,输入如下命令创建新用户
$sudo useradd-m hadoop -s/bin/bash
上面这条命令创建了可以登陆的hadoop用户,并使用bin/bash作为shell
接着使用如下命令设置密码,可见的设置为hadoop,按提示输入两次密码
$sudo passwd hadoop
可为hadoop用户增加管理员权限
$sudo adduser hadoop sudo
 
SSH登陆权限设置
ssh是Secure shell的缩写,是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。ssh是由客户端和服务端的软件组成,服务端是一个守护进程(daemon),它在后台运行并响应来自客户端的连接请求,客户端包括ssh程序以及像scp(远程拷贝)、slogin(远程登陆)、sftp(安全文件传输)等其他的应用程序。
 
配置SSH的原因
Hadoop名称节点(NameNode)需要启动集群中所有机器的Hadoop守护进程,这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式。因此,为了能够顺利登录每台机器,需要将所有机器配置为名称节点可以无密码登录它们。
 
安装Java环境
可选择oracle的JDK,或是OpenJdk,可以在Ubuntu中直接通过命令安装OpenJDK7
$sudo apt-get install openjdk-7-jre openjdk-7-jdk
还需要配置java_home
 
单价安装配置
在虚拟机网络内下载Hadoop2安装文件,下载hadoop-2.x.y.tar.gz文件
选择将Hadoop安装至/usr/local/中
$sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local         #解压到/usr/local
$cd /usr/local/            #进入目录
$sudo mv ./hadoop-2.6.0/ ./hadoop      #将文件夹名改为hadoop        
$sudo chown -R hadoop:hadoop ./hadoop    #修改文件权限
 
验证是否成功,成功会显示版本信息
$cd /usr/local/hadoop
$ ./bin/hadoop/version 
 
伪分布式安装配置
  • 修改配置文件->初始化
hadoop.tmp.dir临时文件存储目录,人工指定
fs.defaultFS逻辑名称
  • 修改hdfs-site.xml
dfs.replication副本,表示副本数量,伪分布式设置1
dfs.namenode.name.dir表示本地磁盘目录,是存储fsimage文件的地方
dfs.datanode.data.dir表示本地磁盘目录,HDFS数据存放block的地方
 
三种命令方式的区别
  • hadoop fs 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
  • hadoop dfs只适用于HDFS文件系统
  • hdfs dfs 适用于HDFS文件系统
 推荐文章:
1、制作Ubuntu系统u盘
http://jingyan.baidu.com/article/59703552e0a6e18fc007409f.html
2、双系统安装
 http://jingyan.baidu.com/article/dca1fa6fa3b905f1a44052bd.html
 
 
原文地址:https://www.cnblogs.com/watm/p/9696757.html