hadoop安装

　　经暑假的几次安装失败，首先是对配置文件的原理不懂，对于虚拟机上的设备使用较少，linux命令处于忘记边缘。感谢林子雨老师的教程，来自于厦门大学数据实验室出品，相对与其他博客更加准确，适用性更强。

　　hadoop两大核心，HDFS和MapReduce，完成海量数据的集群分布式处理。hadoop可以使用普通pc机构成一个集群，成本低，允许在linux平台。支持多种编程语言。典型应用为数据分析、数据实时查询、数据挖掘。MapReduce基于磁盘，spark基于内存，hive数据仓库用于企业数据分析，支持sql语句。Pig流数据处理，提供类似sql的查询语言Pig Latin。Oozie作业流调度系统，Zookeeper分布式协调服务，集群管理、Hbase分布式数据库，sqoop关系数据库与hadoop平台数据传递。Ambari部署工具，支持集群的供应、管理、监控。

1、推荐Ubuntu轻量级。2、内存大于4g用于64位。3、双系统。

关于Linux基础知识

shell是指“提供使用者使用界面”的软件(命令解析器)类似于DOS下的command和后来的cmd.exe。它接收用户命令然后调用相应的应用程序。
sudo命令。是Ubuntu中一种权限管理机制，管理员可以授权给一些普通用户去执行一下需要root权限执行的操作，当使用sudo命令时，一般输入当前用户密码。
shift键完成中英文切换
shift+ctrl+v/c复制，粘贴

Hadoop安装方式

单机模式：默认模式为非分布式模式（本机模式）无需进行其他配置即可运行非分布式即单java进程，方便进行调试。
伪分布式模式：hadoop可以在单节点上以伪分布式的方式运行，hadoop进程以分离的Java进程来运行，节点既作为namenode也作为datanode。同时，读取的是HDFS中的文件。
分布式模式：使用多个节点构成集群环境来运行hadoop。

虚拟机：virtualbox

如果选择的系统是64位Ubuntu系统，你们在安装虚拟机前，我们还要进入blos开启cpu的虚拟化。

安装双操作系统

制作安装u盘
双系统安装

Hadoop的安装与使用

创建hadoop用户->SSH登录权限设置->安装Java环境->单机安装配置->伪分布式安装配置

1、创建hadoop用户，增加名为hadoop的用户，首先按ctrl+alt+t打开终端窗口，输入如下命令创建新用户

$sudo useradd-m hadoop -s/bin/bash

上面这条命令创建了可以登陆的hadoop用户，并使用bin/bash作为shell

接着使用如下命令设置密码，可见的设置为hadoop，按提示输入两次密码

$sudo passwd hadoop

可为hadoop用户增加管理员权限

$sudo adduser hadoop sudo

SSH登陆权限设置

ssh是Secure shell的缩写，是建立在应用层和传输层基础上的安全协议。SSH是目前较可靠、专为远程登录会话和其他网络服务提供安全性的协议。ssh是由客户端和服务端的软件组成，服务端是一个守护进程（daemon），它在后台运行并响应来自客户端的连接请求，客户端包括ssh程序以及像scp（远程拷贝）、slogin（远程登陆）、sftp（安全文件传输）等其他的应用程序。

配置SSH的原因

Hadoop名称节点（NameNode）需要启动集群中所有机器的Hadoop守护进程，这个过程需要通过SSH登录来实现。Hadoop并没有提供SSH输入密码登录的形式。因此，为了能够顺利登录每台机器，需要将所有机器配置为名称节点可以无密码登录它们。

安装Java环境

可选择oracle的JDK，或是OpenJdk，可以在Ubuntu中直接通过命令安装OpenJDK7

$sudo apt-get install openjdk-7-jre openjdk-7-jdk

还需要配置java_home

单价安装配置

在虚拟机网络内下载Hadoop2安装文件，下载hadoop-2.x.y.tar.gz文件

选择将Hadoop安装至/usr/local/中

$sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local #解压到/usr/local

$cd /usr/local/ #进入目录

$sudo mv ./hadoop-2.6.0/ ./hadoop #将文件夹名改为hadoop

$sudo chown -R hadoop:hadoop ./hadoop #修改文件权限

验证是否成功,成功会显示版本信息

$cd /usr/local/hadoop

$ ./bin/hadoop/version

伪分布式安装配置

修改配置文件->初始化

hadoop.tmp.dir临时文件存储目录，人工指定

fs.defaultFS逻辑名称

修改hdfs-site.xml

dfs.replication副本，表示副本数量，伪分布式设置1

dfs.namenode.name.dir表示本地磁盘目录，是存储fsimage文件的地方

dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方

三种命令方式的区别

hadoop fs 适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统
hadoop dfs只适用于HDFS文件系统
hdfs dfs 适用于HDFS文件系统