安装Hadoop

一、安装Linux，MySql

　　（一）安装前准备

　　　　1.安装Linux前需要安装 Oracle VM VirtualBox，下载 https://www.virtualbox.org/wiki/Downloads 。

　　　　2.安装成功后，打开VirtualBox。

　　（二）安装Linux

　　　　1.新建虚拟机，为虚拟机命名为Ubuntu，类型为Linux，版本为Ubuntu （64位）。

　　　　2.分配虚拟机内存大小为1024MB。

　

　　　　3.创建虚拟硬盘，步骤如下：

　　　　　　（1）选择现在创建虚拟硬盘（C）：

　　

　　　　　　（2）选择 VDI （VirtualBox 磁盘映像）：

　　　　　　（3）选择动态分配：

　　　　　　（4）位置默认为 Ubuntu，大小为 20GB：

　　　　4.选择镜像文件

　　　　　　下载 01 ubuntukylin-16.04-desktop-amd64.iso，https://pan.baidu.com/s/1WtFnpezV2oCel3wZHitQUA，7eti

　　　　　　（1）选择存储：

　　　

　　　　　　（2）选择没有光盘—>第二IDE控制器主通道—>选择一个虚拟光盘文件，即 01 ubuntukylin-16.04-desktop-amd64.iso 镜像文件

　　　　　　（3）启动

　　　　　　

　　　　　　（4）安装Ubuntu

　

　

　　　　　　（5）设置登陆时的用户名和密码：

　　　　　　（6）不要点击跳过

　　　　　　（7）登陆

　　　　　　（8）安装增强功能

　　（三）安装MySql

　　　　　　1.更新apt

　　　　　　2.安装mysql-server

　　　　　　3.设置MySql用户root的密码，如root

　　　　　　4.启动MySql服务，需要输入用户登陆密码给予授权

　　　　　　5.关闭MySql服务，同样需要输入用户登陆密码给予授权

　　　　　　6.确认是否登陆成功，MySql节点处于LISTEN状态表示启动成功呢

　　　　　　7.进入MySql shell界面，需要输入MySql登陆密码root

　　　　　　8.显示数据库

　　　　　　9.显示数据库中的表

　　　　　　10.编辑配置文件防止导入时中文乱码，配置文件内容添加 character_set_server=utf8

　　　　　　11.重启MySql服务

　　　　　　12.查看修改结果

二、windows 与虚拟机互传文件

　　参考网址：https://www.cnblogs.com/dong-blog/p/7207831.html

　　　（一）在windows本机新建一个共享文件夹并命名为 s，这是一个用于与Ubuntu交互的文件夹

　　　（二）在Ubuntu中，点击左上角的设备，点击共享文件夹，选择添加共享文件夹，选择其他，选择在windows本机创建的共享文件夹 s，选择固定分配（一定不要选择自动挂载）

　　　（三）在Ubuntu中，打开终端，创建 share 作为文件共享文件夹

　　（四）将windows本机的 s 文件挂载到Ubuntu的 /mnt/share 挂载点

　　（五）在windows把需要的文件放进 s 文件夹里，到 Ubuntu 查看共享文件是否共享成功

　　（六）在共享目录下使用命令：vi /etc/fstab，在文本中添加一行命令：s /mnt/share vboxsf rw,gid=110,uid=110,auto 0 0，设置成自动挂载，确保重启虚拟机后系统共享仍在

　　（七）编辑文本，然后保存退出

三、安装Hadoop

　　（一）创建Hadoop用户

　　　　1.创建hadoo用户

　　　　2.为Hadoop用户设置密码

　　　　3.为Hadoop用户添加管理员权限

　　　　4.登陆Hadoop用户

　　（二）实现无密码登录

　　　　1.打开终端，使用命令：sudo apt-get update 更新apt，不更新apt可能某些软件安装不了

　　　　2.集群、单节点模式都需要用到SSH登陆（类似于远程登陆），Ubuntu默认安装了SSH client，另外还需要安装SSH server

　　　　3.安装SSH server 后，可使用ssh localhost命令登录，exit命令退出

　　　　4.使用命令cd ~/.ssh/，若没有该目录，请先执行一次 ssh localhost 命令，然后exit

　　　　5.利用 ssh-keygen 生成秘钥，并将秘钥加入授权

　　　　6.再用ssh localhost 命令，就可以实现无密登陆了：

　　　　7.使用 ps -e |grep ssh 查看是否安装成功：

　　（三）配置java环境

　　　　1.安装Java环境（需要联网）

　　　　2.使用命令 gedit ~/.bashrc 配置环境变量文件.bashrc

　　　　3.配置Java的环境变量，在文件最前面或最后面添加如下一行（等号前后不能有空格），然后保存退出

　　　　4.使用 source ~/.bashrc 命令使环境变量生效：

　　　　 5.使用一下命令检查是否配置是否正确：

　　（四）安装Hadoop

　　　　下载 hadoop-2.7.1.tar 压缩文件：https://pan.baidu.com/s/1gRhbNRwOoOtHFHg5YiHQPg fg8w

　　　　1.将 hadoop-2.7.1.tar 压缩文件解压并重命名为hadoop，然后放到windows的 s 共享文件中，在Ubuntu的shell中使用命令 sudo cp /mnt/share/hadoop /usr/local 将hadoop文件复制到 /usr/local 目录下

　　　　2.查看文件是否复制成功

　　　　3.修改文件权限

　　　　4.查看修改结果

　　　　5.检查Hadoop是否可用

　　（五）运行Hadoop单机模式的例子

　　　　1.创建输入文件

　　　　2.将配置文件作为输入文件

　　　　3.运行grep例子

　　　　 4.查看实例运行结果

　　　　5.Hadoop默认不会覆盖结果文件，再次运行上面实例会提示错误，需要现将 ./output 删除

　　（六）Hadoop伪分布式配置

　　　　下载Hadoop伪分布式配置文件的主要内容：https://pan.baidu.com/s/1YB3fjT4XZbhbjHWUzm0rsw ，u3mz

　　　　1.Hadoop配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改配置文件有 core-site.xml 和 hdfs-site.xml 。

　　　　　　（1）修改配置文件 core-site.xml ：

　　　　　　（2）修改配置文件 hdfs-site.xml ：

　　　　2.文件配置完成后，执行NameNode格式化

　　　　3.成功会有以下提示

　　　　4.开启NameNode和DataNode的守护进程

　　　　5.若出现SSH提示，输入yes即可

　　　　6.通过jps命令来判断是否启动成功（若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”，如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试。如果没有 NameNode 或 DataNode ，那就是配置不成功，请仔细检查之前步骤，或通过查看启动日志排查原因。）。如果DataNode无法启动，先删除hadoop.tmp.dir（路径为 /usr/local/hadoop/tmp目录, 再执行hadoop namenode -format

　　　　7.运行Hadoop伪分布式实例

　　　　8.查看位于HDFS中的输出结果

　　　　9.将结果取回本地

　　　　10.关闭Hadoop

　　　　11.再次启动Hadoop时，无需再对NameNode进行初始化，只要运行 ./sbin/start-dfs.sh 开启 NameNode 和 DataNode 守护进程即可。

　　

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/trojans/p/10869288.html