安装Hadoop

一、安装Linux,MySql

  (一)安装前准备

    1.安装Linux前需要安装 Oracle VM VirtualBox, 下载 https://www.virtualbox.org/wiki/Downloads  。

    2.安装成功后,打开VirtualBox。

  (二)安装Linux

    1.新建虚拟机,为虚拟机命名为Ubuntu,类型为Linux,版本为Ubuntu (64位)。

    2.分配虚拟机内存大小为1024MB。

 

    3.创建虚拟硬盘,步骤如下:

      (1)选择 现在创建虚拟硬盘(C):

  

      (2)选择 VDI (VirtualBox 磁盘映像):

       

      (3)选择 动态分配:

         

      (4)位置默认为 Ubuntu,大小为 20GB:

        

    4.选择镜像文件

      下载 01 ubuntukylin-16.04-desktop-amd64.isohttps://pan.baidu.com/s/1WtFnpezV2oCel3wZHitQUA,7eti

      (1)选择 存储:

   

      (2)选择 没有光盘—>第二IDE控制器主通道—>选择一个虚拟光盘文件,即 01 ubuntukylin-16.04-desktop-amd64.iso  镜像文件

       (3)启动

      

      (4)安装Ubuntu

 

 

      (5)设置登陆时的用户名和密码:

      (6)不要点击跳过

       (7)登陆

      (8)安装增强功能

  (三)安装MySql

      1.更新apt

      2.安装mysql-server

      3.设置MySql用户root的密码,如root

      4.启动MySql服务,需要输入用户登陆密码给予授权

      5.关闭MySql服务,同样需要输入用户登陆密码给予授权

      6.确认是否登陆成功,MySql节点处于LISTEN状态表示启动成功呢

      7.进入MySql shell界面,需要输入MySql登陆密码root

      8.显示数据库

      9.显示数据库中的表

      10.编辑配置文件防止导入时中文乱码,配置文件内容添加 character_set_server=utf8

      11.重启MySql服务

      12.查看修改结果

二、windows 与 虚拟机互传文件

      参考网址:https://www.cnblogs.com/dong-blog/p/7207831.html

   (一)在windows本机新建一个共享文件夹并命名为 s,这是一个用于与Ubuntu交互的文件夹

   (二)在Ubuntu中,点击左上角的设备,点击共享文件夹,选择添加共享文件夹,选择其他,选择在windows本机创建的共享文件夹 s,选择固定分配(一定不要选择自动挂载)

   (三)在Ubuntu中,打开终端,创建 share 作为文件共享文件夹

     (四)将windows本机的 s 文件挂载到Ubuntu的 /mnt/share 挂载点

     (五)在windows把需要的文件放进 s 文件夹里,到 Ubuntu 查看共享文件是否共享成功

      (六)在共享目录下使用命令:vi /etc/fstab,在文本中添加一行命令:s /mnt/share vboxsf rw,gid=110,uid=110,auto 0 0,设置成自动挂载,确保重启虚拟机后系统共享仍在

      (七)编辑文本,然后保存退出

三、安装Hadoop

  (一)创建Hadoop用户

    1.创建hadoo用户

    2.为Hadoop用户设置密码

    3.为Hadoop用户添加管理员权限

    4.登陆Hadoop用户

  (二)实现无密码登录

    1.打开终端,使用命令:sudo apt-get update 更新apt,不更新apt可能某些软件安装不了

    2.集群、单节点模式都需要用到SSH登陆(类似于远程登陆),Ubuntu默认安装了SSH client,另外还需要安装SSH server

    3.安装SSH server 后,可使用ssh localhost命令登录,exit命令退出

    4.使用命令cd ~/.ssh/,若没有该目录,请先执行一次 ssh localhost 命令,然后exit

    5.利用 ssh-keygen 生成秘钥,并将秘钥加入授权

    6.再用ssh localhost 命令,就可以实现无密登陆了:

    7.使用 ps -e |grep ssh 查看是否安装成功:

   (三)配置java环境

    1.安装Java环境(需要联网)

    2.使用命令 gedit  ~/.bashrc 配置环境变量文件.bashrc

    3.配置Java的环境变量,在文件最前面或最后面添加如下一行(等号前后不能有空格),然后保存退出

     4.使用 source ~/.bashrc 命令使环境变量生效:

     5.使用一下命令检查是否配置是否正确:

  (四)安装Hadoop

    下载 hadoop-2.7.1.tar 压缩文件:https://pan.baidu.com/s/1gRhbNRwOoOtHFHg5YiHQPg  fg8w

    1.将 hadoop-2.7.1.tar 压缩文件解压并重命名为hadoop,然后放到windows的 s 共享文件中,在Ubuntu的shell中使用命令 sudo cp /mnt/share/hadoop /usr/local 将hadoop文件复制到 /usr/local 目录下

    2.查看文件是否复制成功

    3.修改文件权限

    4.查看修改结果

    5.检查Hadoop是否可用

  (五)运行Hadoop单机模式的例子

    1.创建输入文件

    2.将配置文件作为输入文件

    3.运行grep例子

     4.查看实例运行结果

     5.Hadoop默认不会覆盖结果文件,再次运行上面实例会提示错误,需要现将 ./output 删除

  (六)Hadoop伪分布式配置

    下载Hadoop伪分布式配置文件的主要内容:https://pan.baidu.com/s/1YB3fjT4XZbhbjHWUzm0rsw ,u3mz

    1.Hadoop配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改配置文件有 core-site.xml 和 hdfs-site.xml 。

      (1)修改配置文件 core-site.xml :

      (2)修改配置文件 hdfs-site.xml :

    2.文件配置完成后,执行NameNode格式化

    3.成功会有以下提示

     4.开启NameNode和DataNode的守护进程

    5.若出现SSH提示,输入yes即可

    6.通过jps命令来判断是否启动成功(若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”,如果 SecondaryNameNode 没有启动,请运行 sbin/stop-dfs.sh 关闭进程,然后再次尝试启动尝试。如果没有 NameNode 或 DataNode ,那就是配置不成功,请仔细检查之前步骤,或通过查看启动日志排查原因。)。如果DataNode无法启动,先删除hadoop.tmp.dir(路径为 /usr/local/hadoop/tmp目录, 再执行hadoop namenode -format

     7.运行Hadoop伪分布式实例

    8.查看位于HDFS中的输出结果

    9.将结果取回本地

    10.关闭Hadoop

     11.再次启动Hadoop时,无需再对NameNode进行初始化,只要运行 ./sbin/start-dfs.sh 开启 NameNode 和 DataNode 守护进程即可。

  

原文地址:https://www.cnblogs.com/trojans/p/10869288.html