大数据开发：（一）Hadoop配置

大数据开发：hadoop配置

一、相关知识回顾

RPC伪分布式去中心化
zookeeper保证分布式存在
HDFS:
- 主节点namenode,从节点datanodes
- namenode:
  - 接收用户操作请求
  - 维护文件系统的目录结构
  - 管理文件和block的关系，block与datanodes的关系
- datanodes:
  - 存储文件
  - 文件被分成block存储在磁盘
  - 为保证文件安全，文件会有多个备份

分布式文件存储

信息源：

购买信息元（对海量数据清洗）

自营提供（限于大公司）

爬虫、抓包
信息格式：文件、文本、sql、json

分布式计算

离线批处理

MapReduce

spark
实时数据流

storm

spark

Sqoop数据迁移：hdfs-->mysql

flume数据上传，把本地的数据上传至hafs中

二、安装hadoop/jdk

第一步：环境准备

下载hadooop,jdk压缩包
安装到usr目录下
切换到usr目录下(cd)
分别解压压缩包(tar -zxvf 压缩包名)
删除压缩包（rm -rf 压缩包名称）
修改文件名，方便操作（mv 旧名称/ 新名称）
cat /etc/profile查看环境变量

配置环境变量 nano /etc/profile

在末尾添加（注意： 每行之间不能有空格）

export JAVA_HOME=/usr/jdk
export HADOOP_HOME=/usr/hadoop
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

ctrl+x 退出并保存，
配置完成后生效： source /etc/profile，若没有提示则生效成功

第二步：hadoop配置

切换到hadoop文件目录 /usr/hadoop/etc/hadoop
- nano hadoop-env.sh
找到如图
- 改成: JAVA_HOME=/usr/jdk ctrl+x保存退出

生效配置：source hadoop-env.sh

配置 core-site.xml

在configuration中添加如下：

命令：nano core-site.xml

<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.169.1:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value>
</property>

注意：hdfs://虚拟机ip:8020

配置hdfs-site.xml

命令：nano hdfs-site.xml

在configuration中添加如下：

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/hadoop/tmp/dfs/data</value>
</property>

hadoop格式化

hdfs namenode-format
启动hadoop:start-dfs.sh

注意：启动进程可能要输入密码
检查是否启动成功jps
关闭hadoop:stop-dfs.sh