大数据(MapReduce的编程细节及其Hive的安装,简单操作)

 


MapReduce编程细节分析
  • MapReduce中,Reduce可以没有 (纯数据的清洗,不用Reduce)

      job.setNumReduceTasks(0);
  • 设置多个Reduce

    // 默认在MapReduce中 Reduce的数量是1 
    job.setNumReduceTasks(3);

    //为什么Reduce的数量可以设置为多个
    内存角度  并行角度

    //如果Reduce数量多个话,那么生成结果也是多个独立的文件,放置在同一个目录下
  • Partition 分区

    分区的作用: Map 输出的key,合理分配对应的Reduce进行处理
    默认的分区策略:
    key%reduceNum = 
    public class HashPartitioner<K, V> extends Partitioner<K, V> {
        public HashPartitioner() {
        }
    ​
        public int getPartition(K key, V value, int numReduceTasks) {
            return (key.hashCode() & 2147483647) % numReduceTasks;
        }
    }
    ​
    自定义分区策略
    public class MyPartitioner<K,V> extends Partitioner<K,V>{
        
    }
    job.setPartitionerClass(MyPartitioner.class);
     
  • Map的压缩

    1. core-site.xml
    2. mapred-site.xml

     

 

  • Combainer编程

    Map端的Reduce
    job.setCombinerClass(MyReduce3.class);
  • Counter计数器

     Counter counter = context.getCounter("lhcCounter", "mapCount");
    counter.increment(1L);
Hive编程
概念: Hive是apache组织开源的一个数据仓库框架,最开始是FaceBook提供的.

1. 数据仓库
数据库   DataBase
存储的数据量级   小   价值高
数据仓库 DataWareHouse
存储的数据量级 大   价值低

2. Hive底层依附的是Hadoop

3. 以类SQL(HQL Hive Query Languge) 的方式运行MR,操作HDFS上的数据
  • Hive的原理分析

    Hive Hadoop on SQL
    SparkQL Spark on SQL
    Presto Impala kylin
  • Hive基本环境的搭建

    1. 搭建Hadoop
    2. Hive安装 加压缩
    3. 配置 
       hive-env.sh
       # Set HADOOP_HOME to point to a specific hadoop install directory
    HADOOP_HOME=/opt/install/hadoop-2.5.2
    ​
    # Hive Configuration Directory can be controlled by:
    export HIVE_CONF_DIR=/opt/install/apache-hive-0.13.1-bin/conf
       4. 在hdfs 创建  /tmp  数据库表对应的路径
                       /user/hive/warehouse
       5. 启动hive
    bin/hive
     
  • Hive的基本使用

    1. hive数据库
       show databases;
       create database if not exists lhc_140
       use lhc_140
    2. 表相关操作
       show tables;
       create table if not exists t_user(
        id int,
        name string
        )row format delimited fields terminated by '	';
    3. 插入数据 导入数据 本地操作系统文件 向 hive表 导入数据
       load data local inpath '/root/data3' into table t_user;
    4. SQL语句
       select * from t_user;
  • Hive与HDFS对应的一个介绍

    1. 数据库对应的就是一个HDFS目录
    lhc141  /user/hive/warehouse/mydb
    2. 表对应一个HDFS目录
    /user/hive/warehouse/mydb/t_user
    3. 表中的数据 对应的是 HDFS上的文件
     load data local inpath '/root/data3' into table t_user;
     bin/hdfs dfs -put /root/data3 /user/hive/warehouse/mydb/t_user
    
    
原文地址:https://www.cnblogs.com/lhc-hhh/p/10324490.html