Hive2.2.1概述（待重写）

概述

hive 是一个包裹着 hdfs 的壳子，hive 通过 hql，将 sql 翻译成 MR ，进行数据查询。

Hive是⼀个构建在Hadoop之上的数据仓库

hive的数据存在hdfs上，元信息放在metastore中，metastore也放在hdfs上

和传统的数据仓库⼀样，主要⽤来访问和管理数据，同样提供了类SQL查询语⾔

和传统数据仓库不⼀样，可以处理超⼤规模的数据，可扩展性和容错性⾮常强

举个直观一点的例子，一个MapReduce程序，需要写很多代码，但是我们可以在hive上使用一条sql来实现，比如

SELECT word, COUNT(*) FROM doc LATERAL VIEW explode(split(text, ' ')) lTable as word GROUP BY word;

hive会将上述sql翻译成MapReduce程序，帮我们跑，生活太美好了

Thrift是facebook开源的，支持任意语言的访问，如果你想让你的系统支持任意语言，那么就让你的系统支持Thrift的协议

sql-beeline（这个是轻量级）-hiveserver，他会和metastor交互，hiveserver进行语法解析，解析成语法树，变成查询计划，进行优化后，将查询计划交给执行引擎，默认是MR，然后翻译成mr，他会将sql发送到hiveserver上

sql-hive-metastore-mysql，这个是重量级，因为hive是在本地那里进行语法解析，翻译成mr

数据加载与插入语句，hive的load导入非常快，他不会对数据类型进行任何转换，而是在mr程序中进行校验，如果int但是值是string，则报错，如果本地load，则会把本地数据上传到hdfs上，如果load的是hdfs，则会复制一份到另一个hdfs的目录下

列式存储也可以按行读，只不过是拼接的开销大，不影响sql的编写

rc是一种非常经典的存储格式，可以查一下

支付宝的自己开发的一个系统oceanBase

OLAP的开源系统 greenplum/druid/kylin/presto(和他很像的是impala)/hive

create table table-test,的时候，不要把show create table table1的结果，复制到table-test的create语句，因为show table1里面有这个表在hdfs的地址，如果你删除table-test的时候，会删除table1，这时候就数据丢失，很严重

取整行的时候，行存储比列存储好，当你对事务要求高的时候，行存储比列存储适合

开源的etl工具，kettle，开源可视化，
ETL用hive就可以实现

我们希望日志，在flume进kafka之前就进行清洗，转换成java类对象，但这样比较难，岂不是自己写flume
可以这样做，flume先写进kafka，然后用etl工具去消费这个旧的topic，处理后，在写进kafka，用一个新的topic，然后下游就可以用了

myslq有个binlog，hbase的log是WAL Hlog

hive默认的mr并行个数是8

beeeline是官方推荐的，最好用这个，而不是hive方式

大数据方面的sort:merge sort，真是厉害

列式存储，是先按行切分，然后在block1中写入第一列的值，第二列的值

mysql中not in 比 not exists效率低，不过在hive中差不多，底层类似join

Hive典型应用场景

日志分析，统计⽹站⼀个时间段内的pv、uv，多维度数据分析，⼤部分互联⽹公司使⽤Hive进⾏⽇志分析，包括百度、淘宝等，海量结构化数据离线分析，低成本进⾏数据分析（不直接编写MR，简单的sql就直接查询不会走MR）

但是hive不是一个OLTP，也不是LOAP系统，响应时间慢，⽆法实时更新数据，对事务的⽀持很弱，表达能力弱，不⽀持迭代式计算，有些复杂运算⽤SQL不易表达

Hive的运行原理

sql发送给hive cli，从MetaStore获取一些元信息（列信息，表的位置信息，文件格式，序列化器，统计信息），然后会向yarn申请资源，去运行MapReduce，最后输出结果

Hive基本架构

⽤户接口，包括CLI，JDBC/ODBC，WebUI

元数据存储（metastore），默认存储在⾃带的数据库derby中，线上使⽤时⼀般换为MySQL

驱动器（Driver），解释器、编译器、优化器、执⾏器

Hadoop，⽤MapReduce 进⾏计算，⽤HDFS 进⾏存储

Hive CLI的内部组成

执行物理计划

可替换的执行引擎

执行引擎对比

Hive命令行访问

Hive CLI

– hive
– hive -h <host> -p <port>

Hive Beeline
– beeline -u jdbc:hive2://<host>:<port>

数据模型

database-table-partiton-file

Databases，Tables：和关系型数据库中的数据库、表⼀样

Partitions(可选)：⼀些特殊的列，⽤于优化数据的存储和查询

Files：实际数据的物理存储单元

数据类型

STRUCT、MAP、ARRAY是其他数据库没有的

两种分布式Join算法

Map-side Join（Broadcast join）
• Join操作在map task中完成，因此无需启动reduce task；
• 适合一个大表，一个小表的连接操作
• 思想：小表复制到各个节点上，并加载到内存中；大表分片，与小表完
成连接操作
Reduce-side Join（shuffle join）
• Join操作在reduce task中完成；
• 适合两个大表连接操作
• 思想：map端按照连接字段进行hash，reduce 端完成连接操作