什么是 Hive？

Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序运行的是YARN。

构建在Hadoop之上的数据仓库：

　　使用 HQL 作为查询接口

　　使用 HDFS 存储

　　使用 MapReduce 计算

本质是：将 HQL 转化成 MapReduce 程序

Hive架构

用户接口:Client

CLI（hive shell）、JDBC/ODBC（Java访问hive），WEBUI（浏览器访问hive）

元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

默认存储在自带的derby数据库中，推荐采用MySQL存储Metastore

Hadoop

使用HDFS进行存储，使用MapReduce进行计算

驱动器：Driver

包含：解析器、编译器、优化器、执行器

解析器：将SQL字符串转换成抽象语法AST，这一步地般用第三方工具完成，比如antlr，对AST进行语法分析，比如表是否存在、字段是否存在、主义是否有误（比如select 中被判定为聚合的字段在group by中是否出现）

编译器：将AST编译生成逻辑执行计划

优化器：对逻辑执行语计划进行优化

执行器:把逻辑执行计划转换成可以运行的物理计划。对于Hive 来说，就是MR/TEZ/Spark

数据的离线处理：比如：日志分析，海量结构化数据离线分析...

Hive的执行延迟比较高，因此hive常用于数据分析的，对实时性要求不高的场合

Hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高

Hive 将元数据存储在数据库中(metastore)，目前只支持 mysql、derby。