Hadoop ->> HIVE

HIVE的由来：

最初由Facebook基于HDFS开发出来的一套数据仓库工具。

HIVE可以干什么？

HIVE可以将已经结构化的数据映射成一张表，然后可以使用HIVE语言像写T-SQL一样查询数据。而实际上，最后的HQL语句是被解析成了MapReduce任务去执行数据抽取、转换和加载工作。

HIVE的特点：

特点就是开发成本和学习成本低。只要你会写T-SQL你就会写HQL。因为如果我们要去提取HBase的文件块或者HDFS的文件来分析数据，就必须写复杂的MapReduce过程，但是如果用HIVE，它就帮你干了生成MapReduce过程这事。可以这么理解，HIVE就是一个SQL接口，可以方便我们查询HDFS的数据。百度百科上把它定义为数据仓库工具，准确一点说它是一个BI的分析工具。为什么这么讲？因为它身上的缺点决定了它只是一个BI的分析工具。缺点就是HIVE的数据不可更改，HDFS的文件是怎样它就是怎样。它只是把HDFS的数据复制到表所在的HDFS目录中，然后再用MapReduce方法操作数据。这就决定两点，首先是延迟或者无法实时查询数据。

HIVE数据管理：

可以这么理解，HIVE具备了关系数据库的许多特性，诸如像表、执行计划和T-SQL语法。当然不同的是，最后HIVE去操作的是HDFS的文件，而不是像SQL SERVER下面的页。那么也就不难理解HIVE的数据管理了：元数据存储、数据存储、用户接口和（解析器、编译器、优化器）。

元数据存储：和关系数据库中元数据一样，记录着表的结构信息和属性，比如表所在的目录，表是否为外部表，还有像分区的信息。这部分信息是存在MySQL或者Derby中的。

数据存储：和关系数据库不一样的是，HIVE的数据是没有类型的，也可以理解就是全部都是字符，栏位是通过列分隔符，行是通过行分隔符区分的。它就像ETL中加载一个平面文件，我们需要制定特定的分隔符才可以解析文件中的数据并加载到目标表中去。那说到了数据存储，HIVE中的数据存储逻辑单位又是怎样的呢？和关系数据库有什么相同点和区别的？HIVE的数据存储模型分为：Table、External Table、Partition和Bucket。可以说如果你了解SQL Server或者Oracle这样的数据库，基本上你就明白了。

Table：也就是关系数据库的表，这点没什么讲的。唯一一点需要讲的就是Table对应了HDFS下的一个目录。

External Table：和Oracle下的External Table概念是一样的。也就是说表不是来源于HDFS或者HBase的文件，数据是外部源的。这里我还没学到。估计也是和Oracle一样支持像Excel这种外部文件。

Partition和Bucket：为什么把两个一块讲呢？因为他们有相似的地方，就是通过一种维度把Table的数据分割开来存储。Partition和SQL Server下的Partition是相似的，SQL Server下每个Partition对应着一个B-tree，而这里每个Partition则对应着一个目录。而Bucket则和Oracle的Hash分区相似，就是将表的数据进行水平拆分，这点Teradata这样的分布式关系数据库也是利用了Hash算法对数据进行均匀拆分。Partition和Bucket都是拆分数据，不同的是Partition属于range拆分或者说不均匀拆分，拆分后的数据分区数量取决于选定的栏位的数据分布，容易出现数据分布不均匀。而Bucket则是均匀拆分的特点，而且数据还是离散分布的，不会像Partition那样是聚集的。

用户接口：Web界面，数据库连接接口这些都归为用户接口；

解析器、编译器、优化器：解析器对客户端提交的HQL语句进行语法检查、语义检查；编译器把HQL编译后转换成MapReduce任务；优化器寻求最优计划，比如是否要并行之类。