Hive

1.内部表和外部表的区别？

　　在导入数据时，外部表并没有把数据移动到自己对应的数据仓库的目录下，也就说外部表中的数据并不是由它自己来管理的！

　　在删除表的时候，hive将会把属于表的元数据和数据全部删掉，而删除外部表的时候，hive仅仅删除外部表的元数据，数据是不会删除的。

2. hive四种排序方式的区别是什么？

order by：对输出结果进行全局排序，这就意味着只有一个reducer才能实现，但是数据量过大的时候，效率就很低。在严格模式下必须配合limit使用。

sort by：不是全局排序，只是在reducer之前完成排序，只保证了而每个reducer中数据按照指定字段进行排序，是局部排序。

distribute by：是按照指定字段划分到不同的reduce文件中，与sort by一起使用时应该注意，distribute by必须放在前面。

cluster by：可以看做是distribute by+sort by，它具备二者的功能，但是只能实现倒序排序。

3. 数据库和数据仓库的区别？

4.Hive中的数据倾斜问题都有哪些，怎么解决？

A：原因：

B：解决：

给key一个随机的值，打散key。
有数据倾斜的时候做负载均衡，设置hive.map.aggr=true，hive。groupby。skewindata=true。有数据倾斜的时候就进行负载均衡，生成的计划会有两个Mr Job。第一Job的map输出结果会随机分布到reduce中，每个reduce做部分聚合操作，并输出结果，这样处理的目的是Group By Key可能会分发到不同的Reduce中从而达到负载均衡的目的。第二个Job的目的是根据预处理的数据结果按照Group By Key分布到Reduce中，保证相同的Group By Key分布到同一个Reduce中，最终完成聚合操作。
SQL语句的调节：
- 选用join key分布最均匀的表作为驱动表
- 大小表join的时候，让维度较小的表先进内存，进行map端join。
- 大表join的时候，把空值的key变成一个字符串加上一个随机数，把倾斜的数据分布到不同的reduce上面。
- count distinct大量相同的特殊值。

5. Hive中Hive SQL转换成MR的过程

6. Hive中元数据保存方式有哪些？

7. Hive中的数据类型

简单数据类型：

复合类型：

8. 分区表和分桶表有什么区别？

分区：是按照数据表中的某列或者某些列分为多个区，区从形式上可以理解为文件夹。比如我们收集某些大型网站的日执行器，如果每天的日志数据都放在一张表，导致表数据内容巨大，在查询的时候会进行全表扫描。

分桶：分桶是对分区进行更细粒度的划分，分桶将数据表内容按照某列属性值的hash的属性值进行分区，如果按照name属性分为3个桶，就是对name属性值的hash值取模，按照取模结果对数据进行分桶。