Hive 视图索引

1.视图

视图保存一个查询，像通过一个表一样，对这个查询得到的结果进行操作（逻辑结构不物化），达到了降低查询复杂度的目的

如下是一个视图的构建，之后就可以像表一样操作这个视图了

create view xxx_xxx as
select .... from ... where time=...;

常见使用：

为了不让用户访问具有敏感数据的原始表，把部分数据作为一个视图供用户访问（create view safe_name_vinfo as select id,name from dim_user）
hive的map等破坏了第一范式，可以通过视图把map的数据拿出来，变成符合范式的表（view）

1.1原理：

视图中保存的是一推复杂的SQL语句，是一个懒执行，只有我们用到此视图的时候才会执行此复杂的SQL语句；主要操作是将这么长的SQL（数据表）与视图对应映射，每次查询这个视图就是执行了长的SQL语句。

因此视图不是物化，是一个查询语句的固化操作。Hive会先解析视图，而后通过解析结果再解析整个查询语句（查询&视图可能会被合并成一条）。且视图创建之后，只保存一份元数据，只有当查询视图时才执行对应的子查询

2.索引

当逻辑分区太多太细的时候，简历索引成为分区的另一种选择。底层文件更改了，索引不会自动重建，一般手动重建索引（原子性的，报错rollback）

建立索引本质上讲是指定列上建立索引，会产生一张索引表（Hive的一张物理表），里面的字段包括，索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量。在执行索引字段查询时候，首先额外生成一个MR job，根据对索引列的过滤条件，从索引表中过滤出索引列的值对应的hdfs文件路径及偏移量，输出到hdfs上的一个文件中，然后根据这些文件中的hdfs路径和偏移量，筛选原始input文件，生成新的split,作为整个job的split,这样就达到不用全表扫描的目的。

优点：避免全表扫描和资源浪费