大数据-hive理论(4)运行方式及优化

本章分享的目录：

　　1：执行

　　　　第一节：运行方式

　　2：优化

　　　　第二节：hive优化

第一节：hive运行方式

　　（1）：命令行：cli：不是特别常用

　　　　　　与hdfs交互（执行执行dfs命令）：

　　　　　　　　例：dfs –ls /

　　　　　　与Linux交互（！开头）：

　　　　　　　　例： !pwd

　　（2）：脚本运行：应用做多的

　　　　　　hive -e "" //""里面可以放sql语句等可以执行的一些操作（重点），如果是执行的多个中间用 ; 隔开

　　　　　　hive -e "" > aaa //执行的””中的内容，重定向到aaa （execute执行）

　　　　　　hive -S -e "" > aaa // -S静默输出

　　　　　　hive -f file //将要执行的放在文件file中，执行这个文件（重点）

　　　　　　hive -i file //同上执行，但是执行之后返回在hive的命令行模式下

　　（3）：JDBC：hiveserver2

　　（4）：web GUI接口：hwi,hue等（很少会用）

　　　　　　Hive Web GUI接口

　　　　　　　　4.1　web界面安装：

　　　　　　　　　　下载源码包apache-hive-*-src.tar.gz

　　　　　　　　　　将hwi war包放在$HIVE_HOME/lib/

　　　　　　　　　　　　制作方法：将hwi/web/*里面所有的文件打成war包

　　　　　　　　　　　　cd apache-hive-1.2.1-src/hwi/web

　　　　　　　　　　　　jar -cvf hive-hwi.war *

　　　　　　　　　　复制tools.jar(在jdk的lib目录下)到$HIVE_HOME/lib下

　　　　　　　　　　修改hive-site.xml

　　　　　　　　　　启动hwi服务(端口号9999)

　　　　　　　　　　　　hive --service hwi

　　　　　　　　　　浏览器通过以下链接来访问

　　　　　　　　　　　　http://node3:9999/hwi/

　　　　　　　4.2　修改hive配置文件hive-site.xml添加以下配置内容：

<property>
    <name>hive.hwi.listen.host</name>
    <value>0.0.0.0</value>
</property>

<property>
    <name>hive.hwi.listen.port</name>
    <value>9999</value>
</property>

<property>
    <name>hive.hwi.war.file</name>
    <value>lib/hive-hwi.war</value>
</property>

第二节：hive优化（与sql一起放在文件中去执行）

　　1、Hive 优化

　　　　核心思想：把Hive SQL 当做Mapreduce程序去优化（因为最终是转成MR）

　　　　以下SQL不会转为Mapreduce来执行（实际上是执行的，但没必要，所以通过hive.fetch.task.conversio=more(默认)/none给做了配置了）

　　　　　　select仅查询本表字段

　　　　　　where仅对本表字段做条件过滤

　　2、Explain 显示执行计划（显示转换成MR执行的过程）（通过看这个过程，可以找到我要调优的地方）

　　　　EXPLAIN [EXTENDED（加上这个之后更加的详细了）] query

　　3、Hive运行方式：

　　　　本地模式

　　　　集群模式

　　　　3.1　本地模式

　　　　　　　　开启本地模式：

　　　　　　　　　　set hive.exec.mode.local.auto=true;

　　　　　　　　　　注意：

　　　　　　　　　　　　hive.exec.mode.local.auto.inputbytes.max默认值为128M

　　　　　　　　　　　　表示加载文件的最大值，若大于该配置仍会以集群方式来运行！

　　4、并行计算

　　　　通过设置以下参数开启并行模式：

　　　　set hive.exec.parallel=true;

　　　　注意：hive.exec.parallel.thread.number，默认8个（一次SQL计算中允许并行执行的job个数的最大值）

　　5、严格模式（提高检索的效率）

　　　　通过设置以下参数开启严格模式：

　　　　set hive.mapred.mode=strict（默认为：nonstrict非严格模式）；

　　　　　　strict（严格模式）会有查询限制：

　　　　　　1、对于分区表，必须添加where对于分区字段的条件过滤；

　　　　　　2、order by语句必须包含limit输出限制；

　　　　　　3、限制执行笛卡尔积的查询(两个集合之间的相互遍历)。

　　6、Hive排序（不用order by了，用sort by , distribute by）

　　　　Order By - 对于查询结果做全排序，只允许有一个reduce处理

　　　　　　（当数据量较大时，应慎用。严格模式下，必须结合limit来使用）

　　　　Sort By - 对于单个reduce的数据进行排序（局部排序）

　　　　Distribute By - 分区排序，经常和Sort By结合使用

　　　　Cluster By - 相当于 Sort By + Distribute By

　　　　　　（Cluster By不能通过asc、desc的方式指定排序规则；可通过 distribute by column sort by column asc|desc 的方式）

　　7、Hive Join

　　　　Join计算时，将小表（驱动表）放在join的左边

　　　　MapJoin：在Map端完成Join（小表加到内存，大表用map去读，大表中的数据去跟内存中的小表做数据匹配）

　　　　　　两种实现方式：

　　　　　　1、SQL方式，在SQL语句中添加MapJoin标记（mapjoin hint）

　　　　　　　　语法：

　　　　　　　　SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value

　　　　　　　　FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key;

　　　　　　2、开启自动的Map Join

　　　　　　　　2.1　通过修改以下配置启用自动的map join：

　　　　　　　　　　　　set hive.auto.convert.join = true;（该参数为true时，Hive自动对左边的表统计量，如果是小表就加入内存，即对小表使用Map join）

　　　　　　　　2.2　相关配置参数：

　　　　　　　　　　　　hive.mapjoin.smalltable.filesize; （只对左表做判断）

　　　　　　　　　　　　（大表小表判断的阈值，如果表的大小小于该值则会被加载到内存中运行）

　　　　　　　　　　　　hive.ignore.mapjoin.hint；

　　　　　　　　　　　　（默认值：true；是否忽略mapjoin hint 即对小表的判断优先于mapjoin标记方式）

　　　　　　　　　　　　hive.auto.convert.join.noconditionaltask;

　　　　　　　　　　　　（默认值：true；将普通的join转化为普通的mapjoin时，是否将多个mapjoin转化为一个mapjoin）

　　　　　　　　　　　　hive.auto.convert.join.noconditionaltask.size;

　　　　　　　　　　　　（将多个mapjoin转化为一个mapjoin时，其表的最大值）

　　　　　　　　2.3　Hive Join

　　　　　　　　　　　　尽可能使用相同的连接键（一个连接键会转化为一个MapReduce作业）

　　　　　　　　2.4　大表join大表

　　　　　　　　　　　　　　空key过滤(where key is not null)：有时join超时是因为某些key对应的数据太多，而相同key对应的数据都会发送到相同的reducer上，从而导致内存不够。

　　　　　　　　　　　　此时我们应该仔细分析这些异常的key，很多情况下，这些key对应的数据是异常数据，我们需要在SQL语句中进行过滤。

　　　　　　　　　　　　　　空key转换：有时虽然某个key为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在join的结果中，此时我们可以表a中key为空的字段

　　　　　　　　　　　　赋一个随机的值，使得数据随机均匀地分不到不同的reducer上

　　8、Map-Side聚合 https://blog.csdn.net/qq_35036995/article/details/80298403

　　　　8.1　通过设置以下参数开启在Map端的聚合：

　　　　　　　　set hive.map.aggr=true;默认是打开的

　　　　8.2　相关配置参数：

　　　　　　hive.groupby.mapaggr.checkinterval：

　　　　　　　　map端group by执行聚合时处理的多少行数据（默认：100000）

　　　　　　hive.map.aggr.hash.min.reduction：

　　　　　　　　进行聚合的最小比例（预先对100000条数据做聚合，若聚合之后的数据量/100000的值大于该配置，默认0.5，则不会聚合）

　　　　　　hive.map.aggr.hash.percentmemory（不重要）：

　　　　　　　　map端聚合使用的内存的最大值

　　　　　　hive.map.aggr.hash.force.flush.memory.threshold（不重要）：

　　　　　　　　map端做聚合操作是hash表的最大可用内容，大于该值则会触发flush

　　　　　　hive.groupby.skewindata

　　　　　　　　是否对GroupBy产生的数据倾斜做优化，默认为false

　　9、合并小文件

　　　　9.1　文件数目小，容易在文件存储端造成压力，给hdfs造成压力，影响效率

　　　　9.2　设置合并属性

　　　　　　是否合并map输出文件：hive.merge.mapfiles=true

　　　　　　是否合并reduce输出文件：hive.merge.mapredfiles=true;

　　　　　　合并文件的大小：hive.merge.size.per.task=256*1000*1000

　　　　9.3　去重统计

　　　　　　　　数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，

　　　　　　就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换

　　10、控制Hive中Map以及Reduce的数量（如何设置map与reduce）

　　　　　　10.1　Map数量相关的参数（切片-->节点-->机架，逐级处理的）

　　　　　　　　　　mapred.max.split.size

　　　　　　　　　　　　一个split的最大值，即每个map处理文件的最大值

　　　　　　　　　　mapred.min.split.size.per.node

　　　　　　　　　　　　一个节点上split的最小值

　　　　　　　　　　mapred.min.split.size.per.rack

　　　　　　　　　　　　一个机架上split的最小值

　　　　　　10.2　Reduce数量相关的参数

　　　　　　　　　　mapred.reduce.tasks

　　　　　　　　　　　　强制指定reduce任务的数量

　　　　　　　　　　hive.exec.reducers.bytes.per.reducer

　　　　　　　　　　　　每个reduce任务处理的数据量

　　　　　　　　　　hive.exec.reducers.max

　　　　　　　　　　　　每个任务最大的reduce数

　　11、Hive - JVM重用（如何准确的设置task数量）

　　　　11.1　适用场景：

　　　　　　1、小文件个数过多

　　　　　　2、task个数过多

　　　　11.2　通过 set mapred.job.reuse.jvm.num.tasks=n; 来设置（n为task插槽个数）

　　　　11.3　缺点：设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！