20210715 学习就是持续总结套路

你自己不用总结概念性东西,尚硅谷都给你总结好了。

看源码的套路,源码就是一个方法套一个方法,真正干事的就一两个屈指可数的方法,一直点就行了,只要了解大概是在干啥就行。

比较容易混淆的几点:

1.MapTask并行度:也就是启动了几个Map任务。

数据块和切片的区别:真实存储的是数据块,切片只是逻辑上的概念,每一个切片对应一个MapTask,所以切片数量决定了启动几个MapTask。

2.Job提交流程的源码:如何把一个任务提交给集群,这块很乱啊,有时间再重新看下源码,现在大概知道咋回事就行。

(1)首先是创建和集群的连接,要判断下是跟远程yarn集群连接还是本地集群。

(2)提交job,这里会先创建一个临时路径,把材料准备好才会提交任务给集群。先申请一个job的ID,然后把jar包(如果是提交给yarn集群)、切片信息、所有集群配置的文件都拷贝到临时路径,最后提交。

原文地址:https://www.cnblogs.com/gen2122/p/15016565.html