spark开发常见问题

1、spark中一个job中的某个task卡顿不动了：

https://blog.csdn.net/fct2001140269/article/details/103732120

解决思路：

（1）是否有数据倾斜的可能。

（2）查看cpu，内存是否异常，cpu是否被打满，若被打满，查看到底是哪个进程的哪个线程导致的，对应的去修改代码。

https://blog.csdn.net/Aeve_imp/article/details/107644922?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param

2、spark中如何取定位数据倾斜：

（1）查看web ui界面，查看task执行时间、task执行的数据量。若个别的task执行时间较长且数据量很大，通过这两点基本上可以断定是数据倾斜。

（2）具体是哪个key导致的数据倾斜，若是hive数据源，可以在hive中查询各个key的条数。也可以在程序中，使用countByKey，然后collect到driver端，从而得到各个key的数量。

https://www.jianshu.com/p/c412d11b1ffa

3、spark中上个stage的task都运行完了，但是下一个stage却一直不开始

可能是遇到了shuffle gc

4、jvm 报stack overflow的错误

　　在读数据的时候，每读一千条，生成一个rdd，然后将其和之前的rdd进行union合并，会出现stack overflow的错误，因为union是转换操作，所以合并是最后执行的，底层就是递归，不断的调用parrentRDD，一直调用到最初的那个RDD返回。合并3000次，就是三千个栈空间，就会导致栈溢出。

　　解决方式就是避免去union，换一种方式，如用集合存储每次的一千条数据，攒起来，再进行批处理。集合用的是堆内存，也有上限。这也是不能用spark api去读数据的情况下的没有办法的办法。