spark错误集

1、ExitCodeException exitCode=13

spark-submit 命令提交的代码中master设置的是"local[6]" ，应该设置为”yarn" ;

2、外部声明对象，而后在转换操作中搜集数据，最后再处理，这种思路的问题

最后你会发现啥也没搜集到，用于收集数据的对象是空的！！！

3、转换操作中使用SparkContext、SQLContext的问题

有时候出于想使用相关功能的原因，比如使用SQLContext的createDataFrame方法来构建DataFrame，而在转换操作内使用SQLContext，在spark集群上运行程序就会报类似错误： Failed to get broadcast_32_piece0 of broadcast_32

4、Reason: Executor heartbeat timed out

--conf spark.network.timeout 10000000 --conf spark.executor.heartbeatInterval=10000000   --conf spark.driver.maxResultSize=4g

refer https://stackoverflow.com/questions/54036028/spark-executor-heartbeat-timed-out-after-x-ms

5、INFO JobScheduler: Added jobs for time 1571975755000 ms

spark streaming 应用一直刷类似的日志。一个stream对应一个reciever，由于stream是常驻的，所以一个需要占用一个core，如果是多stream应用，应该是集群上你分配给应用的core数量不够用，如果是本地模式 master=local[n] ，n需要取大点不要是1！

按理说单stream不会出现这样类似问题，但实际情况遇到了，就是spark streaming kafka DirectStream 的应用场景，通过查看监控页面发现有一半的executor dead ，解决就好了。

6、

Exception in thread "Thread-3" com.esotericsoftware.kryo.KryoException: java.util.ConcurrentModificationException
Serialization trace:
classes (sun.misc.Launcher$AppClassLoader)
classloader (java.security.ProtectionDomain)
context (java.security.AccessControlContext)
acc (org.apache.spark.util.MutableURLClassLoader)
classLoader (org.apache.hadoop.conf.Configuration)
conf (com.chinapex.etl.kafka.model.ParquetWriterConfig)
parquetWriterConfig (com.mycompany.data.kafka.model.SparkDataExecutorArgs)
at com.esotericsoftware.kryo.serializers.ObjectField.write(ObjectField.java:101)

...

场景：spark streaming 应用中使用广播变量时报错，

解决：原因是广播变量中包含有未或未可序列化的对象。找出来，实现序列化即可。

7、