spark错误集

1、ExitCodeException exitCode=13

spark-submit  命令提交的代码中master设置的是"local[6]" ,应该设置为”yarn" ;

2、外部声明对象,而后在转换操作中搜集数据,最后再处理,这种思路的问题

最后你会发现啥也没搜集到,用于收集数据的对象是空的!!!

3、转换操作中使用SparkContext、SQLContext的问题

有时候出于想使用相关功能的原因,比如使用SQLContext的createDataFrame方法来构建DataFrame,而在转换操作内使用SQLContext,在spark集群上运行程序就会报类似错误:  Failed to get broadcast_32_piece0 of broadcast_32 

4、Reason: Executor heartbeat timed out 

--conf spark.network.timeout 10000000 --conf spark.executor.heartbeatInterval=10000000   --conf spark.driver.maxResultSize=4g 
 
5、INFO JobScheduler: Added jobs for time 1571975755000 ms
  spark streaming 应用一直刷类似的日志。一个stream对应一个reciever,由于stream是常驻的,所以一个需要占用一个core,如果是多stream应用,应该是集群上你分配给应用的core数量不够用,如果是本地模式 master=local[n] ,n需要取大点 不要是1!
  按理说单stream不会出现这样类似问题,但实际情况遇到了,就是spark streaming kafka DirectStream 的应用场景,通过查看监控页面发现有一半的executor dead ,解决就好了。
 
6、

Exception in thread "Thread-3" com.esotericsoftware.kryo.KryoException: java.util.ConcurrentModificationException
Serialization trace:
classes (sun.misc.Launcher$AppClassLoader)
classloader (java.security.ProtectionDomain)
context (java.security.AccessControlContext)
acc (org.apache.spark.util.MutableURLClassLoader)
classLoader (org.apache.hadoop.conf.Configuration)
conf (com.chinapex.etl.kafka.model.ParquetWriterConfig)
parquetWriterConfig (com.mycompany.data.kafka.model.SparkDataExecutorArgs)
at com.esotericsoftware.kryo.serializers.ObjectField.write(ObjectField.java:101)

...

 
 场景:spark streaming 应用中使用广播变量时报错,
解决:原因是广播变量中包含有未或未可序列化的对象。找出来,实现序列化即可。
 
7、
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
原文地址:https://www.cnblogs.com/mylittlecabin/p/11700277.html