spark学习指南

1 快速入门

官方快速入门文档:https://spark.apache.org/docs/3.1.1/quick-start.html

2 Spark原理

1.1 Spark Core

    1.1.1 Spark 内存管理

1、Spark Executor内存管理  http://arganzheng.life/spark-executor-memory-management.html

1.2 SparkSQL

  1.2.1 Spark SQL 特性

1) 动态分区裁剪(Dynamic Partition Pruning)

一文了解 Apache Spark 3.0 动态分区裁剪(Dynamic Partition Pruning)    https://mp.weixin.qq.com/s?__biz=MzA5MTc0NTMwNQ==&mid=2650718656&idx=1&sn=57de5460e470cb9e475799b972576463&chksm=887ddcb6bf0a55a0569c134bbfab39efd91fef01407df60c4e3681486856972b4e70c15a4b92&scene=21#wechat_redirect

一文了解 Apache Spark 3.0 动态分区裁剪的使用   https://zhuanlan.zhihu.com/p/92780641

2) 自适应 Adaptive Execution

SparkSQL的自适应执行-Adaptive Execution  https://blog.csdn.net/u013411339/article/details/107075125

1.3 SparkStreaming

1.4 Pyspark

1.5 Structured Streaming

1.6 Graphx 

1.7 MLLib

3 性能调优

1、官方调优指南  https://spark.apache.org/docs/3.1.1/tuning.html

2、Spark性能优化指南——基础篇(美团团队)  https://tech.meituan.com/2016/04/29/spark-tuning-basic.html

3、Spark性能优化指南——高级篇(美团团队)https://tech.meituan.com/2016/05/12/spark-tuning-pro.html

3 常见问题

1、数据倾斜 

Hive之数据倾斜原因及解决方法  http://blog.sina.com.cn/s/blog_7bbd4ce50102xer9.html3

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势  http://www.jasongj.com/spark/skew/

欢迎各路侠客多多指教^_^
原文地址:https://www.cnblogs.com/cailingsunny/p/14715582.html