Spark 的 RPC

什么是RPC

在Spark中很多地方都涉及网络通信，比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节

点间的Shuffle过程、Block数据的复制与备份等。

如果把分布式系统（HDFS, HBASE，SPARK等）比作一个人，那么RPC可以认为是人体的血液循环系

统。它将系统中各个不同的组件（如HBase中的master， Regionserver， client）联系了起来。同

样，在spark中，不同组件像driver，executor，worker，master（stanalone模式）之间的通信也是

基于RPC来实现的。

Spark 是一个通用的分布式计算系统，既然是分布式的，必然存在很多节点之间的通信，那么 Spark

不同组件之间就会通过 RPC（Remote Procedure Call）进行点对点通信。

总结

输。

Spark 1.6之前，Spark 的 RPC 是基于 Akaa 来实现的。

Spark1.6 后，Spark 借鉴 Akka 的设计自己实现了一个基于 Netty 的 rpc 框架。

Akka 在 Spark 2.0.0 版本中被移除了

在 Spark 2.0.0 使用的是基于Spark 内置 RPC 框架的NettyStreamManager。