Kafka核心技术与实战——13 | Java生产者是如何管理TCP连接的?

  • 为何采用 TCP?
    • Apache Kafka 的所有通信都是基于 TCP 的
      • 而不是基于 HTTP 或其他协议
      • 无论是生产者、消费者,还是 Broker 之间的通信都是如此
    • 人们能够利用 TCP 本身提供的一些高级功能,比如多路复用请求以及同时轮询多个连接的能力
      • 所谓的多路复用请求,即 multiplexing request,是指将两个或多个数据流合并到底层单一物理连接中的过程
      • TCP 的多路复用请求会在一条物理连接上创建若干个虚拟连接,每个虚拟连接负责流转各自对应的数据流
      • 作为一个基于报文的协议,TCP 能够被用于多路复用连接场景的前提是,上层的应用协议(比如 HTTP)允许发送多条消息
  • Kafka 生产者程序概览
    • 通常我们开发一个生产者的步骤有 4 步。
      • 第 1 步:构造生产者对象所需的参数对象。
      • 第 2 步:利用第 1 步的参数对象,创建 KafkaProducer 对象实例。
      • 第 3 步:使用 KafkaProducer 的 send 方法发送消息。
      • 第 4 步:调用 KafkaProducer 的 close 方法关闭生产者并释放各种系统资源。
    • 当我们开发一个 Producer 应用时,生产者会向 Kafka 集群中指定的主题(Topic)发送消息,这必然涉及与 Kafka Broker 创建 TCP 连接
  • 何时创建 TCP 连接?
    • 在创建 KafkaProducer 实例时,生产者应用会在后台创建并启动一个名为 Sender 的线程,该 Sender 线程开始运行时首先会创建与 Broker 的连接
      • TCP 连接是在创建 KafkaProducer 实例时建立的
      • TCP 连接还可能在两个地方被创建:一个是在更新元数据后,另一个是在消息发送时
    • 接下来,我们来看看 Producer 更新集群元数据信息的两个场景。
      • 场景一:当 Producer 尝试给一个不存在的主题发送消息时,Broker 会告诉 Producer 说这个主题不存在。此时 Producer 会发送 METADATA 请求给 Kafka 集群,去尝试获取最新的元数据信息。
      • 场景二:Producer 通过 metadata.max.age.ms 参数定期地去更新元数据信息。该参数的默认值是 300000,即 5 分钟,也就是说不管集群那边是否有变化,Producer 每 5 分钟都会强制刷新一次元数据以保证它是最及时的数据。
  • 何时关闭 TCP 连接?
    • Producer 端关闭 TCP 连接的方式有两种:一种是用户主动关闭;一种是 Kafka 自动关闭。
    • 我们先说第一种。
      • 这里的主动关闭实际上是广义的主动关闭,甚至包括用户调用 kill -9 主动“杀掉”Producer 应用
      • 当然最推荐的方式还是调用 producer.close() 方法来关闭。
    • 第二种是 Kafka 帮你关闭
      • 这与 Producer 端参数 connections.max.idle.ms的值有关。
      • 默认情况下该参数值是 9 分钟,即如果在 9 分钟内没有任何请求“流过”某个 TCP 连接,那么 Kafka 会主动帮你把该 TCP 连接关闭
  • 小结
    • Java Producer 端管理 TCP 连接的方式是:
      • 1、KafkaProducer 实例创建时启动 Sender 线程,从而创建与 bootstrap.servers 中所有 Broker 的 TCP 连接。
      • 2、KafkaProducer 实例首次更新元数据信息之后,还会再次创建与集群中所有 Broker 的 TCP 连接。
      • 3、如果 Producer 端发送消息到某台 Broker 时发现没有与该 Broker 的 TCP 连接,那么也会立即创建连接。
      • 4、如果设置 Producer 端 connections.max.idle.ms参数大于 0,则步骤 1 中创建的 TCP 连接会被自动关闭;如果设置该参数 =-1,那么步骤 1 中创建的 TCP 连接将无法被关闭,从而成为“僵尸”连接
原文地址:https://www.cnblogs.com/minimalist/p/12888399.html