Kafka架构深入：Kafka 工作流程及文件存储机制

kafka工作流程：

每个分区都有一个offset消费偏移量，kafka并不能保证全局有序性。

　　Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic 的。（文件topic_partition命名）

　　topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该 log 文件末端，且每条数据都有自己的 offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。

log中存的是实际数据，默认存储7天。

xxxxx.log文件

xxxxx.index文件

log.segment.bytes=1073741824 (1G)

1、当超过1G，会再建一个新的xxxxxxxxx.log数据文件。（一个segment）

2、如何在文件中快速定位到消费者需要的数据（xxxxx.index文件）

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment 对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名规则为:topic 名称+分区序号。例如，first 这个 topic 有三个分区，则其对应的文件夹为 first- 0,first-1,first-2。

00000000000000000000.index

00000000000000000000.log

00000000000000170410.index

00000000000000170410.log

00000000000000239430.index

00000000000000239430.log （239430当前log文件中数据最小偏移量）

index 和 log 文件以当前 segment 的第一条消息的 offset 命名。下图为 index 文件和 log 文件的结构示意图。

“.index”文件存储大量的索引信息，“.log”文件存储大量的数据，索引文件中的元数据指向对应数据文件中 message 的物理偏移地址。（先通过二分查找，找到消息在某个xxxx.log文件，再去xxxx.index去找消息开头在log中的物理偏移地址）

index文件中每项数据大小一样，不仅存储了每条messge的起始位置，还有每条消息的大小：上图未画出。利用起始位置+消息大小，读取整个消息