第1章、Kafka概述

一、消息队列

1.1、消息队列的两种方式

(1)、点对点模式

　　（一对一，消费者主动拉取数据，消息收到后消息清除）：点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是如此。(这种方式缺点是需要有一个线程实时监听消息队列，消息的推送速度由客户端控制)

(2)、发布/订阅模式

　　（一对多，数据生产后，推送给所有订阅者）发布订阅模型则是一个基于推送的消息传送模型。发布订阅模型可以有多种不同的订阅者，临时订阅者只在主动监听主题时才接收消息，而持久订阅者则监听主题的所有消息，即使当前订阅者不可用，处于离线状态。(感知不到消费者的接收速度，可能造成消费者的资源浪费)

　　1、队列主动推送：各个消费者的接受速度不一致，容易导致资源浪费。

　　2、消费者主动拉取数据(kafka)：消费者的消费速度由自己决定，缺点是：消费者需要长轮询去监控新消息的产生。长时间没有新消息时，浪费资源

1.2、使用消息队列的好处

1、解耦：

　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。

2、冗余（保存数据）：

　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。

3、扩展性（集群）：

　　因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。

4、灵活性 & 峰值处理能力（集群使得处理数据能力提升）：

　　在访问量剧增的情况下，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费。使用消息队列能够使关键组件顶住突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。

5、可恢复性（数据可备份，丢失可恢复）：

　　系统的一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，所以即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。

6、顺序保证（队列数据有序）：

　　在大多使用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。（Kafka保证一个Partition内的消息的有序性）

7、缓冲

　　有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。更多的是解决生产速度大于消费速度。

8、异步通信

　　很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

二、Kafka架构

　　Kafka 是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域,由Scala写成。Kafka对消息保存时根据Topic进行归类。

　　Kafka详细架构图

　　同一个消费者组的消费者不能同时消费同一个分区。消息生产者，就是向kafka broker发消息的客户端；

Producer	消息生产者，就是向kafka broker发消息的客户端；
Consumer	息消费者，向kafka broker取消息的客户端；
Topic	可以理解为一个队列；每个topic(如果很大)可以分很多个分区来存储，每个分区又可以有多个副本（leader/follower:生产者和消费者只和leader交互，不和follower交互。）
Consumer Group （CG）	这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（不是真的复制，是概念上的）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic；
Broker	一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；
Partition（分区）	为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；提高负载能力，和并发度。
Offset	数据文件的名称。kafka的存储文件都是按照offset.kafka来命名，用offset做名字的好处是方便查找。例如你想找位于2049的位置，只要找到2048.kafka的文件即可。第一个offset是00000000000.kafka。
replication	副本（follower/leader都是副本）