kafka -- kafaka介绍

首先了解一下消息队列。

对于传统消息队列,遇到下述情况,可以使用消息队列进行改造。

那么使用消息队列的好处?

1.解耦,可以独立扩展以及修改两边的处理过程,只需要确保接口的一致性即可, 

2.可恢复性,当系统中一部分组件失效时候,不会影响整个系统,消息队列降低了程序之间的耦合度,因此当处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复之后被处理

举个例子:对于电商系统的订购,对于常规操作,可能订单系统在在调用库存系统时,由于库存系统故障,导致订单创建失败,订单系统与库存系统高度耦合

 那么引入消息队列,订单系统创建订单完成之后,将减少库存放入消息队列中,就算库存系统崩溃,订单系统也可以完成创建,并且在库存系统启动之后读取消息队列中的信息,完成较少库存任务。

 3.流量削峰,在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这个突发流量并不常见,如果以能处理这类的访问标准来投入资源随时待命,这就是巨大的浪费,当然对于可预见的比如双十一,这个增加应用的副本数量无疑对用户体检以及访问速度会提升很多。对于这种情况,消息队列可以换件短时间内高流量压垮应用。

举个例子,例如秒杀活动,有时候会瞬间带来超大的用户访问量,这个时候容易造成服务器瘫痪,这个时候引入消息队列,秒杀系统逐步处理消息队列中情况,可以短时间缓解系统压力

 4.异步通信,有时候对于产生出的消息,用户并不想立即进行处理,这个石斛可以放入消息队列中,以后想处理的时候在进行处理。

消息队列分为两种模式:

1.点对点模式,也即是P2P(point to point)

 这种模式分为三个角色:消息队列(Message Queue),生产者(producer),消费者(consumer),每个消息发送到特定队列,消费者从队列中获取消息,直到被消费或者超时
也就是说消息被消费之后,消息队列中不再存储消息,所以消费者不可能消费者已经被消费的消息。 

2. 发布/订阅模式,也就是Pub/Sub模式

这个包含三个角色:主题(Topic),生产者(producer),消费者(consumer)。多个消费者可以将消息发送到Topic中,系统将这些消息传递给多个消费者。

发不到Topic的消息会被所有的订阅者消费

kafka就是一个发布订阅的模式。看一下kafka的官方介绍

kafka是一个分布式流数据处理平台,那么流数据处理平台一般都有下述三个特性

1.可以发布以及订阅流式的记录

2.储存流式的记录,并且有较好的容错性

3.在流式记录产生时就进行处理

那么kafka一般适用于的应用类别:

1.构造实时流数据管道,可以在系统或者应用之间可靠的获取数据

2.构建实时流式应用程序,对这些流数据进行转换或者影响。

kafka的概念:

1.kafka作为一个集群,运行在一台或者多台服务器上

2.kafka通过topic对存储的流数据进行分类

3.每条记录包含一个key,一个value和一个timestamp(时间戳)

kafka的四个核心API:

1. The Producer API 允许一个应用程序发布一串流式的数据到一个或者多个kafka topic

2.The Consumer API 允许一个应用程序订阅一个或多个topic,并且对发布给他们的流式数据进行处理

3.The Streams API 允许一个应用程序作为一个流处理器,消费一个或者多个topic产生的输入流,然后生产一个输出流到一个或者多个topic中去,在输入输出流中进行有效的转换

4.The Connector API 允许构建并运行可重用的生产者或消费者,将kafka topics连接到已存在的应用程序挥着数据吸用。比如连接到一个关系型数据库,捕捉表的所有变更内容。

kafka客户端以及服务端通信使用的是简单,高性能支持多语言的TCP协议 。

Kafka的基础架构:

1.Producer:消息生产者,也就是向kafka broker发消息的客户端

2.Consumer:消息消费者,从kafka broker中去消息的客户端

3.Consumer Group:消费者组,由多个consumer组成。消费这组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费,消费组之间互不影响。所有的消费者都属于某个消费组,也就是消费者组在逻辑上其实是一个订阅者

4.Broker:一台kafka服务器就是一个broker,一个集群由多个broker组成,一个broker可以融安多个topic

5.Topic:相当于一个队列,生产者以及消费者面向的都是一个topic

6.Partition:分区。主要是为了实现可扩展性,一个非常大的topic可以分布到多个broker上,一个topic可以分为多个partition,每个partition都是一个有序的队列

7.Replica:副本,为保证集群中的某个节点发生故障,这个节点的partition数据不对事,并且kafka仍可以进行正常工作,kafka提供了副本机制,一个topic的每个分区可以有若干个副本,一个leader和若干个follower,leader与follower不再同一个服务器上,部署在一个服务器上没有意义,因此副本数量加上leader一般小于等于服务器数量

8.leader:每个分区多个副本的“主”,生产这发送数据的对象,以及消费者消暑数据的对象都是leader

9.follower:每个分区多个副本的“从”,实时从leader中同步数据,保持和leader数据的同步。leader发生故障是,某个follower会成为新的leader。

 

原文地址:https://www.cnblogs.com/yangshixiong/p/12652204.html