kafka集群搭建

一、kafka优点

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘，并且支持数据备份防止数据丢失
容错性：允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）
高并发：支持数千个客户端同时读写

二、kafka的名词解释

Broker：Kafka节点，一个Kafka节点就是一个broker，多个broker可以组成一个Kafka集群。
Topic：一类消息，消息存放的目录即主题，例如page view日志、click日志等都可以以topic的形式存在，Kafka集群能够同时负责多个topic的分发。
massage： Kafka中最基本的传递对象。
Partition：topic物理上的分组，一个topic可以分为多个partition，每个partition是一个有序的队列。
Segment：partition物理上由多个segment组成，每个Segment存着message信息。
Producer : 生产者，生产message发送到topic。
Consumer : 消费者，订阅topic并消费message, consumer作为一个线程来消费。
Consumer Group：消费者组，一个Consumer Group包含多个consumer。
Offset：偏移量，理解为消息partition中的索引即可

三、kafka存储策略

kafka以topic来进行消息管理，每个topic包含多个partition，每个partition对应一个逻辑log，有多个segment组成。
每个segment中存储多条消息（见下图），消息id由其逻辑位置决定，即从消息id可直接定位到消息的存储位置，避免id到位置的额外映射。
每个part在内存中对应一个index，记录每个segment中的第一条消息偏移。
发布者发到某个topic的消息会被均匀的分布到多个partition上（或根据用户指定的路由规则进行分布），broker收到发布消息往对应partition的最后一个segment上添加该消息，当某个segment上的消息条数达到配置值或消息发布时间超过阈值时，segment上的消息会被flush到磁盘，只有flush到磁盘上的消息订阅者才能订阅到，segment达到一定的大小后将不会再往该segment写数据，broker会创建新的segment。

四、kafka集群搭建

tar -zvxf kafka_2.11-2.3.0.tgz
mv kafka_2.11-2.3.0/ kafka1/
cp -r kafka1/   kafka2/
cp -r kafka1/   kafka3/

4.kakfa配置参数详解

参数	说明
delete.topic.enable=true	是否允许删除topic，默认false不能手动删除
broker.id=0	当前机器在集群中的唯一标识，和zookeeper的myid性质一样
listeners = PLAINTEXT://192.168.100.151:9092	当前kafka服务侦听的地址和端口，端口默认是9092
num.network.threads=3	这个是borker进行网络处理的线程数
num.io.threads=8	这个是borker进行I/O处理的线程数
socket.send.buffer.bytes=102400	发送缓冲区buffer大小，数据不是一下子就发送的，先会存储到缓冲区到达一定的大小后在发送，能提高性能
socket.receive.buffer.bytes=102400	kafka接收缓冲区大小，当数据到达一定大小后在序列化到磁盘
socket.request.max.bytes=104857600	这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数，这个值不能超过java的堆栈大小
log.dirs=	消息日志存放的路径
num.partitions=1	默认的分区数，一个topic默认1个分区数
num.recovery.threads.per.data.dir=1	每个数据目录用来日志恢复的线程数目
log.retention.hours=168	默认消息的最大持久化时间，168小时，7天
log.segment.bytes=1073741824	这个参数是：因为kafka的消息是以追加的形式落地到文件，当超过这个值的时候，kafka会新起一个文件
log.retention.check.interval.ms=300000	每隔300000毫秒去检查上面配置的log失效时间
log.cleaner.enable=false	是否启用log压缩，一般不用启用，启用的话可以提高性能
zookeeper.connect=node1:2181,node2:2181,node3:2181	设置zookeeper的连接端口
broker.id=0	当前机器在集群中的唯一标识，和zookeeper的myid性质一样
zookeeper.connection.timeout.ms=6000	设置zookeeper的连接超时时间

5.修改kafka的配置文件

节点1
broker.id=0
listeners=PLAINTEXT://192.168.100.151:9092
log.dirs=/yangk/kafka/kafka1/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183

节点2
broker.id=1
listeners=PLAINTEXT://192.168.100.151:9093
log.dirs=/yangk/kafka/kafka2/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183

节点3
broker.id=2
listeners=PLAINTEXT://192.168.100.151:9094
log.dirs=/yangk/kafka/kafka3/logs
zookeeper.connect=192.168.100.151:2181,192.168.100.151:2182,192.168.100.151:2183

6.启动kafka
先启动zookeeper集群。然后到每个kafka的目录下启动kafka

./bin/kafka-server-start.sh -daemon config/server.properties