kafka常见问题

1.kafka想消费已经消费过的数据
(1)采用不同的  comsumer groupID
(2)线上数据同步到其他镜像中去
2.kafka如何设置生存周期与清理数据
topic 设置数据保存周期
有一个线程定期扫描log file,把保存时间超过阀值的直接删除。
3.spark-streaming获取kafka的两种方式
(1)Receive 方式
 (2)Direct方式
使用kafka  api 直接连接在kafka的分区上,创建的directstream与kafka分区一一对应,需要自己维护偏移量。
4.kafka避免消息丢失和消息重复
(1) 消息使用唯一id标识
(2)生产者 ack=all 至少发送一次
(3)落表是主键或者唯一索引的方式
RUSH B
原文地址:https://www.cnblogs.com/tangsonghuai/p/11452436.html