线上问题备忘录

 1. flume-cluster

编 号

描述

现象

方法

flume启动时元数据锁异常,导致无法启动

Due to java.io.IOException: Cannot lock /filechannel/. The directory is already locked.

设置filechannel本地备份的data与checkpoint目录不能同名为同一目录,因为filechannel会同时非递归锁住两个目录 

 2. kafka-cluster 

编 号

描述

现象

方法

1

kafka服务启动后运行出现日志异常,进程名自杀

[[Replica Manager on Broker 3]: Shutted down completely (kafka.server.ReplicaManager)]

更改启动方式:以daemon方式启动:
bin/kafka-server-start.sh -daemon ./config/server.properties

2

topic消费异常

kafkaServer.out:kafka.common.OffsetOutOfRangeException: Request for offset 4520 but we only have log segments in the range 0 to 4519

由于zk-offset值与kafka日志状态未同步导致,导致消费者拿到的offset出现超前或过期的offset, 调节zookeeper集群的 /consumers/offset参数值

3

生产者进行数据生产时,获取元数据失败,找不到topic-partitiond的对应leader节点

LeaderNoAvailble问题

获取zookeeper元数据超时导致,可以适当调大连接zk服务超时参数:zookeeper.connection.timeout.ms=1000000

4

生产者进行数据生产时,获取元数据超时

Failed to send producer request with correlation id 463112757 to broker 1 with data for partitions [dsp_pv_Top
ic,2] Java.net.SocketTimeoutException]

client与kafka沟通超时,适当调大kafka-client读超时时间agent.sinks.k2.kafka.request.timeout.ms = 60000

5

消费端消费消息时,无法解析kafka的broke列表的hosts 

消费端连接上zk-cluster,然后程序夯住 
ConsumerIterator<byte[], byte[]> iter = kafkaStream.iterator();
while (iter.hasNext()) { }

由于zk-cluster默认给client的broke-ip值是host-name,而客户端不识别导致;

修改kafka-server参数,如:host.name=10.20.37.109;advertised.host.name=10.20.37.109

3. zookeeper-cluster   

编 号

描述

现象

方法

1

zookeeper运行持续一段时间后,日志写爆磁盘

844G  ./home2/data/tmp/zookeeper/version-2 

默认情况下,zookeeper不会删除dataDir下的树目录和事务镜像日志,
所以须设置zoo.cfg以下参数: autopurge.snapRetainCount=20
autopurge.purgeInterval=1

 

原文地址:https://www.cnblogs.com/gisorange/p/6374676.html