Hadoop记录-监控几个思路

1.存活监控

基本监控,主要对进程的存活、端口连通性、url可检测性等指标进行监控。

2.2 可用性监控

主要指对用户而言是否可用,能否返回预期结果,通常部署在一些业务主流程或一些关键环节,如接口调用,平台读写操作,端到端访问等。

2.3 性能指标

性能指标指可能影响业务正常运行的重要指标,一般偏离正常范围需人工干预,如io、cpu、rpc/handler tps,queue、连接数等。

2.4 容量指标

与资源相关,能直接推导资源用量的指标,该类指标异常可能触发扩容需求,如hdfs使用率、hbase tps、es qps/iops等。

2.5 监控对象&指标

对象主要指被监控的组件,如hbase,jstorm,指标指具体的监控项,如hbase的tps,rs count,region count,es的iops、tps、qps等。

2.6 监控频率

   间隔多长时间上报一次。

2.7 告警方式

  是否短信告警,是否邮件告警,是否丰声通知。

2.8 调用量监控

主要针对接口调用次数、频率进行监控,如平台接口(USS接口)、平台应用接口(ubas)等。

2.9 日志监控

针对异常比较频繁,问题比较突出的应用场景,如YARN、dataIDE、调度等底层日志异常进行收集、监控。

注:各类指标可能会存在重合,但使有场景权重不一样,建议按以上分类配置,可以重复。

原文地址:https://www.cnblogs.com/xinfang520/p/10452556.html