Python——分布式监控项目

常用监控

zabbix(主流)

  监控模式:主动和被动都可以

  页面:3.0开始变漂亮,2.0很丑

  超过2000+机器会卡机或者宕机,所以小米要开发自己的监控系统

nagios(主流)

openfalcon(国内比较好的监控系统,小米写的,作者现转到了滴滴打车,用Go语言写的,自己可以写各种插件)

cacti

gridcontrol(用Perl语言写的,Oracle出的监控数据库,也可以监控主机)

ganglia

常见监控需求

  硬件信息

    硬盘损坏(需要借助工具或者插件去定制)

  网络监控

    网络流量、丢包率

  系统监控

    cpu amdiskloadio

  应用监控

    db,web,queue,cache,middleware

  服务状态监控

    url状态  页面是否被篡改  端口存活

    mysql max connections...(并发连接数)

    待处理消息

  业务监控

    业务稳定性

    订单数

    在线用户数

功能分析

  1、一台主机,可以有多个监控项,cpu,ram,nic,disk,io,load

    a--> cpu 90

        ram 120

    b--> cpu 60

                   disk 300

                   io 30

  2、可以批量修改监控配置

    主机组

    服务模板

  3、告警(故障升级)

    Diaster

    High

    Warning

    Info

    Classfiled

  4、历史数据的存储和优化

    实现用最少的空间占用量存储最多的有效数据

    如何做到1s中之内去除一台主机上所有服务的5年的监控数据?

    

    

经典承载5000+机器的组合,Django+uWsgi+nginx部署

分布式监控项目详细参考:http://www.cnblogs.com/alex3714/articles/5450798.html

原文地址:https://www.cnblogs.com/yard/p/6407091.html