部署操作手册

  1. 准备设备,内存,硬存,cpu核心数,这些都是硬需
  2. 软件方面的,最基本的操作系统,当前是centos7,以及Redhat7以上。其次是mysql数据库、nginx、redis、外加python环境,当前poc包都已经准备好了
  3. 关闭selinnux服务,修改配置文件永久关闭
  4. 关闭防火墙服务,设置为开机不启动
  5. 分别在四台机器上安装poc包,
    一台服务器安装mysql服务,(启动mysql 服务,存储zabbix收集的数据)
    一台安装zabbix监控服务,(启动的是server服务和agent服务,需要在/etc/hosts文件中配置mysql的ip地址,不然zabbix找不到mysql数据库,存储不了数据,监控服务业启动不了)
    一台安装前台展示页面(数据的展示页面,需要启动的是supervisor服务,这个进程接管了所有的python进程,启动redis服务,启动mysql服务,存储的是监控展示所需要的数据信息。还需要启动nginx服务。进行访问的负载均衡),
    一台安装proxy作为灾备。(启动的是proxy服务,还有javagateway服务)作用是在mysql服务器和zabbix服务器宕掉的时候可以起到临时缓冲的效果,保证数据的正常收集。
  6. 最重要的一点就是在各个服务器的/etc/hosts文件中配置好各服务所需要的ip配置,本地启动的服务在localhost 后面空格隔开继续添加,
  7. 启动服务,使用默认账号Admin zabbix 进入后台配置license信息。
  8. 碰到的问题,一开始supervisor启动不了send_msg aggragate agg_delay服务,原因是redis的ip配置有问题,配置后重启成功。
  9. 对于本地启动的服务,在/etc/hosts文件的127.0.0.1 后面直接加服务名称就行,注意空格隔开

部署:

windows端:
执行客户端,输入server端的ip,即可安装

linux端:
通过页面进行配置,需要使用linux的用户名和密码,同时需开启ssh服务,
也可以在show服务器上的/opt/repo底下获取相应的gz包,解压安装,
或者直接使用脚本,完成安装。
需要注意的是需要提前执行check_monitor.sh脚本,该脚本会自动检查hostname。会对克隆机器修改主机名,使agent发送源数据linux,在server端自动注册起来

重装
yum remove zabbix-agent 卸载
删除/etc/sdata目录
重新安装,执行脚本,
check_monitor.sh 是检查主机名的脚本,会把克隆的主机名由localdomain改成真正的主机名
install.sh 中执行的是在repo中下载agent包,解压安装并且修该配置文件,最后删除下载的文件。
2019/9/19
在install的时候出现了问题,所有的安装包配置文件都没有修改过去,hostname server都没改成server端的ip,重试了几次也不行,
分析问题,为什么没有改过来配置文件,而且install脚本执行到最后文件也删了,说明脚本执行的没有问题,但是配置文件没改,问题就在解压配置文件修改配置文件那一块,使用tar -tf查询下载的zabbix_config.tar.gz包发现解压路径放错了
重新打包,放到repo上,重新执行install脚本,安装成功

不要着急,分析问题,解决问题,慌张球事也不顶。

文件更新:

前端

  1. 备份整体文件
  2. mv xxx.zip /opt/xxx/xxxx
  3. 解压unzip xxxx.zip,解压出的文件将覆盖源文件
  4. 不用重启服务,有自动刷新时间,若想直接看效果,得去主机那里刷新页面
  5. 更改index.heml文件,增加刷新时间 refresh=3600

后端

  1. 备份 cp xxx(文件夹) back/xxxx.bak
  2. 备份数据库 mysqldump -uroot -p‘123456’ 库名> /xxx/xxx/xxx.sql
    若是更新出错,即使恢复,恢复原先备份的文件夹
    mysql -uroot -p'123456' 库名 < /xxx/xxxx.sql
  3. 更新文件
  4. 删除celery缓存文件,
  5. supervisorctl中重启服务,

20191015 oracle的监控部署

使用install.sh脚本安装客户端,在脚本终究已经完成服务的启动,
下载好的config包中包含了监控使用到的监控脚本及sql文件,对于新加的机器,对应的也是新加的数据库,dbquery对象需要赋权,才能执行sql文件,否则是无效的权限,
grant select any directionary to dbquery,就能够去执行user_lcount user_creata等sql文件,
为什么指定任意的sid就可以执行脚本获取数据了,只是个位置参数么?
对于万德的机器,执行脚本提示密码快过期了,需要找dba去修改用户的密码有效期。

20191022

oracle主机上加上了agent,套上模板之后先显示ksh没有,然后修改ksh为sh,然后又报错sqlplus64: error while loading shared libraries: libsqlplus.so ,没有这个文件,
尝试了修改环境变量,用oracle用户用shell中的命令直接执行时运行正常,最后重启agent,监控正常。
为啥?
客户端是新加的,在安装完客户端就启动服务了,应该是已经载入环境变量了。
原因:
脚本有问题,install脚本只是单纯的安装客户单,没有修改zabora的环境变量配置文件,在修改完配置文件之后,需要重新启动客户端,载入新的配置文件,????
锤子、每次执行命令都会使用sh,都会载入一次配置文件,为啥不行呢????

在安装完客户端后,加载模板,该加日志监控的需要查看路径的权限开放情况,该给主机分组的记得分组,不然告警发送=会出问题。

20191107

部署的出问题的时候多查看日志信息,配置上config/init.py中secret后面的加密字符串,同时在后台中配置好license信息

原文地址:https://www.cnblogs.com/cizao/p/11484388.html