这些年运维小结

        运维,之前觉得这个坑比开发好点,现在回头看看却又感觉跟开发的坑一样深,一样有着难以处理的事情,一样有着急需自己不断学习才能跟上运维技术的要求,还有不断学习如何与客户沟通,学习如何适应客户变更所带来的一切变化。运维两字之前就是简单的认为:系统出了问题及时能给修复,或者收集问题及时反馈给开发人员或是项目经理。现在来看得从以下几方面来:服务器、数据库、软件系统、客户这几块来综合处理,这样的话才能把事情做好。

        关于运维,维基百科给出的定义:运维 (英文:Ops),又称运维工程师,是对技术类运营维护人员的统称。运维人员的职责是根据业务需要规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使服务处于长期稳定可用状态。自我感觉与实施的最大区别就是运维更侧重保障,侧重如何保障系统、数据库、服务器都能正常运行且能及时发现问题并提出相应的解决方法,系统文件、数据库的及时备份也显得极为重要,根据实际运维的情况及时把一些有用的信息反馈给开发,协助开发调整系统开发技术及数据库设计。运维与实施比起来,运维更侧重技术。所以运维又分:网络运维、机房运维、服务器运维、数据库运维(DBA)、IT运维(负载均衡、流量监控等)。

        网络运维与机房运维接触的更多是与硬件,而我则更喜欢软件,所以我想侧重服务器运维、数据库运维、IT运维。

        服务器运维:说实话自己之前一直不怎么关注,但是随着业务系统的实际应用,才发现这块不及时关注会出大乱子。如:数据库增量过快,磁盘空间得及时跟进观察,不然会导致一系列问题,业务停止,甚至连简单的Select查询都不能执行。以下就是自己实际遇到的情况:

        1、因磁盘满盘,进而导致一个服务程序写数据时报错,进而导致此服务直接崩溃,连配置文件(这个配置文件配置信息量比较大)内容全部丢失;

        2、因磁盘满盘,进而导致接口服务发起的数据查询都不能正常执行,业务系统登录功能直接不能用;

        3、因磁盘满盘,进而导致数据库备份计划全部抛异常,报没有多余空间;

        4、因磁盘满盘,几个业务系统响应速度下降的很厉害。

        5、因业务数据增量高于之前评估量,所以FTP服务器也差点瘫痪。

        6、六台服务器在自己不知情的情况下被关闭,导致给客户领导演示系统功能时,主要功能全部瘫痪不能用,更为要命的是,现场不仅有客户领导,还有其他单位领导。

        故此,我在服务器上及时部署了Zabbix,随时关注服务器的情况,希望借此能避免以上所遇到各种问题。

        数据库运维:数据库运维对于我来说没的选,如果数据库出现异常,客户和公司领导第一个找的人是我,没有办法得主动干起来。当前业务系统涉及的数据库分别有:Mariadb、SQLServer及Oracle,因Oracle是中间库,存储的数据并不是核心业务数据,且其数据也会被及时同步到Mariadb数据库中,所以暂且不用管。其它两个数据库则是自己的维护重点,Mariadb数据库10个业务数据库,分别放在两个服务器上,且其中几个数据库数据增量每月10G以上;SQLServer当前则是20余G,增量尚可。数据库运维目前主要精力则是放在内存使用上及数据库备份上。

        IT运维(系统运维):当前业务系统大大小小近20个,使用频率高的则有10个,所以重点是及时关注访问量及所在服务器磁盘情况等核心问题。如果有需要则及时搭建负载均衡环境,及解决能影响正常运行的一些问题。

原文地址:https://www.cnblogs.com/zhongjicainiao/p/11251602.html