运维申请机器攻略

运维申请机器攻略

一、为什么要写这篇文章

最近由于工作需要总共申请了16台云主机，分别用于安装Kafka和elasticsearch集群，因为经验不足过程较为曲折，时间花费比较长。体会如下，因为公司业务高速发展，运维开发RD人力不足，很多基础设施未跟上。特别是运维自动化工具还没有上线，每步操作都是人肉，所以申请机器周期变长，虽然运维同学付出百般努力和心血，依然无法应对我们申请大军的庞杂需求，难免有疏漏步骤。那我们该如何多做一些工作，辅助运维同学减轻他们负担并且达成我们的目标呢？具体实施步骤请看“如何高效正确申请”

二、如何高效正确申请

1.填写工单

申请机器需要提交2次工单 1.第一个工单申请云主机，但没有登录权限 2.第二个工单申请root权限

工单系统：http://monkey.xxx.xxx.com.cn

左边导航“工单管理–》提交工单”，选择“服务器申请-应用”

填写基础内容，这个比较容易

以下内容组合(目录树)生成机器名称，机器名称需要符合命名规则，如果命名不符合预期，请联系运维创建相应目录树

2.验证机器可用性

由于运维同学事情多、压力大、排队任务多，时常会被高优先级任务打断，有时因为中途被其他事情打断，可能会漏掉一些工作。

提交工单需要主动push，否则可能会先处理高优先级的，自己工单排单为低优先级状态
分配登录权限问题，有时可能没分配登录用户和root权限或分配不全
有时磁盘未挂载
机器有防火墙，端口无法访问
检查IP与主机匹配正确性

2.1 工单申请推进落地

RD如果不主动推进，可能提交的任务被排为低优先级，所以提交工单后，push老大审批通过，并主动到运维同学跟前沟通解决工单问题，很可能会加快处理。

2.2 检查登录权限

检查普通用户是否能正常登录，每台机器必须登录检查确认

[lizhitao1@l-tiger1.ops.prod.aws.dm ~]$ ssh host

检查root权限是否正常，每台机器必须登录检查确认

[lizhitao1@l-tiger1.ops.prod.aws.dm ~]$ sudo -s

[root@l-callcenter-kafka-server1.mgt.beta.ali.dm lizhitao1]#

2.3 磁盘挂载检查

[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# fdisk -l

[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# df -h

怎么确定磁盘未挂载？

df -h 容量远小于 < fdisk -l

例如：我实际申请了500G，只分配了大约120G，这就是数据磁盘没有挂载

2.4 检查网络连通性(防火墙)

网络是否能ping通，ping下其他ip

[root@l-callcenter-kafka-server1.mgt.prod.aws.dm lizhitao1]# ping 10.0.34.251

看看机器是否有防火墙，端口被禁用，不能访问集群内其他机器，错误信息如下

解决办法：去掉防火墙规则

执行命令如下：

[root@l-callcenter-kafka-server2.mgt.prod.aws.dm lizhitao1]# iptables -F

验证是否成功

[root@l-callcenter-kafka-server2.mgt.prod.aws.dm lizhitao1]# telnet 10.0.34.151 9092

2.5 检查IP与主机匹配正确性

因为我司使用了多种厂商云主机，运维对各个云厂商分配了不同的子网段，网段配置错误是不能被其他主机访问的:

测试环境网段规则：阿里云IP规则为10.24.*.*. 亚马逊IP规则为10.1.*.*

错误配置示例如下：

正确配置如下：

三、RD工作重点

个人体会，在运维体系未自动化和完善前，我们先做一些工作，有同理心理解运维暂时困难，合作愉快推进就会更快些：

提前2个星期申请，留足buffer时间
多跑跑腿
多做确认反馈、验证
形成组合打好配合

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/lizherui/p/13488013.html