云计算之路试用Azure:遭遇第一次故障

目前我们在用Azure跑“找找看”的索引服务,详见博文云计算之路:用Azure解决“找找看”磁盘IO问题

今天13:00左右首次遭遇Azure故障,造成找找看站点无法正常访问。当时Azure虚拟机上的索引服务无法访问,远程桌面也无法连接Azure中仅有的两台虚拟机。进入Azure管理控制台查看,两台虚拟机都处理于正常运行状态,重启虚拟机,依然无法连接。

猜测可能是虚拟机所在的物理机遇到了网络故障。于是,通过修改Virtual machine size,让Azure用该虚拟机的VHD文件创建新的虚拟机实例(相当于将虚拟机迁移到另外的物理机)解决了问题。

从这次故障处理中,我们知道了Azure可以让用户自己迁移虚拟机。而阿里云目前需要客服人员手工进行虚拟机的迁移,这也是需要改进的地方。

从中得到的教训:在云上,虚拟机一定要做负载均衡,避免单点故障。

另外发现,在虚拟机迁移之后,Temporary Storage中的数据会被清空(Temporary Storage是Azure提供的速度非常快的临时存储空间)。

更新:后来知道这次故障是Azure香港机房故障引起的。

原文地址:https://www.cnblogs.com/cmt/p/3088532.html