专栏名称: 云头条
云计算领域科技媒体:传播观点,传播价值,连接商业与技术;Web:www.yuntoutiao.com ,欢迎互动~~~
目录
51好读  ›  专栏  ›  云头条

因误开 IDC 灭火器,导致 Azure 在欧洲罢工超过 7 小时!

云头条  · 公众号  · 科技媒体  · 2017-10-04 22:37

正文

请到「今天看啥」查看全文


  • 解决方法: 将虚拟机部署到配备托管磁盘的可用性集(Availability Sets)提供了弹性,可以为基于虚拟机的工作负载防范重大的服务影响。

  • 根本原因和缓解方法: 在一次常规的定期灭火系统维护期间,发生了意外释放惰性灭火剂的情况。灭火机制被触发后,它开始自动关闭空气处理单元(AHU),这是为火势控制和安全设计的系统。虽然数据中心里面的情况得到了重新确认,AHU也重新启动,但受影响灭火区的隔离区的环境温度还是高于正常的运行参数。由于受到内部散热监测机制的触发,受影响区域的一些系统自动关闭或重新启动,防止这些系统过热。触发惰性灭火剂灭火在第一时间就知道了,在随后的35分钟内,所有AHU恢复正常,环境温度恢复到了正常的运行水平。数据中心设施的电源在这次事件中没有受到影响。所有系统已恢复到完全正常的运行状态,在调查意外释放惰性灭火剂期间,进一步的系统维护已被暂停。由于上述事件的性质以及受影响灭火区的隔离区域的散热情况方面的差异,一些服务器和存储资源没有以一种受控的方式关闭。因此,需要另外的时间来排查故障,并恢复受影响的资源。一旦可扩展单元达到了所需的运行节点数量,客户就看到情况得到逐渐而稳步的改善,直到20:15 UTC完全解决了故障,这时存储和相关服务都已完全恢复过来。







  • 请到「今天看啥」查看全文