专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
AustinDatabases  ·  哎,马上删,马上 ·  昨天  
终码一生  ·  如何加快 SQL 查询速度的同时保持 ... ·  2 天前  
51好读  ›  专栏  ›  数据中心运维管理

OVH遭遇服务器冷却液泄漏事故 导致长达24小时服务中断

数据中心运维管理  · 公众号  · 数据库  · 2017-07-18 06:57

正文

请到「今天看啥」查看全文


OVH公司机架水冷系统

根据事故记录显示,P19数据中心亦在地下室内部署有多台设备,负责通过外界空气实现冷却效果。

OVH公司于2012年从EMC手中购买了数台VNX 5400阵列。此次发生事故的阵列在其三台机架当中装有96块SSD、15套本地磁盘架以及标准的主动-主动控制器对。该公司表示:“这套架构的设计目标在于确保数据的本地可用性以及数据控制器与磁盘的强大容错能力。”

在此之后,该公司又陆续开发出新的解决方案,其被应用于格拉沃利纳数据中心,能够通过非专用商业阵列配合Ceph与ZFS以摆脱对专用设备的依赖。事实上,此次受到影响的阵列原本也已经被纳入清退计划。这两台VNX阵列作为数据库服务器使用,负责为托管网站的动态页面提供数据、用户相关信息以及博客平台中的文章文本与评论内容。

根据事件报告撰文,“6月29日星期四下午6:48,P19数据中心内的3号机房中,由于水冷系统的塑料软管发生破裂,因而导致冷却液泄漏至服务器系统之内。”

“我们两套专用存储托架(机架)中的一套并未使用水冷机制,但由于位置毗邻而受到影响,并直接引发电气故障,最终造成该托架彻底关闭。”

OVH公司承认其将两种采用不同冷却机制的服务器安装在同一机房之内是个错误。“我们做出了错误的判断,我们本应为这些存储设施提供最大程度的保护,正如我们在其它站点中所做的那样。”
故障,又见故障

在此之后,音频警报系统内发生的故障则更为复杂。能够检测机架内液体的探针确实在整座数据中心之内广播了音频警报消息。然而由于此前未能成功为该系统添加多语言支持功能,因此其警报时间点相较泄漏事故出现了延迟,并最终造成长达11分钟的时间间隔。

当天晚6:59,工作人员尝试重启该阵列。当天晚9:25,工作人员未能成功完成重启,并决定采取双管齐下的处理方式——继续尝试重启该故障阵列(A计划),同时尝试利用备份将其数据恢复至辅助系统(B计划)。
A计划

当晚8:00,OVH方面向戴尔-EMC公司拨打求电话,并最终完成了阵列重启。然而,运行20分钟后由于安全机制被触发,阵列再度陷入停止状态。面对这样的情况,OVH公司技术人员决定从法国鲁贝数据中心内选定第三台VNX 5400阵列并将受影响设备上的磁盘驱动器转移至新机架当中,从而替换发生故障的电源模块及控制器。

来自鲁贝数据中心的这套系统于次日清晨4:30被运送至巴黎数据中心,6:00全部磁盘驱动器转移完成。同日早7:00,替代系统启动完成,但遗憾的是磁盘上的数据仍然无法访问。OVH于早8:00再次联系戴尔-EMC技术支持人员,并申请了现场服务。
B计划

B计划使用的资源来自一套日常备份方案,OVH方面指出“这是一套全局基础设施备份,属于我们业务恢复计划中的组成部分,而非客户能够直接访问的数据库快照。”

“进行数据恢复不仅意味着需要将备份数据由冷存储介质迁移至共享托管技术平台中的空余空间内,同时说需要对整体生产环境进行重建。”

具体来讲,为了完成数据恢复,OVH公司需要:







请到「今天看啥」查看全文