从亚马逊AWS S3故障来看，数据中心容灾越来越重要

数据中心运维管理 · 公众号 · 数据库 · 2017-03-04 16:21

正文

请到「今天看啥」查看全文

磁盘级别容灾：多备份数据冗余

对于保存在腾讯云存储服务中的每个数据块，都实现了“RAID”备份，即一份数据会存在多个副本或者校验码。同时利用底层磁盘的接口将其每个磁盘且分为多个扇区，并监控各个扇区的情况。

一旦检测出磁盘部分扇区发生异常，会停止针对该扇区的写入和读取，然后利用冗余数据对原有的扇区进行修复。在这个修复过程中用户仍然可以读取冗余数据，服务持续可用。

服务器级别容灾：条带化打散数据

腾讯云利用“条带化”技术，将多备份的用户数据分解成多个数据块均匀放置在不同服务器之间。一旦检测出单台服务器出现异常，会停止对整个集群的数据写入，将数据写入迁移到同机房的其他集群中，随后集群内部针对异常服务器启动坏盘修复。

如果修复失败，7*24值班的运维人员将人工介入，更换坏盘。在修复过程中，用户可以从异常集群中健康的服务器中持续获取数据，服务持续可用。

集群级别容灾：不同集群互为主备

腾讯云在每一个机房中会配备多个集群，每个集群可以提供完整服务，用户的数据块被分布在不同集群的不同服务器中。如果某个特定集群失去服务能力，修复方式如同服务器异常。该集群整体暂停数据的写入和读取，保留异常现场，将数据写入迁移到同机房的其他集群中，集群内部开始自动修复逻辑模块或者存储模块。在修复过程中，用户可以从其他健康集群中持续获取数据，服务持续可用。