专栏名称: 数据中心运维管理
专注于数据中心基础设施运维与运营管理,分享运行维护经验,分享数据中心行业发展趋势及新技术应用。
目录
相关文章推荐
AustinDatabases  ·  P-MySQL ... ·  10 小时前  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  昨天  
阿里云大数据AI平台  ·  【5月重点功能发布】阿里云大数据+ AI ... ·  昨天  
数据分析与开发  ·  突发!Anthropic 断供 ... ·  昨天  
51好读  ›  专栏  ›  数据中心运维管理

从亚马逊AWS S3故障来看,数据中心容灾越来越重要

数据中心运维管理  · 公众号  · 数据库  · 2017-03-04 16:21

正文

请到「今天看啥」查看全文


磁盘级别容灾:多备份数据冗余


对于保存在腾讯云存储服务中的每个数据块,都实现了“RAID”备份,即一份数据会存在多个副本或者校验码。同时利用底层磁盘的接口将其每个磁盘且分为多个扇区,并监控各个扇区的情况。


一旦检测出磁盘部分扇区发生异常,会停止针对该扇区的写入和读取,然后利用冗余数据对原有的扇区进行修复。在这个修复过程中用户仍然可以读取冗余数据,服务持续可用。


服务器级别容灾:条带化打散数据


腾讯云利用“条带化”技术,将多备份的用户数据分解成多个数据块均匀放置在不同服务器之间。一旦检测出单台服务器出现异常,会停止对整个集群的数据写入,将数据写入迁移到同机房的其他集群中,随后集群内部针对异常服务器启动坏盘修复。


如果修复失败,7*24值班的运维人员将人工介入,更换坏盘。在修复过程中,用户可以从异常集群中健康的服务器中持续获取数据,服务持续可用。


集群级别容灾:不同集群互为主备


腾讯云在每一个机房中会配备多个集群,每个集群可以提供完整服务,用户的数据块被分布在不同集群的不同服务器中。如果某个特定集群失去服务能力,修复方式如同服务器异常。该集群整体暂停数据的写入和读取,保留异常现场,将数据写入迁移到同机房的其他集群中,集群内部开始自动修复逻辑模块或者存储模块。在修复过程中,用户可以从其他健康集群中持续获取数据,服务持续可用。







请到「今天看啥」查看全文


推荐文章
AustinDatabases  ·  P-MySQL SQL优化案例,反观MySQL不死没有天理
10 小时前
旗扬时事  ·  旗扬:诡异的美国核武库
7 年前
水木龙华龙校  ·  2017龙校十一、中秋放假安排
7 年前