专栏名称: 细说云计算
关注云平台的网络技术、存储技术,以及少量架构技术。
目录
相关文章推荐
51好读  ›  专栏  ›  细说云计算

阿里巴巴国际环境下的 SRE 体系实践

细说云计算  · 公众号  · 架构  · 2017-08-04 18:30

正文

请到「今天看啥」查看全文


InfoQ:AliExpress 是什么开始实践 SRE 理念的?可否介绍下目前你们的一些基本情况?

周志伟: Aliexpress 的 SRE 是 2016 年开始摸索的,核心思想是分层治理,在最重要的一层用红线确保实施到位。

在红线的基础上建立一系列配套规范(包括监控规范、发布规范、线上运维规范等等),让全员参与学习。

建设 SRE 运作体系(故障演练、作战演习、快速响应),让我们的 SRE 工具、团队成员在平时都能得到基本的训练,确保在问题发生时都能在最短的时间恢复(实时也证明通过日常的作战训练非常有效,响应速度以及对于工具的信心)。

这些基础的保障之外我们会更多的参与基础数据采集和分析,通过大数据的方式运作 SRE,通过大数据发现更多维度的问题,使用损失最小的方式恢复问题,或者说是通过更有效的手段恢复问题。特别是面对国际复杂互联网时,尤其需要通过大数据来帮助定位是哪个国家哪个地区出现的网络瘫痪。

InfoQ:你认为 SRE 主要解决了 AliExpress 哪些问题?

周志伟: 提高 Aliexpress 的可用性,事实也说明了这一点,这个组织让整个 Aliexpress 多了一个横切面去保障,大家相互了解互相学习,解决的不仅仅是线上问题,我认为是预防了很多线上问题发生的可能。同时 SRE 通过大数据的方式进行问题的发现,以及解决。特别是国际互联网的问题上,我们有多种异地多活和优化机制,更大力度的解决早些年碰到国际网络问题无从下手的尴尬局面。







请到「今天看啥」查看全文