正文
第四,应急事件处理的能力,依靠的是持续完善运维手册。
第五,变更方面,使用渐进式发布,能够快速的检测问题,并且能快速回退。
第六,需求预测和容量规划方面,要有自然增长预测模型,要有非自然增长的规划,还要有周期性的压力测试。
下面的图有助于更多了解SRE。
(图可点击放大)
来源:
https://coggle.it/diagram/WjCMkJlx9wABUs4h/t/google-sre
SRE的方法论基本建立在云原生的应用之上,并且要依靠工具实现,
现在火热的kubernetes就是谷歌将一部分内部工具经过裁剪进行的开源。
3.DevOps
DevOps(Development和Operations的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合,目标是在保证质量的前提下持续快速交付。
可以把DevOps看作开发(软件工程 )、技术运维和质量保障(QA)三者的交集。
要实现高质量的持续交付,离不开多种工具的配合,从这个角度讲,
DevOps也可以看作是工具链,如下图。
图可点击放大,来源:www.blazemeter.com
4.AIOps
Gartner在2016年提出了AIOps
智能运维
的概念,AIOps在Gartner的词库中是AlgorithmicIT Operations的缩写,Gartner在《Market Guide for AIOps Platforms》报告中为AIOps作出如下定义:AIOps平台是结合大数据、人工智能(AI)或机器学习功能的软件系统,用以增强和部分取代广泛应用的现有IT运维流程和事务,包括可用性和性能监控、事件关联和分析,IT服务管理以及运维自动化。
也有人将AIOps解释为Artificial Intelligence for IT Operations,将人工智能应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),通过机器学习的方式来进一步解决自动化运维没办法解决的问题,
AIOps必须依靠算法和工具实现。
从上面的描述可以看出,
云时代新的运维理念最终都需要依靠工具来落地,
另外,云运维也面临许多挑战。
云运维面临的挑战有哪些?