专栏名称: InfoQ
有内容的技术社区媒体。
目录
相关文章推荐
雷科技  ·  华为Pura 80定档!太炸裂了 ·  22 小时前  
新浪科技  ·  #王自如下周或恢复更新# ... ·  昨天  
51好读  ›  专栏  ›  InfoQ

腾讯运维总监:我眼中腾讯十年运维的包袱与创新

InfoQ  · 公众号  · 科技媒体  · 2017-04-14 08:00

正文

请到「今天看啥」查看全文


回顾BAT的运维建设,很巧合地基本都是2006~2007年开始,大家一开始从一穷二白什么都没有的阶段开始逐步补充各种点的监控,经历了一大波监控系统覆盖率建设方面的建设红潮。

当初使用的传统监控主要以建设各种系统来补齐监控点为主,监控发现也主要以告警、邮件、日报等方式推送,对监控数据的利用基本还是利用各种规则和单纬度模型来处理。小规模团队主要以“能看到,能收到”为主,复杂一些的团队会建立多个指标和规则来减少告警,先进一些的团队会尝试用一些模型来优化。

但这十年来,几大互联网巨头的规模已经扩大了10~20倍,监控数据和告警的体量已经很难通过各种固定指标和单一化模型来解决。

腾讯社交网络Group也历经了这个阶段,服务规模从千级迅速膨胀到二十万级,历经十年的建设目前各种纬度的主要监控系统超过20多个,日短信告警量超过5万条,极端情况下运维和研发人员每天要接受超过1500条短信告警,各种通知和相关的报告更是不计其数。

当然我们也尝试过很多种基于经验、统计学、大数据等方式的技术优化探索,也将告警的量级降了近2万条,但对于庞大的基数和不断扩张的业务,传统的优化手段已经很难帮助团队走出困境。

十年运维的包袱与创新

对于运维来说,十年的包袱无法说放下就放下,局部的修改和优化已经无法扭转当前的监控数据泛滥困局,针对这个问题,我们的思路包括2方面:

  1. 从架构上重新理清楚监控的数据本质,归纳为:流数据、多维数据、日志数据等;







请到「今天看啥」查看全文