专栏名称: 运维帮
互联网技术分享平台,分享的力量。帮主一直坚信技术可以改变世界,从毕业到现在干了15年运维,有许多话要和你说。
目录
相关文章推荐
运维  ·  B 站崩了 ·  1小时前  
51好读  ›  专栏  ›  运维帮

开什么玩笑,京东2个人管理数百万个容器

运维帮  · 公众号  · 运维  · 2018-06-25 09:52

正文

请到「今天看啥」查看全文


我们对日常集群管理过程中的工作做了分析和总结发现,超大规模集群管理过程中,人效比下降的原因来源有几个:

  • 随着集群规模的增大,运维人员操作带来的故障越来越多;

  • 随着集群规模的增大,集群差异带来的运维难度越来越大;

  • 随着集群规模的增大,一次全量环境检查时间越来越长;

  • 随着集群规模的增大,单位时间内的告警数量越来越多;

  • 随着集群规模的增大,单个故障的排障花费时间越来越长;

基于此, JDOS运营平台 设计之初,我们从线上操作、环境标准化、智能告警三个主要维度进行了相关考量。系统的整体功能树如图3所示:

图-3超大规模容器集群管理系统功能树

系统主要的架构和组件如图-4所示。配置中心是整个系统的大脑,集群相关信息都在配置中心进行配置,包括各节点操作系统版本、kubernetes各组件版本、节点zone信息配置,各节点上百个内核参数的配置、集群硬件信息、硬件驱动版本配置、集群用途等信息。配置中心是整个系统的信息来源,巡检系统和操作中心的行为都依赖于配置中心的配置,配置中心也是保证集群标准化的信息来源。

操作中心负责节点实际操作,如版本升级、日志清理、密码更新、集群的扩容和缩容、控制节点故障恢复、新集群的部署等工作。实现了常规运维工作100%通过界面来操作,尽量避免人工输入命令带来的误操作概率。

图-4系统架构图

信息展示中心,负责各集群、各机房、各应用、不同维度的信息展示,也是京东内部的账单展示中心。在这里既能看到线上资源使用情况,也能查看各部门,不同应用的资源使用情况、应用的健康情况以及不同集群在过去某一时间周期内的告警、负载均衡流量信息、DNS解析情况等信息。除此之外,也可以查看各k8s集群的实时调度信息、容器状态变迁等信息,作为集群性能优化的依据。

图-5线上某集群容器状态变迁图







请到「今天看啥」查看全文