开什么玩笑，京东2个人管理数百万个容器

运维帮 · 公众号 · 运维 · 2018-06-25 09:52

正文

请到「今天看啥」查看全文

我们对日常集群管理过程中的工作做了分析和总结发现，超大规模集群管理过程中，人效比下降的原因来源有几个：

随着集群规模的增大，运维人员操作带来的故障越来越多；
随着集群规模的增大，集群差异带来的运维难度越来越大；
随着集群规模的增大，一次全量环境检查时间越来越长；
随着集群规模的增大，单位时间内的告警数量越来越多；
随着集群规模的增大，单个故障的排障花费时间越来越长；

基于此， JDOS运营平台设计之初，我们从线上操作、环境标准化、智能告警三个主要维度进行了相关考量。系统的整体功能树如图3所示：

图-3超大规模容器集群管理系统功能树

系统主要的架构和组件如图-4所示。配置中心是整个系统的大脑，集群相关信息都在配置中心进行配置，包括各节点操作系统版本、kubernetes各组件版本、节点zone信息配置，各节点上百个内核参数的配置、集群硬件信息、硬件驱动版本配置、集群用途等信息。配置中心是整个系统的信息来源，巡检系统和操作中心的行为都依赖于配置中心的配置，配置中心也是保证集群标准化的信息来源。

操作中心负责节点实际操作，如版本升级、日志清理、密码更新、集群的扩容和缩容、控制节点故障恢复、新集群的部署等工作。实现了常规运维工作100%通过界面来操作，尽量避免人工输入命令带来的误操作概率。

图-4系统架构图

信息展示中心，负责各集群、各机房、各应用、不同维度的信息展示，也是京东内部的账单展示中心。在这里既能看到线上资源使用情况，也能查看各部门，不同应用的资源使用情况、应用的健康情况以及不同集群在过去某一时间周期内的告警、负载均衡流量信息、DNS解析情况等信息。除此之外，也可以查看各k8s集群的实时调度信息、容器状态变迁等信息，作为集群性能优化的依据。

图-5线上某集群容器状态变迁图