正文
这个时候我们的IDC还是1个,机柜增长了30个,服务器和虚拟机的数量增长了800台,业务线拓展到100个,人力方面运维人员也扩展到12个,但是这个时代还是存在什么问题呢?几个主要的问题说一下
1、
这个时代机房还存在着很多IBM的包箱、EMC的存储
,这就不符合互联网的思维了,另外运维成本也是非常高的,在虚拟化方面我们使用的是VMware vSphere解决方案,管理和运维都给我们带来很多的成本,而且这一套解决方案的成本还是比较高的。面对这个问题我们是怎么解决的?其实我们跟大多数的互联网公司一样,逐步的使用X86服务器来代替,提高业务的稳定性。在管理方面起到比较大的作用,还节省了不少的成本。
2、第二个问题是
机房资源不足,还有扩容难
,以及资源管理问题,因为这个时代业务发展是比较快,所以业务需求比较多,而且都是比较紧急的。所以装机和交付的速度完全跟不上业务的需要。为了解决这个问题,我们部署了多个机房,并且把主要业务分多个机房部署,并且在各个机房部署冗余资源,除了满足业务需求的同时还满足一些计划外的需求。另外,在资源管理方面我们搭建了一个CMDB,来统一管理线上的一些资产。此时资源管理方面的效率大大的提升。
3、第三个问题是
网络不稳定,活动日或者发布日的流量突增
。面对这个问题,首先在硬件上就是更换核心网络设备,配置上有所提升,以至于在流量较大的时候,设备的承载方面没有问题,另外在带宽上做冗余,那么在网络流量突增的情况下,业务也不会因此造成影响。
这里提到一点,随着这些改变,我们的网络架构也变成了2.0,1.0架构是单机房,网络层面没有做虚拟化,使用的是HSRP,2.0架构是多机房,在网络层面使用虚拟化,大二层架构。
4、第4个就是
DB服务器的IO问题导致的业务压力
,早期DB使用的是SAS磁盘,读写频繁的时候,就会带来一些io问题。
针对这么一个问题,我们对ssd磁盘或者pciessd进行测试,针对业务的特性对不同的业务配备ssd或者pciessd来满足业务的IO的需求。
5、第五个问题是
批量操作和监控不完善
,以及监控的覆盖率问题。因为这个时候我们的发展比较快,资源包括服务器的规模都比较多,所以这个时候会有一些批量的操作带来很多的人力成本。我们部署的Ansible,这个软件大家都比较熟悉,用来做一些批量的操作。在监控这方面监控,会联动CMDB,定时对线上运营中的机器做一个巡检,巡检到未加监控的机器就会定时给相关人员邮件通知来解决监控覆盖率低的问题
5、最后的问题就是
安全性低
,主要体现在早期所有的业务员都可以登录线上所有机器,没有权限限制或者管理。另外一个是来自外网的攻击,针对这个情况我们结合帐户管理平台CMDB对用户做一些权限的划分。举一个例子某个用户在CMDB上只能访问哪几个业务,只能登陆这几个业务的机器,所以这就在帐号管理方面有一个大幅度的提升,而且有一个操作的审计,后面还可以跟踪。
伴随着这些问题的解决,我们其实已经进入了青铜时代,来看看这个时代的规模,我们是两地三中心,机柜扩展到150个,服务器扩展到4000台,业务线也发展到200多条。在人力方面,我们有35个业务人员来支撑。
1、
我们面对标准化率低的问题,而且维护成本越来越高
,针对这一点,我们对标准化进行梳理,这当中包括很多比如软件标准化、系统标准化、硬件标准化等等。在系统标准化方面,我们开发了巡检平台,主要从系统常规、系统安全、系统内核等几个维度定时进行巡检,对出现问题的机器进行整改,确保线上标准化覆盖率100%。
2、
关于业务架构单点的问题
,这个时代业务发展比较迅速,架构单点的情况还是比较严重。解决方案是人工推动,先梳理现有的单点架构业务,然后去部署高可用架构。另外此时我们在架构上做冗余,部署两地三中心,当单个机房出现故障的时候,业务的可用性得以保障。3.0架构使用三网分离,DCI增加了专线,流量优先专线,专线出问题后在转到vpn。
3、另外
供应商比较单一
,这个供应商就是服务器,还有网络设备供应商,供应商单一带来很多问题,比如说成本方面,定制化方面,如果我们想追求一些定制化产品,在对单个管理过程中就很被动,所以在这个时候我们是遵循自己的一套运维设置标准,引入多个厂商来检测它的兼容性、稳定性,以及业务系统也是联系多个厂商,来建立标准。与此同时,也会制定SLA标准、定制化标准,如后续有新的采购需求,都需要按照此标准。