正文
从技术团队和老板的角度来讲,对开发就是期望尽量多尽量快的完成需求开发,而对运维,可能很难提出明确的期望和要求,但并不意味着没有。那到底是什么呢?实际就是上面(效率、稳定、成本、安全和体验)这些隐性的期望,往往可能没有很显性地表达出来,运维自己又不能很好的领悟到这些事情的重要性时,一旦出现问题或线上故障,老板发现我们没有很好的达到以上期望,一腔的怒火就很容易就发泄到运维同学这里了。再进而,运维就越发的感觉到自己是背锅侠,越来越没有成就感。
所以,正着看,这些事情运维来做最合适,反着看,这些就是老板对我们的期望啊。正反我们都不跑不掉,那就不如主动做好。
推荐最近朋友圈转的吴军的文章《不做伪工作者》,文章最主要表达的一个观点就是:要做对公司和业务最有价值的事情。运维确实做了很多事情(忙成狗),应急处理了很多线上故障(操着卖白粉的心),重大的变更必须放到凌晨操作(起的比鸡早,睡得比猪晚),真的是非常非常辛苦,但是这些事情真正创造了多少价值呢?可能这就需要我们好好思考一下了,这里我并不是否定我们运维在做的事情,这些事情说没法避免,肯定是要有人来做,由运维做也是应该的,但是我们千千万万不要陷在这些事情里面,自我感觉良好,自我认为做了很多苦劳的事情,就把这种状态当做常态了,如果是这个思路就是我们的问题了。我们得要寻求改变,往往这个改变的过程和结果,就是价值呈现的时候了。
通过以上可以看到,自动化只是一个技术手段而已,重要的是我们得要找到方向。下面是我总结的效率、稳定、安全、成本和体验的一些事情,这些跟GOPS上很多专题都相关,也说明运维可以有很多的方向去发展,期望对大家有用。(以下部分在其他社区也分享过,这里做个简要的摘录,想看原文的直接联系我)
(1). 效率
这块跟日常的运维例行工作紧密相关,如资源分配&回收、域名配置、VIP配置、持续集成&发布、应用部署、应用扩容&缩容等,这块是运维最基础的工作,通常提到的运维自动化,大多是集中在这些工作上,因为这些工作偏日常和重复,目前业界的自动化的解决方案也非常完善了,所以可以优先把这些问题解决掉,目标就是解放运维的生产力,提升运维效率,降低人为失误,让运维的同学可以有更多的精力去做更有价值的事情。
(2). 稳定(质量)
让业务运行更加稳定,监控、全链路、强弱依赖、限流降级、容量评估、预案平台等,这块需要有相对比较独立和专业的监控和稳定性平台来支持,目标是最大程度的保障系统的稳定和运行质量,即使出现问题,也能够快速发现、快速响应、快速(自动)恢复。
(3). 安全
安全是与运维同等级别的一块专业领域,但同时又是跟运维紧密相关的,运维同样要关注安全,因为安全出现导致的问题,往往也会给运维带来沉重地防护和修复成本。我们经常提到的,各类主机安全、DB安全、Web安全、应用安全等等,与此相关的还有漏洞、DDos、CC等关键词。