专栏名称: 运维帮
互联网技术分享平台,分享的力量。帮主一直坚信技术可以改变世界,从毕业到现在干了15年运维,有许多话要和你说。
目录
相关文章推荐
51好读  ›  专栏  ›  运维帮

监控系统故障定位之事件关联分析的设计介绍

运维帮  · 公众号  · 运维  · 2016-12-20 08:12

正文

请到「今天看啥」查看全文


解释

  • 业务层:该层指标反映出Service的质量,如一个订单系统的下单成功率

  • 应用层:该层指标反映出应用软件的运行状态,如Nginx连接数

  • 系统层:该层指标反映出操作系统的运行状态,如平均负载

  • 硬件层:该层指标反映出硬件设备的运行状态,如CPU温度

通过分层,我们将问题分类在我们熟知的范围内。


建立服务树模型



重点是:“服务” 和 “模块”

  • 模块:提供某种功能的服务器的组合,属于同一个模块中的服务器功能一样。如“缓存模块“,”DB模块“。

  • 服务:由多个模块组织在一起提供一种Service,“服务”是对“功能”的一个更高层的抽象。如”订单拆分服务“。

这两个概念的定义,为下面的模块调用关系奠定了基础。


建立模块调用关系

大写字母代表”服务“,如A服务;小写字母代表”模块“,如a模块;箭头代表调用或者结果返回关系




建立”统一事件库“

我们认为有如下几种确定事件之间关系的方法

  1. 上面的模块调用关系是一种人为定义的确定性关系。

  2. 时间相关性,这是一种非确定性的策略,代表了一种相关可能性。

  3. 事实相关性,通过对大批量历史数据进行分析计算,找到事件之间事实上发生的相关性。


那么,首先我们得需要一个统一的“事件库”来收集所有事件。


我们认为形成事件的来源有这么几个


我们认为一个对象产生异常的影响因素来自于这几个方面







请到「今天看啥」查看全文