专栏名称: 人工智能头条
专注人工智能技术前沿、实战技巧及大牛心得。
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可微博热门分享(6.5)》 ... ·  20 小时前  
黄建同学  ·  Firecrawl推出官方Firecrawl ... ·  22 小时前  
爱可可-爱生活  ·  【[237星]macos-automator ... ·  2 天前  
机器之心  ·  开启 AI ... ·  2 天前  
爱可可-爱生活  ·  【[1.8k星]Drawnix:一款一体化开 ... ·  2 天前  
51好读  ›  专栏  ›  人工智能头条

百分百面试题:遇到过线上问题没有?

人工智能头条  · 公众号  · AI  · 2021-04-12 18:30

正文

请到「今天看啥」查看全文


立即开始问题排查,遇到线上问题,一定是保证最快速度止血,降低对业务的影响,然后再是排查原因,当然有的问题也需要快速找到原因。

第一反应是不是入口流量太大,处理消息的线程池核心线程数满了,任务都在排队,但是看了入口流量并没有尖刺。

看监控的消息消费任务耗时,如下图:

img

可以看到耗时在不断增加。那就需要看处理耗时增加原因了,为什么处理任务的耗时上涨了。

查看消息消费日志,如下:

img

发现有很多网络接口超时的。

img

大致得出结论:消息处理任务依赖下游系统接口,连接下游接口超时,连接下游接口设置的超时时间不算短,为什么下游接口如此多SocketTimeOut呢?

img

下游系统也是我负责的系统,那重点开始看下游的系统监控,发现相关的接口调用的单机耗时时间极不规律,如下图所示:

img

对比一下日常这个接口的耗时时间,如下图,日常都没有超过100ms的:

img

查看下游系统的监控大盘,发现了问题:

img

老年代GC次数暴涨,而且gc耗时都到了秒级别,1分钟5~10秒,太恐怖了。

分析GC问题







请到「今天看啥」查看全文