[已解决] 生产环境线程死锁造成的服务器无响应错误-线上问题定位与解决方案

举报
谙忆 发表于 2021/05/26 16:18:07 2021/05/26
【摘要】 [已解决] 生产环境线程死锁造成的服务器无响应错误-线上问题定位与解决方案 文章目录 概述 问题 定位 根本原因 解决 总结 概述 最近团队有人遇到线程死锁的情况,在这里介绍一下情况,以及如何解决的 问题 首先讲讲是怎么知道出问题了,线上这个应用是4台机器负载,有用户反馈有的页面进入超卡,或者就是进不去。 ...

[已解决] 生产环境线程死锁造成的服务器无响应错误-线上问题定位与解决方案

概述

最近团队有人遇到线程死锁的情况,在这里介绍一下情况,以及如何解决的

问题

首先讲讲是怎么知道出问题了,线上这个应用是4台机器负载,有用户反馈有的页面进入超卡,或者就是进不去。

定位

其实当时也是挺懵逼的,测试这边用账号进入,挺流畅的啊。后面根据几个用户提供的链路,发现页面卡的时候,链路请求的机器都是第1台机器的ip。

那么问题就简单很多了。

首先,通过链路直接去看机器上的日志,某几个方法请求的时候,基本都是超时。
通过error日志查看不出更多的问题。

那么看看jstack Dump 日志文件中的线程状态,下载机器的jstack日志进行一个分析。

在这里分享一个分析网站:
http://spotify.github.io/threaddump-analyzer/

可以在线将jstack的日志更加直观的展示出来。

分析后看到的日志很简单:

//... 省略
"car_lib_sync86": awaiting notific
  
 
  • 1

文章来源: chenhx.blog.csdn.net,作者:谙忆,版权归原作者所有,如需转载,请联系作者。

原文链接:chenhx.blog.csdn.net/article/details/112630222

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。