昇腾学院 | 案例分享 Atlas 800 3010 运行业务情况下ssh连接失败问题
【摘要】 问题现象描述问题现象:一台Atlas800 3010服务器,能ping通,但是无法ssh进去,BMC也进不去(能看到界面,无法登陆),如下图,服务器显示界面:BMC相关错误日志:关键过程、根本原因分析关键过程:1、Atlas 800 3010部署ISV业务软件,一台2288H V5服务器配置5张Atlas 300 3010加速卡。2、加载128路1080P 视频流运行视频结构化业务。3、突然...
问题现象描述
问题现象:一台Atlas800 3010服务器,能ping通,但是无法ssh进去,BMC也进不去(能看到界面,无法登陆),如下图,服务器显示界面:
BMC相关错误日志:
关键过程、根本原因分析
关键过程:
1、Atlas 800 3010部署ISV业务软件,一台2288H V5服务器配置5张Atlas 300 3010加速卡。
2、加载128路1080P 视频流运行视频结构化业务。
3、突然SSH断开连接,可以通过同网段服务器ping通,但是无法正常登陆,且BMC界面可以打开。
服务器接入显示屏,界面出现hdcdrv驱动打印信息,表示host侧与device侧的session通道已经断开,但是业务不断地再发送数据。
4、BMC界面的PCIE报错,表示PCIE驱动尝试4次连接,握手失败。
5、一段时间后,ssh连接成功,此时系统的内存占用率非常高,导致连接失败。
根本原因分析:
1、host端内存占用率过高。
结论、解决方案及效果
结论:
1、因内存占用率过高导致无法登陆服务器操作系统。
经验总结、预防措施和规范建议
创建 CPU 或内存使用率阈值告警,当 CPU 或内存使用率超过阈值时,设置回收机制或者进行及时通知。
备注
无
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)