昇腾学院 | 案例分享 Atlas 800 3010 运行业务情况下ssh连接失败问题

举报
xiongoal 发表于 2020/03/30 16:35:13 2020/03/30
【摘要】 问题现象描述问题现象:一台Atlas800 3010服务器,能ping通,但是无法ssh进去,BMC也进不去(能看到界面,无法登陆),如下图,服务器显示界面:BMC相关错误日志:关键过程、根本原因分析关键过程:1、Atlas 800 3010部署ISV业务软件,一台2288H V5服务器配置5张Atlas 300 3010加速卡。2、加载128路1080P 视频流运行视频结构化业务。3、突然...

问题现象描述

问题现象:一台Atlas800 3010服务器,能ping通,但是无法ssh进去,BMC也进不去(能看到界面,无法登陆),如下图,服务器显示界面:

1.jpg

BMC相关错误日志:

1.png

关键过程、根本原因分析

关键过程:

1Atlas 800 3010部署ISV业务软件,一台2288H V5服务器配置5Atlas 300 3010加速卡。

2、加载1281080P 视频流运行视频结构化业务。

3、突然SSH断开连接,可以通过同网段服务器ping通,但是无法正常登陆,且BMC界面可以打开。

服务器接入显示屏,界面出现hdcdrv驱动打印信息,表示host侧与device侧的session通道已经断开,但是业务不断地再发送数据。

4BMC界面的PCIE报错,表示PCIE驱动尝试4次连接,握手失败。

5、一段时间后,ssh连接成功,此时系统的内存占用率非常高,导致连接失败。

根本原因分析:

1host端内存占用率过高。

结论、解决方案及效果

结论:

1、因内存占用率过高导致无法登陆服务器操作系统。

经验总结、预防措施和规范建议

创建 CPU 或内存使用率阈值告警,当 CPU 或内存使用率超过阈值时,设置回收机制或者进行及时通知。

备注


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200