【昇腾】NPU Snt9B裸金属服务器npu-smi info出现丢卡现象解决方案
【摘要】 【昇腾】NPU Snt9B裸金属服务器npu-smi info出现丢卡现象解决方案
1. 环境描述
服务器信息: 华为云NPU Snt9B裸金属服务器
操作系统:Euler2.10 Arm 64bit
系统环境相关版本: NPU驱动版本为23.0.rc2、固件版本为6.4.12.1.241
2. 问题现象
执行命令:npu-smi info ,发现丢失一张卡(如图所示卡0不存在),导致业务出现异常
3. 解决办法
导致此现象的原因有两种,需根据实际场景具体分析
执行命令:lspci | grep acc ,检查pci物理链路中NPU卡是否异常
(1)第一种场景如上图,发现丢失一个,正常应该rev结果是20且有8条记录
解决办法:提单给BMS,进行硬件维修
(2)第二张场景rev结果是20且有8条记录
解决办法:NPU驱动和固件需要升级到最新版本
最新昇腾相关驱动和固件下载:https://www.hiascend.com/zh/developer/download/community/result?module=pt+tf+cann
附录命令:
需要收集信息
信息截图:
1、npu-smi info
2、lspci | grep acc
3、非ok状态的卡,用命令查一下:npu-smi info -t health -i (id) -c 0
文件打包收集:
1、msnpureport -f 收集device日志
2、~/ascend/log/ 收集plog日志
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)