Lv.1
yd_261617249
更多个人资料
0
成长值
0
关注
0
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
个人勋章
TA还没获得勋章~
成长雷达
0
0
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
主题
(2)
|
回复
(3)
求助,多节点910b1(32G) 能跑但多节点910b3(64G)报错,显示RDMA通信重传超次
发布时间
2025/08/29 14:15:36
最后回复
AI百校计划技术专家
2025/09/04 11:15:39
版块
华为AI百校计划
46
7
1
他的回复:
能通过作业id查看到详细的作业信息吗? 选用 3 节点 9b3 后,报错失败的作业 id: 00811b2e-32bc-4067-822e-de216e90441a 只选用 1 节点 9b3后,同样的代码成功运行的作业 id:d6eb3289-977e-4f82-9405-d6b4659995a7
怀疑遇到npu硬件故障
发布时间
2025/08/23 20:09:55
最后回复
yd_261617249
2025/08/29 18:06:44
版块
华为AI百校计划
26
4
0
他的回复:
测试过后是可以的,前两天与你们工程师开会排查,4 卡 notebook,单卡运行 选 0、1、2 卡都没问题,选到 3 卡(对应物理 id 是 7 卡)就报错。最后后台控制给我的notebook 换了卡之后恢复正常。但那张卡的具体问题好像你们工程师还在后续排查
求助,多节点910b1(32G) 能跑但多节点910b3(64G)报错,显示RDMA通信重传超次
发布时间
2025/08/29 14:15:36
最后回复
AI百校计划技术专家
2025/09/04 11:15:39
版块
华为AI百校计划
46
7
1
他的回复:
但是训练作业里是不是不能指定卡,只能指定完实例数之后等分配?