- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

sam模型迁移昇腾训练loss不收敛问题的解决办法

yd_269156338 发表于 2025/01/17 14:37:01 2025/01/17

【摘要】一、问题描述1.在进行sam模型迁移到昇腾的时候存在精度问题，模型链接：https://github.com/facebookresearch/segment-anything2 .两台机器上训练loss图对比，发现从一开始训练的时候就出现了差别，从图中对比看出来npu第一步就开始没有向下收敛，而gpu是向下收敛。二、问题分析过程1.准备dump精度对比看看区别，使用Ascend开源仓的ms...

一、问题描述

1.在进行sam模型迁移到昇腾的时候存在精度问题，模型链接：

https://github.com/facebookresearch/segment-anything

2 .两台机器上训练loss图对比，发现从一开始训练的时候就出现了差别，从图中对比看出来npu第一步就开始没有向下收敛，而gpu是向下收敛。

二、问题分析过程

1.准备dump精度对比看看区别，使用Ascend开源仓的msprobe工具进行精度对比

debug/accuracy_tools/msprobe/docs/01.installation.md · Ascend/mstt - Gitee.com

工具安装命令：

 pip install mindstudio-probe

2.然后在训练脚本部分加代码，按照示例添加代码

使用示例可参见Ascend开源仓的PyTorch 场景的精度数据采集示例代码 2.1 快速上手和 2.2 采集完整的前反向数据。

3.添加start函数

功能说明：启动精度数据采集，在模型初始化之后的位置添加，需要与 stop 函数一起添加在 for 循环内。

 debugger.start(model=None)

model：指定具体的 torch.nn.Module，默认未配置，level 配置为"L0"或"mix"时，必须在该接口或 PrecisionDebugger 接口中配置该参数。本接口中的 model 比 PrecisionDebugger 中 model 参数优先级更高，会覆盖 PrecisionDebugger 中的 model 参数。

4.添加stop函数

功能说明：停止精度数据采集，在 start 函数之后的任意位置添加，若需要 dump 反向数据，则需要添加在反向计算代码（如，loss.backward）之后。

 debugger.stop()
from msprobe.pytorch import PrecisionDebugge
debugger = PrecisionDebugger(config_path='./config.json')
...
debugger.start() # 一般在训练循环开头启动工具
... # 循环体
debugger.stop() # 一般在训练循环末尾结束工具
debugger.step() # 在训练循环的最后需要重置工具，非循环场景不需要

这里的config.json也可以设置很多种类型，这里选用tensor模式和mix级。

{
    "task": "tensor",
    "dump_path": "/home/data_dump",
    "rank": [],
    "step": [],
    "level": "mix",
    "tensor": {
        "scope": [],
        "list":[],
        "data_mode": ["all"]
    }
}

5.直接运行训练脚本，在数据dump下来之后跟gpu的精度进行对比。图 3 npu和gpu精度的对比图 3 npu和gpu精度的对比

图 3 npu和gpu精度的对比

npu在这里丢了image_embedding的梯度，因为该模型用到了Reg_op(RepeatInterleaveGrad)这个算子，接下来分析cann包是否有这个算子发现是有的但是通过进入python后调用torch_npu.repeat_interleave_backward_tensor这个函数，发现调用失败。

调用失败显示 ：AttributeError: module 'torch_npu' has no attribute 'repeat_interleave_backward_tensor'

6.查看torch_npu版本，发现是2.1post3和pytorch2.1版本不配套。

三、解决方法

通过查看昇腾torch_npu的版本与pytorch的配套表，选择对应的torch_npu版本：https://gitee.com/ascend/pytorch

选用配套版本后，函数调用成功，loss图也正常。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

sam模型迁移昇腾训练loss不收敛问题的解决办法

一、问题描述

二、问题分析过程

三、解决方法

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

sam模型迁移昇腾训练loss不收敛问题的解决办法

一、问题描述

二、问题分析过程

三、解决方法

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品