william_2021的论坛回复_云社区-华为云

Lv.1

william_2021

更多个人资料

0 成长值

0 关注

1 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

主题(3) | 回复(8)

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

他的回复:

如何给每张卡分配不同数据，是在ds.GeneratorDataset传num_shards=num_shards, shard_id=device_id还是自定义数据集里面__getitem__取数据的时候传rank id？

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

他的回复:

数据集需要传rand_id分别读不同数据吗？还是读一样的？每张卡batchsize都是32。

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

他的回复:

我的数据集很小，训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了，切分数据集反而导致每张卡更难收敛，需要的epoch更多？

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

他的回复:

mindspore1.2.0，我现在判断get_rank()==0才打印和保存模型。但有另一个问题，多卡训练要达到同样精度需要更多epoch。单卡可以5epoch达到0.9，多卡需要40-50epoch。学习率，batchsize不变情况下。

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

[查看详情]

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

他的回复:

如下图，开启4卡训练，4进程。为何打印重复显示4次。莫非这4个进程同时训练的权重最后没有合并结果？我是自定义训练循环TrainCallback打印信息并每隔一定step eval模型一次。

多卡训练保存权重问题

发布时间 2021/03/31 17:53:46 最后回复 T_c_D 2021/04/01 11:43:58 版块 AI开发平台ModelArts

1880 15 0

[查看详情]

云道npu多卡训练如何确保传入的devid正确

发布时间 2021/03/31 09:15:10 最后回复 JeffDing 2021/03/31 19:42:44 版块 AI开发平台ModelArts

1965 3 0

他的回复:

解决了，就是读环境变量