Lv.1
william_2021
更多个人资料
0
成长值
0
关注
1
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
个人勋章
TA还没获得勋章~
成长雷达
0
0
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
主题
(3)
|
回复
(8)
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
他的回复:
如何给每张卡分配不同数据,是在ds.GeneratorDataset传num_shards=num_shards, shard_id=device_id还是自定义数据集里面__getitem__取数据的时候传rank id?
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
他的回复:
数据集需要传rand_id分别读不同数据吗?还是读一样的?每张卡batchsize都是32。
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
他的回复:
我的数据集很小,训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了,切分数据集反而导致每张卡更难收敛,需要的epoch更多?
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
他的回复:
mindspore1.2.0,我现在判断get_rank()==0才打印和保存模型。但有另一个问题,多卡训练要达到同样精度需要更多epoch。单卡可以5epoch达到0.9,多卡需要40-50epoch。学习率,batchsize不变情况下。
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
[查看详情]
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
他的回复:
如下图,开启4卡训练,4进程。为何打印重复显示4次。莫非这4个进程同时训练的权重最后没有合并结果?我是自定义训练循环TrainCallback打印信息并每隔一定step eval模型一次。
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1873
15
0
[查看详情]
云道npu多卡训练如何确保传入的devid正确
发布时间
2021/03/31 09:15:10
最后回复
JeffDing
2021/03/31 19:42:44
版块
AI开发平台ModelArts
1959
3
0
他的回复:
解决了,就是读环境变量