Lv.1
william_2021
更多个人资料
0
成长值
0
关注
1
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
个人勋章
TA还没获得勋章~
成长雷达
0
0
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
暂无数据
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
主题
(43)
|
回复
(38)
华为pytorch1.5.0不能运行两个问题
发布时间
2021/05/27 14:38:24
最后回复
william_2021
2021/05/27 15:58:03
版块
MindStudio
687
2
0
他的回复:
[ERROR]device_count,/usr1/workspace/PyTorch_Apex_Daily_c20tr5/CODE/c10/npu/NPUFunctions.h:48:"get device count of NPU failed"这个问题怎么解决。云道训练
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
他的回复:
如何给每张卡分配不同数据,是在ds.GeneratorDataset传num_shards=num_shards, shard_id=device_id还是自定义数据集里面__getitem__取数据的时候传rank id?
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
他的回复:
数据集需要传rand_id分别读不同数据吗?还是读一样的?每张卡batchsize都是32。
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
他的回复:
我的数据集很小,训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了,切分数据集反而导致每张卡更难收敛,需要的epoch更多?
多卡训练保存权重问题
发布时间
2021/03/31 17:55:29
最后回复
Manson
2021/04/01 11:29:11
版块
MindSpore
733
5
0
他的回复:
我的数据集很小,训练集只有5000样本。batchsize是32.验证码集样本500. 学习率是0.0001。是不是数据集小了,切分数据集反而导致每张卡更难收敛,需要的epoch更多?
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
他的回复:
mindspore1.2.0,我现在判断get_rank()==0才打印和保存模型。但有另一个问题,多卡训练要达到同样精度需要更多epoch。单卡可以5epoch达到0.9,多卡需要40-50epoch。学习率,batchsize不变情况下。
多卡训练保存权重问题
发布时间
2021/03/31 17:55:29
最后回复
Manson
2021/04/01 11:29:11
版块
MindSpore
733
5
0
他的回复:
每隔一定step 验证一次模型,发现多卡训练反而需要更多epoch才能达到同样精度.单卡可以5epoch达到0.9,多卡需要40-50epoch。学习率,batchsize不变情况下
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
[查看详情]
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
他的回复:
如下图,开启4卡训练,4进程。为何打印重复显示4次。莫非这4个进程同时训练的权重最后没有合并结果?我是自定义训练循环TrainCallback打印信息并每隔一定step eval模型一次。
多卡训练保存权重问题
发布时间
2021/03/31 17:53:46
最后回复
T_c_D
2021/04/01 11:43:58
版块
AI开发平台ModelArts
1895
15
0
[查看详情]