他的回复:
多卡训练可以通过设置batchsize,让一个step训练更多数据,从而加快训练速度,但是模型的收敛速度也会因为batchsize的增大而变化,需要调整训练的策略。比如一般为了发挥多卡的优势,一个step使用的batchsize为卡数*单卡batchsize。此时一个step训练的batchsize已经增大了,相应的学习率也需要增大(一般为多卡数量倍数)。模型参数保存问题,你的保存操作是在训练的哪个阶段进行的?一般来讲,只要在每个step训练完成后进行保存的,就是已经把多卡聚合之后的模型参数了;