在我的另一个提问中,专家回答使用断点训练的方法实现先自固定学习率后适应学习
1)当我依照说明的帖子实践的时候,只有当训练参数和那个生成checkpoint的训练的参数一样时才能运行成功断点训练,否则会运行失败(修改rl后运行就会失败),即我在尝试时只能实现断点继续训练的功能,而没能够实现先自固定学习率后适应学习的功能。请问该这个参数怎么设置来用checkpoint实现先自固定学习率后适应学习?
2)发现只有成功运行后在obs里才会出现checkpoint,如果中断则没有(训练时间远远超过设定的保存模型的间隔时间的情况下)。但是在日志中确实定期输出了保存chepoint的内容。请问为什么是这样的?不是 会定期将checkpoint文件保存到模型输出OBS路径 吗?为什么日志中保存了但obs中没有呢?