建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

qwertyuiopasdfg

发帖: 15粉丝: 1

发消息 + 关注

发表于2020年07月12日 09:18:27 743 2
直达本楼层的链接
楼主
显示全部楼层
[训练管理] 【实战营提问】断点训练实践的问题

在我的另一个提问中,专家回答使用断点训练的方法实现先自固定学习率后适应学习

1)当我依照说明的帖子实践的时候,只有当训练参数和那个生成checkpoint的训练的参数一样时才能运行成功断点训练,否则会运行失败(修改rl后运行就会失败),即我在尝试时只能实现断点继续训练的功能,而没能够实现先自固定学习率后适应学习的功能。请问该这个参数怎么设置来用checkpoint实现先自固定学习率后适应学习?

2)发现只有成功运行后在obs里才会出现checkpoint,如果中断则没有(训练时间远远超过设定的保存模型的间隔时间的情况下)。但是在日志中确实定期输出了保存chepoint的内容。请问为什么是这样的?不是 会定期将checkpoint文件保存到模型输出OBS路径 吗?为什么日志中保存了但obs中没有呢?

举报
分享

分享文章到朋友圈

分享文章到微博

HWCloudAI

发帖: 206粉丝: 2676

发消息 + 关注

发表于2020年07月12日 10:06:46
直达本楼层的链接
沙发
显示全部楼层

你好,问题已收到,已安排专家回复,请耐心等待。

点赞 评论 引用 举报
发表于2020年07月13日 10:54:27
直达本楼层的链接
板凳
显示全部楼层

1)正常修改lr是不会影响再训练的,可以提供一下两个训练作业的jobid,我们这边再帮您看一下问题原因

2)AI市场的预置算法使用了输出通道映射,作业运行过程中的输出路径不再是obs路径,因此日志中的定期保存也只是先保存在本地路径,而非obs路径

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册