作者小头像 Lv.1
更多个人资料
16 成长值
0 关注
0 粉丝
+ 关注 私信

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据
个人勋章
TA还没获得勋章~
成长雷达
10
6
0
0
0

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • 暂无专栏分类
大模型训练故障异构弹性恢复技术
背景介绍随着大模型技术的发展和其训练规模的不断扩大,集群的故障问题也日益凸显,严重影响模型训练的效率;例如,Meta AI实验室发布的OPT模型,其中OPT-175B[1]的训练时长90天( 900多张GPU),训练期间112次故障,故障恢复时间耗时长,最长一次甚至到80小时;OpenAI GPT-4[2]的训练时长90~100天(2万多张GPU),算力利用率MFU仅32%到36%,而故障恢...
作者小头像 yd_257193061 2025-01-24 14:58:27
674
0
0
2025-01-24 14:58:27
674
0
0
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注