解决:模型训练时loss出现nan

举报
野猪佩奇996 发表于 2022/06/23 23:29:42 2022/06/23
【摘要】 问题描述 模型训练时loss出现nan 解决方案 采用amp 导致溢出出现nan数据里有nan特定类lossnorm 可能出现sigma=0? 调试 比如写代码时碰到一个地方抛出了exce...

问题描述

模型训练时loss出现nan

解决方案

  1. 采用amp 导致溢出出现nan
  2. 数据里有nan
  3. 特定类loss
  4. norm 可能出现sigma=0?

调试

比如写代码时碰到一个地方抛出了exception,可以直接打断点看为何报错了。理论上对于出现nan的,也可以设置条件断点来看当时的情况?判断是weights的问题,还是数据的问题?而且框架应该会提供更加完善的sdk,例如tf board这种。

字节兄:做算法的喜欢把软件当成黑盒来用,换个参数调包可能就好了,做工程的喜欢各种抽象设计,一个小功能要排期两周。

文章来源: andyguo.blog.csdn.net,作者:山顶夕景,版权归原作者所有,如需转载,请联系作者。

原文链接:andyguo.blog.csdn.net/article/details/125419194

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。