解决：模型训练时loss出现nan

野猪佩奇996 发表于 2022/06/23 23:29:42 2022/06/23

【摘要】问题描述模型训练时loss出现nan 解决方案采用amp 导致溢出出现nan数据里有nan特定类lossnorm 可能出现sigma=0？调试比如写代码时碰到一个地方抛出了exce...

问题描述

模型训练时loss出现nan

比如写代码时碰到一个地方抛出了exception，可以直接打断点看为何报错了。理论上对于出现nan的，也可以设置条件断点来看当时的情况？判断是weights的问题，还是数据的问题？而且框架应该会提供更加完善的sdk，例如tf board这种。

字节兄：做算法的喜欢把软件当成黑盒来用，换个参数调包可能就好了，做工程的喜欢各种抽象设计，一个小功能要排期两周。

文章来源: andyguo.blog.csdn.net，作者：山顶夕景，版权归原作者所有，如需转载，请联系作者。

原文链接：andyguo.blog.csdn.net/article/details/125419194

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。