建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

jiong_ms

发帖: 9粉丝: 0

发消息 + 关注

发表于2021年03月27日 17:36:11 1077 11
直达本楼层的链接
楼主
显示全部楼层
[执行问题] mindspore GPU训练过程中,gpu使用率无限增大,导致内存不足,中止训练

image.png

请问有什么办法可以解决GPU内存无限增大的问题?

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

chengxiaoli

发帖: 267粉丝: 38

级别 : 版主,版块专家

发消息 + 关注

发表于2021年03月27日 17:39:12
直达本楼层的链接
沙发
显示全部楼层

您好,欢迎使用MindSpore。

问题已经收到,正在联系专家分析,会尽快给您答复。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

hw_zhenyu

发帖: 0粉丝: 1

发消息 + 关注

发表于2021年03月29日 09:17:27
直达本楼层的链接
板凳
显示全部楼层

请问您的GPU显存多少G,训练的是什么网络呢

评论
jiong_ms 2021-3-29 12:04 评论

您好,我的GPU-TITAN显存12G,训练的网络是VGG16.

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

AI_学习者

发帖: 17粉丝: 5

发消息 + 关注

发表于2021年03月29日 13:10:05
直达本楼层的链接
地板
显示全部楼层

VGG16网络显存消耗挺大的,应该是显存不够了,缩小batchsize试试看,也可以缩小图片尺寸

评论
jiong_ms 2021-3-29 16:04 评论

主要不是内存消耗大的问题,是内存在不断增加。我的输入图像大小是512*512不存在显存不够的问题,batchsize=1也不可能是batchsize过大的问题。主要问题是内存在刚开始占用很小,慢慢变大,然后内存不足。

... 查看全部
AI_学习者 2021-3-29 21:03 评论

评论 jiong_ms:一开始确实是不断增加的,内部在不断申请显存,256*256的图呢?或者先把数据下沉关掉?有些环境中数据下沉开了的话,会有些问题,我的显卡就是

... 查看全部
jiong_ms 2021-3-31 19:28 评论

评论 AI_学习者:我使用的是Pynative模式,应该不存在计算下沉的选项,谢谢你

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

hw_zhenyu

发帖: 0粉丝: 1

发消息 + 关注

发表于2021年03月29日 16:30:54
直达本楼层的链接
5#
显示全部楼层

运行的是model zoo里面的脚本吗?batchsize=1是否可以跑呢?

评论
jiong_ms 2021-3-29 17:27 评论

您好,这是运行的是我自己代码,batchsize=1可以跑,但是只能训练200张图片12G内存就被占完了报错。

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

hw_zhenyu

发帖: 0粉丝: 1

发消息 + 关注

发表于2021年03月29日 16:33:22
直达本楼层的链接
6#
显示全部楼层

看日志报错是在图编译阶段,图编译阶段消耗的显存是不断增加的,图执行阶段每个step的显存消耗就基本不变。

可以把报错的日志再贴出来一些,从第一个ERROR或者WARNING开始

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

jiong_ms

发帖: 9粉丝: 0

发消息 + 关注

发表于2021年03月29日 17:35:37
直达本楼层的链接
7#
显示全部楼层

image.png

您好这是报错的日志。

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

hw_zhenyu

发帖: 0粉丝: 1

发消息 + 关注

发表于2021年03月30日 09:55:19
直达本楼层的链接
8#
显示全部楼层

您好,初步看就是编译阶段的显存不足,编译阶段显存消耗是逐渐上升的。可以进一步确认下:

  1. 使用nvidia-smi命令,查看GPU有没有运行多个进程,是否存在其他进程消耗显存的情况。

  2. export GLOG_v=1打开info级别日志,搜索“CompileGraph graph_id:”字样,看下是否存在多图场景,如果是单图,那就是正常的显存不足报错提示

评论
jiong_ms 2021-3-30 10:40 评论

请问一下这个日志在哪查看,因为我使用的自定义训练过程,并没有使用model.train函数

... 查看全部
jiong_ms 2021-3-30 16:39 评论

您好,我可能存在多图场景,我这里Graph_id有281个,请问这是什么问题呢?我把INFO文件放在下面请您帮忙查看一下,谢谢,下面的Info文件未包含graphid,原因是这个包含Graph_id的info文件>20MB。

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

jiong_ms

发帖: 9粉丝: 0

发消息 + 关注

发表于2021年03月30日 16:43:07
直达本楼层的链接
9#
显示全部楼层

这是两个info文件

mindspore.b2b1e894967b.root.log.INFO.20210330-082843.3878.txt 16.94 KB,下载次数:1

mindspore.b2b1e894967b.root.log.INFO.20210330-082845.4030.txt 16.94 KB,下载次数:1

点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

hw_zhenyu

发帖: 0粉丝: 1

发消息 + 关注

发表于2021年04月01日 11:05:10
直达本楼层的链接
10#
显示全部楼层

Graph_id有281个是不正常的,导致显存不够也是这个问题,具体得看一下您的训练的Python脚本,方便贴出来吗?还有您提到使用的自定义训练过程,并没有使用model.train函数,这块的代码也贴出来看下吧。

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

邀请回答
您可以邀请3位专家

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200