建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

DrDr

发帖: 6粉丝: 0

发消息 + 关注

发表于2021年04月02日 10:16:36 135 4
直达本楼层的链接
楼主
显示全部楼层
[问题求助] 【mindspore】【resnet_thor模型】尝试运行resnet_thor时报Could not convert to

【功能模块】

用mindspore-ascend-1.1.1 运行resnet_thor(仓库地址:https://gitee.com/mindspore/mindspore/tree/master/model_zoo/official/cv/resnet_thor时报错。


【操作步骤&问题现象】

1、解压imagenet2012数据集

2、注释掉src/dataset_helper.py中的160-162行(否则这里会抛出异常)

image.png

3、cd resnet_thor && python train.py --dataset_path=/home/ImageNet2012_origin


报错信息:
WARNING: 'ControlDepend' is deprecated from version 1.1 and will be removed in a future version, use 'Depend' instead.
[ERROR] CORE(167346,python):2021-03-31-17:06:03.564.646 [mindspore/core/utils/status.cc:43] Status] Thread ID 281470327271920 Unexpected error. Could not convert to CV Tensor
Line of code : 142
File : /home/jenkins/agent-working-dir/workspace/Compile_Ascend_ARM_Ubuntu/mindspore/mindspore/ccsrc/minddata/dataset/kernels/image/image_utils.cc

Traceback (most recent call last):
File "train.py", line 143, in
model.train(config.epoch_size, dataset, callbacks=cb)
File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/model.py", line 592, in train
sink_size=sink_size)
File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/model.py", line 391, in _train
self._train_dataset_sink_process(epoch, train_dataset, list_callback, cb_params, sink_size)
File "/home/resnet_thor/src/model_thor.py", line 183, in _train_dataset_sink_process
iter_first_order=iter_first_order)
File "/home/resnet_thor/src/model_thor.py", line 122, in _exec_preprocess
dataset_helper = DatasetHelper(dataset, dataset_sink_mode, sink_size, epoch_num, iter_first_order)
File "/home/resnet_thor/src/dataset_helper.py", line 72, in init
self.iter = iterclass(dataset, sink_size, epoch_num, iter_first_order)
File "/home/resnet_thor/src/dataset_helper.py", line 156, in init
super().init(dataset, sink_size, epoch_num)
File "/home/resnet_thor/src/dataset_helper.py", line 106, in init
dataset.transfer_dataset = _exec_datagraph(dataset, self.sink_size)
File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/_utils.py", line 62, in _exec_datagraph
dataset_types, dataset_shapes = _get_types_and_shapes(exec_dataset)
File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/_utils.py", line 51, in _get_types_and_shapes
dataset_types = _convert_type(dataset.output_types())
File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/dataset/engine/datasets.py", line 1443, in output_types
self.saved_output_shapes = runtime_getter[0].GetOutputShapes()
RuntimeError: Thread ID 281470327271920 Unexpected error. Could not convert to CV Tensor
Line of code : 142
File : /home/jenkins/agent-working-dir/workspace/Compile_Ascend_ARM_Ubuntu/mindspore/mindspore/ccsrc/minddata/dataset/kernels/image/image_utils.cc


报错截图:

image.png

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

chengxiaoli

发帖: 154粉丝: 27

级别 : 版主,版块专家

发消息 + 关注

发表于2021年04月02日 13:56:12
直达本楼层的链接
沙发
显示全部楼层

您好,欢迎使用MindSpore。

问题已经收到,正在联系专家分析,会尽快给您答复。


点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

zhaoting_731

发帖: 1粉丝: 0

发消息 + 关注

发表于2021年04月06日 15:36:54
直达本楼层的链接
板凳
显示全部楼层

看报错应该是数据集使用方式不对,应该是数据集路径没有使用到训练那级的路径,排查下数据集,可以试下

python train.py --dataset_path=/home/ImageNet2012_origin/train


评论
DrDr 2021-4-6 20:14 评论

感谢回复!原来的报错解决了,但又遇到了新的问题,见下面我的回帖。可否帮忙再看一下,非常感谢~

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

DrDr

发帖: 6粉丝: 0

发消息 + 关注

发表于2021年04月06日 20:13:09
直达本楼层的链接
地板
显示全部楼层

参考了@zhaoting_731 做了修改后,原来的问题解决了,但是遇到了新的报错

image.png

看起来似乎和hccl 多卡训练有关系,但我运行的命令是:

python train.py --dataset_path=/home/ImageNet2012_origin/ilsvrc

所以run_distribute是默认的False,走的应该是单卡训练

错误信息:

WARNING: 'ControlDepend' is deprecated from version 1.1 and will be removed in a future version, use 'Depend' instead.

WARNING: 'ControlDepend' is deprecated from version 1.1 and will be removed in a future version, use 'Depend' instead.

[ERROR] HCCL_ADPT(78728,python):2021-04-06-20:10:05.673.721 [mindspore/ccsrc/runtime/hccl_adapter/hccl_adapter.cc:124] GenTask] : The pointer[ops_kernel_builder] is null.

Traceback (most recent call last):

  File "train.py", line 143, in <module>

    model.train(config.epoch_size, dataset, callbacks=cb)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/model.py", line 592, in train

    sink_size=sink_size)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/train/model.py", line 391, in _train

    self._train_dataset_sink_process(epoch, train_dataset, list_callback, cb_params, sink_size)

  File "/home/thor/mindspore/model_zoo/official/cv/resnet_thor/src/model_thor.py", line 254, in _train_dataset_sink_process

    outputs = self._train_network(*inputs)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/nn/cell.py", line 322, in __call__

    out = self.compile_and_run(*inputs)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/nn/cell.py", line 578, in compile_and_run

    self.compile(*inputs)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/nn/cell.py", line 565, in compile

    _executor.compile(self, *inputs, phase=self.phase, auto_parallel_mode=self._auto_parallel_mode)

  File "/usr/local/python3.7.5/lib/python3.7/site-packages/mindspore/common/api.py", line 505, in compile

    result = self._executor.compile(obj, args_list, phase, use_vm)

RuntimeError: mindspore/ccsrc/runtime/hccl_adapter/hccl_adapter.cc:124 GenTask] : The pointer[ops_kernel_builder] is null.


评论
chengxiaoli 7 天前 评论

用户您好,感谢您使用MindSpore。 您这里提出的问题我们的专家已给出解答,希望能够帮助您解决问题。因为较长时间未收到您的回应,所以这里对您的问题进行了结帖。 如果您有其他问题可以创建新的问题帖继续提问,谢谢您的支持~

... 查看全部
点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复

zhaoting_731

发帖: 1粉丝: 0

发消息 + 关注

发表于2021年04月07日 10:35:29
直达本楼层的链接
5#
显示全部楼层

你好,我们model zoo中的这个示例主要是针对多卡场景的,目前我们已经将resnet及resnet_thor脚本合并为resnet,如果想要运行单卡训练的话,推荐使用resnet目录下的代码,将src/config.py中的优化器改为Thor,然后按照README 执行训练。如:

python train.py --net=resnet50 --dataset=imagenet2012 --device_target=Ascend --dataset_path=[DATASET_PATH]


点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

邀请回答
您可以邀请3位专家

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200