全部建议 > 建议详情
  • 预审中
  • 预审通过
  • 已采纳
  • 4 已实现

【用户体验】已错误定位在这句,导致device0被占用,也不知错误原因 已实现 编辑 删除

  • AI开发平台ModelArts
  • EI基础平台

问题描述:

我在modelarts运行mindspore平台附件的主运行程序gpt2_dataset_errtest_model.py内

开头增加:

context.set_context(mode=context.GRAPH_MODE, device_target="Ascend")

context.set_context(device_id=device_id)


然后程序就会出错提示device0 被占用,这个问题如何解决,代码见我的附件

注释掉context.set_context(device_id=device_id)或者

注释掉 context.set_context(mode=context.GRAPH_MODE, device_target="Ascend")

 任一句程序都是可以通过的,这个问题太奇怪了,对用户使用来说完全摸不着头脑,调试了N天才发现这个错误位置

后有网友指出是手动指定device_id就会报错,但官方的文档和例子都没有在这块好好说明一下,而这两句是很基本和重要的系统配置语句


那为什么看了官方的几个example:sample_for_cloud,transformer和bert都是完全一样或者类似手动指定device_id的呢,我也是按着例子学的

对我很重要的问题,就是因为这个我的gpt2模型一直无法通过运行,而且靠猜测调试了很久,才定位到这句话出问题,但定位到了,也不知错误原因,模型简化后附上附件


打印错误提示如下:

xmask=[[1 0 1 0]

[1 0 1 0]

[1 0 1 0]

[1 0 1 0]]

ds.get_dataset_size=16

ds.output_shapes=[[4, 4], [4, 4]]

[ERROR] UTILS(163,python):2020-08-15-06:31:42.435.319 [mindspore/ccsrc/utils/context/ms_context.cc:216] OpenTsd] Device 0 is occupied, open tsd failed, status = 16986314.

Traceback (most recent call last):

File "/home/work/user-job-dir/data_err_model/gpt2_dataset_errtest_model.py", line 117, in <module>

netwithloss = GPT2NetworkWithLoss(None, True)

File "/home/work/user-job-dir/data_err_model/gpt2_dataset_errtest_model.py", line 60, in __init__

super(GPT2NetworkWithLoss, self).__init__(auto_prefix=False)

File "/usr/local/ma/python3.7/lib/python3.7/site-packages/mindspore/nn/cell.py", line 71, in __init__

init_backend()

RuntimeError: mindspore/ccsrc/utils/context/ms_context.cc:216 OpenTsd] Device 0 is occupied, open tsd failed, status = 16986314.

[Modelarts Service Log]Training end with return code: 1

[Modelarts Service Log]2020-08-15 06:31:43,745 - ERROR - FMK of device7 (pid: [163]) has exited with non-zero code: 1

[Modelarts Service Log]2020-08-15 06:31:43,745 - INFO - Begin destroy FMK processes

[Modelarts Service Log]2020-08-15 06:31:43,745 - INFO - FMK of device7 (pid: [163]) has exited





建议方案:

context.set_context(device_id=device_id)

这句话的意义是什么,什么情况下要加,或者不加,例子基本都有加这一项配置,为什么会导致系统崩溃

麻烦能在帮助文档上好好说说系统配置的问题,特别是这种几乎各个模型都要的项目配置

xiechris xiechris 发布于 2020-08-17 22:24:58 2020-08-17

3228 2

0%
0人赞同
0%
0人不赞同

全部评论(2

评论(2

  • 【云声小管家】 思雨 2021-04-16 16:50:07

    您提出的建议产品团队已经优化上线解决啦,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!

  • 【云声小管家】 思雨 2020-08-19 11:12:12

    非常感谢您的反馈,您的建议我们已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解建议进一步处理进展,感谢您对华为云的支持!

登录后可评论,请 注册

0/1000

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

评论
发表评论...
取消 发表

0/1000

评论成功

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

删除建议

设置昵称

在此一键设置昵称,即可发表云声建议!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。