- 预审中
- 预审通过
- 已采纳
- 4 已实现
【用户体验】已错误定位在这句,导致device0被占用,也不知错误原因 已实现 编辑 删除
- AI开发平台ModelArts
- EI基础平台
问题描述:
我在modelarts运行mindspore平台附件的主运行程序gpt2_dataset_errtest_model.py内
开头增加:
context.set_context(mode=context.GRAPH_MODE, device_target="Ascend")
context.set_context(device_id=device_id)
然后程序就会出错提示device0 被占用,这个问题如何解决,代码见我的附件
注释掉context.set_context(device_id=device_id)或者
注释掉 context.set_context(mode=context.GRAPH_MODE, device_target="Ascend")
任一句程序都是可以通过的,这个问题太奇怪了,对用户使用来说完全摸不着头脑,调试了N天才发现这个错误位置
后有网友指出是手动指定device_id就会报错,但官方的文档和例子都没有在这块好好说明一下,而这两句是很基本和重要的系统配置语句
那为什么看了官方的几个example:sample_for_cloud,transformer和bert都是完全一样或者类似手动指定device_id的呢,我也是按着例子学的
对我很重要的问题,就是因为这个我的gpt2模型一直无法通过运行,而且靠猜测调试了很久,才定位到这句话出问题,但定位到了,也不知错误原因,模型简化后附上附件
打印错误提示如下:
xmask=[[1 0 1 0]
[1 0 1 0]
[1 0 1 0]
[1 0 1 0]]
ds.get_dataset_size=16
ds.output_shapes=[[4, 4], [4, 4]]
[ERROR] UTILS(163,python):2020-08-15-06:31:42.435.319 [mindspore/ccsrc/utils/context/ms_context.cc:216] OpenTsd] Device 0 is occupied, open tsd failed, status = 16986314.
Traceback (most recent call last):
File "/home/work/user-job-dir/data_err_model/gpt2_dataset_errtest_model.py", line 117, in <module>
netwithloss = GPT2NetworkWithLoss(None, True)
File "/home/work/user-job-dir/data_err_model/gpt2_dataset_errtest_model.py", line 60, in __init__
super(GPT2NetworkWithLoss, self).__init__(auto_prefix=False)
File "/usr/local/ma/python3.7/lib/python3.7/site-packages/mindspore/nn/cell.py", line 71, in __init__
init_backend()
RuntimeError: mindspore/ccsrc/utils/context/ms_context.cc:216 OpenTsd] Device 0 is occupied, open tsd failed, status = 16986314.
[Modelarts Service Log]Training end with return code: 1
[Modelarts Service Log]2020-08-15 06:31:43,745 - ERROR - FMK of device7 (pid: [163]) has exited with non-zero code: 1
[Modelarts Service Log]2020-08-15 06:31:43,745 - INFO - Begin destroy FMK processes
[Modelarts Service Log]2020-08-15 06:31:43,745 - INFO - FMK of device7 (pid: [163]) has exited
建议方案:
context.set_context(device_id=device_id)
这句话的意义是什么,什么情况下要加,或者不加,例子基本都有加这一项配置,为什么会导致系统崩溃
麻烦能在帮助文档上好好说说系统配置的问题,特别是这种几乎各个模型都要的项目配置
- data_err_src_model_v2.zip 4.55KB,下载次数:1
3228 2
0/1000
仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB
删除建议
全部评论(2)
评论(2)
您提出的建议产品团队已经优化上线解决啦,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!
非常感谢您的反馈,您的建议我们已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解建议进一步处理进展,感谢您对华为云的支持!