建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

augc

发帖: 1粉丝: 0

发消息 + 关注

发表于2020年11月05日 14:49:35 134 4
直达本楼层的链接
楼主
显示全部楼层
[开发环境] 【ModelArts】【Ascend910 训练】无法使用NPU

【操作步骤&问题现象】

  Mindspore-1.0 Ascend910 8卡 环境训练时,虽然能顺利运行代码,但是NPU使用率一直为零,运行速度很慢,日志显示找不到驱动,并且报一些很奇怪的EOF错误:

[WARNING] ME(935:281473828331536,MainProcess):2020-11-05-06:10:25.360.387 [mindspore/_version_check.py:172] Using custom Ascend 910 AI software package path, package version checking is skiped, please make sure Ascend 910 AI software package version is supported, you can reference to the installation guidelines https://www.mindspore.cn/install
[WARNING] ME(935:281473828331536,MainProcess):2020-11-05-06:10:25.360.635 [mindspore/_version_check.py:225] Can not find ccec_compiler(need by mindspore-ascend), please check if you have set env PATH, you can reference to the installation guidelines https://www.mindspore.cn/install
[WARNING] ME(935:281473828331536,MainProcess):2020-11-05-06:10:25.360.717 [mindspore/_version_check.py:230] Can not find tbe op implement(need by mindspore-ascend), please check if you have set env PYTHONPATH, you can reference to the installation guidelines https://www.mindspore.cn/install
[WARNING] ME(935:281473828331536,MainProcess):2020-11-05-06:10:25.360.784 [mindspore/_version_check.py:236] Can not find driver so(need by mindspore-ascend), please check if you have set env LD_LIBRARY_PATH, you can reference to the installation guidelines https://www.mindspore.cn/install


>>>>>>>>>> CCEIslEmitter <<<<<<<<<<
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF
syntax error (1, 1): unexpected EOF


程序运行时的环境变量如下:

PYTHONUNBUFFERED=1
LD_LIBRARY_PATH=/home/work/anaconda/lib:/usr/local/cuda/extras/CUPTI/lib64:/usr/local/lib:/usr/local/openmpi/lib:/usr/lib/aarch64-linux-gnu/hdf5/serial:/usr/local/Ascend/add-ons:/usr/local/Ascend/nnae/latest/fwkacllib/lib64:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64/driver:
BATCH_TASK_CURRENT_HOST_IP=192.168.0.186
BATCH_GROUP_NAME=job-test-ascend
DLS_AES__AWS_SECRET_ACCESS_KEY=SiQMrTOGG/PajXFYvJ+IOqAspd8RQY2D3i2VnlSO5WOKOPDI8PBfxbqF2ykQfH3+lHXhafPf1CqcotnhkjimHw==
SOC_VERSION=Ascend910
S3_ACCESS_KEY_ID=R0MD1BKFSFABJD29YXHG
DLS_USE_DOWNLOADER=1
VK_TASK_INDEX=0
TF_PLUGIN_PKG=/usr/local/Ascend/tfplugin/latest/tfplugin/python/site-packages
DLS_KEY_PROJECT_ID=07d9825b9b8025e52f17c002007ffb7b
BATCH_JOB-TEST-ASCEND_HOSTS=job44c7dc16-job-test-ascend-0.job44c7dc16:6666
DLS_KEY_ENDPOINT=modelarts-job-manager-internal.cn-north-4.myhuaweicloud.com:50000/v1
HOSTNAME=job44c7dc16-job-test-ascend-0
OLDPWD=/home/work
BATCH_JOB_ID=job44c7dc16
AWS_SECRET_ACCESS_KEY=MbdjdZQ1SWnGJKcyxmFVU6zWA8UXBJeJtS4Pplxk
BATCH_TASK_INDEX=0
DLS_AES__S3_SECRET_ACCESS_KEY=SiQMrTOGG/PajXFYvJ+IOqAspd8RQY2D3i2VnlSO5WOKOPDI8PBfxbqF2ykQfH3+lHXhafPf1CqcotnhkjimHw==
NPU-VISIBLE-DEVICES=1
DLS_KEY_USE_HTTPS=1
JAVA_HOME=/home/work/jdk1.8.0_212
DLS_KEY_VERIFY_SSL=0
CLASS_PATH=.:/home/work/jdk1.8.0_212/lib/dt.jar:/home/work/jdk1.8.0_212/lib/tools.jar:/home/work/jdk1.8.0_212/jre/lib
MA_ENGINE_TYPE=dengine
MA_MOUNT_SERVICE_ACCOUNT_TOKEN=false
TBE_IMPL_PATH=/usr/local/Ascend/nnae/latest/opp/op_impl/built-in/ai_core/tbe
FE_FLAG=1
BATCH_TASK_LOG_PATH=/var/log/batch-task/job44c7dc16/job-test-ascend
S3_SECRET_ACCESS_KEY=MbdjdZQ1SWnGJKcyxmFVU6zWA8UXBJeJtS4Pplxk
LOG_STDERR_OBS=obs://yf-fnlp/test-ascend/log/
FWK_PYTHON_PATH=/usr/local/Ascend/nnae/latest/fwkacllib/python/site-packages
PWD=/home/work/user-job-dir
HOME=/home/work
LOG_STDOUT_OBS=obs://yf-fnlp/test-ascend/log/
S3_USE_HTTPS=1
RANK_TABLE_FILE=/home/work/rank_table/jobstart_hccl.json
BATCH_TASK_CURRENT_INSTANCE=job44c7dc16-job-test-ascend-0
S3_ENDPOINT=obs.cn-north-4.myhuaweicloud.com
BATCH_CURRENT_SERVICE=job44c7dc16-job-test-ascend-0.job44c7dc16
GLOG_v=2
FMK_WORKSPACE=/home/work/workspace
S3_VERIFY_SSL=0
BATCH_TASK_NAME=job-test-ascend.0
PAAS_POD_ID=c35e7ca3-1e6e-11eb-b655-fa163e3cf769
S3_REGION=cn-north-4
BATCH_OUTPUT_PATH=shm volume /dev/shm
OPTION_EXEC_EXTERN_PLUGIN_PATH=/usr/local/Ascend/fwkacllib/lib64/plugin/opskernel/libfe.so:/usr/local/Ascend/fwkacllib/lib64/plugin/opskernel/libaicpu_plugin.so:/usr/local/Ascend/fwkacllib/lib64/plugin/opskernel/librts_engine.so:/usr/local/Ascend/fwkacllib/lib64/plugin/opskernel/libge_local_engine.so
PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION=python
BATCH_CLUSTER_ID=fb7d9bf1-6dc2-11ea-befa-0255ac101d4c
ASCEND_OPP_PATH=/usr/local/Ascend/nnae/latest/opp
AWS_ACCESS_KEY_ID=R0MD1BKFSFABJD29YXHG
DEPLOY_MODE=1
SHLVL=2
PYTHONPATH=/home/work/user-job-dir:/usr/local/Ascend/nnae/latest/fwkacllib/python/site-packages:/usr/local/Ascend/nnae/latest/fwkacllib/python/site-packages/auto_tune.egg:/usr/local/Ascend/nnae/latest/fwkacllib/python/site-packages/schedule_search.egg:/usr/local/Ascend/tfplugin/latest/tfplugin/python/site-packages:/usr/local/Ascend/nnae/latest/opp/op_impl/built-in/ai_core/tbe:
BATCH_TASK_REPLICAS=1
BATCH_CURRENT_PORT=6666
DLS_KEY_JOB_ID=fakeJobId
ME_TBE_PLUGIN_PATH=/usr/local/Ascend/opp/framework/built-in/tensorflow/
MA_ENABLE_SERVICE_LINK=false
project_id=0575442c1c8010e02f0cc016a9b3ff2c
JRE_HOME=/home/work/jdk1.8.0_212/jre
PATH=/home/work/anaconda/bin:/home/work/jdk1.8.0_212/bin:/home/work/jdk1.8.0_212/jre/bin:/home/work/ddk/bin/x86_64-linux-gcc5.4:/usr/local/openmpi/bin:/usr/local/ma/python3.7/bin/:/usr/local/Ascend/nnae/latest/fwkacllib/ccec_compiler/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
BATCH_CURRENT_HOST=job44c7dc16-job-test-ascend-0.job44c7dc16:6666
DLS_LOCAL_CACHE_PATH=/cache
DLS_KEY_VERIFY_CODE=kpCapKTg/YAh1c/Ewp/CKw==
ASCEND_HOME=/usr/local/Ascend
AICPU_FLAG=1
_=/usr/bin/stdbuf
_STDBUF_O=L
_STDBUF_E=L
LD_PRELOAD=/usr/libexec/coreutils/libstdbuf.so
LC_CTYPE=C.UTF-8
JOB_ID=job44c7dc16
DEVICE_ID=0
RANK_ID=0
RANK_SIZE=1
HCCL_CONNECT_TIMEOUT=1800


【截图信息】

NPU使用率和NPU内存占用始终为0

image.png


【日志信息】(可选,上传日志内容或者附件)

日志文件


jobe527ed7e-job-bert-sp-v2.0-0-0--v2-0_default-stdout.log.txt 343.64 KB,下载次数:1

举报
分享

分享文章到朋友圈

分享文章到微博

HWCloudAI

发帖: 214粉丝: 2682

发消息 + 关注

发表于2020年11月05日 14:59:35
直达本楼层的链接
沙发
显示全部楼层

请稍等,专家在路上

点赞 评论 引用 举报

Tianyi_Li

发帖: 385粉丝: 196

发消息 + 关注

发表于2020年11月05日 15:15:22
直达本楼层的链接
板凳
显示全部楼层

1. NPU使用率一直为零,运行速度很慢.

你是说这个训练作业显示的位置吗?如图所示:

image.png

这个位置显示,我以前咨询过工程师,说是目前显示存在点问题,可以不以此为准。

2. 日志显示找不到驱动,并且报一些很奇怪的EOF错误:

syntax error (1, 1): unexpected EOF

你说的是这个吗?这个我感觉想是语法错误,好像是你有什么地方写的不对,比如少了个右括号之类的。

至于[WARNING] ME(935:281473828331536,MainProcess):2020-11-05-06:10:25.360.784 [mindspore/_version_check.py:236] Can not find driver so(need by mindspore

你的意思是这个显示找不到驱动?这个级别是[WARNING],警告级别,一般来讲不会影响程序运行。


建议现在NoteBook中使用单卡Ascend 910训练调试成功后,逐步移植到训练作业多卡,你的单卡成功吗?

点赞 评论 引用 举报

augc

发帖: 1粉丝: 0

发消息 + 关注

发表于2020年11月05日 15:46:39
直达本楼层的链接
地板
显示全部楼层

代码没问题,应该和单卡多卡没关系,之前在装了0.5版本mindspore的ModelArts上运行没问题,使用的是mindspore官方提供的BERT代码。现在因为云上环境升级,我用1.0版本mindspore的服务器跑相同的代码,可以对比出来之前0.5版明显快很多,并且0.5版也没有输出上面我提到的这些日志。

再加上这个日志信息:

Can not find ccec_compiler(need by mindspore-ascend)

可能没配置好mindspore,导致没用上ascend,而是运行cpu版?我也无法确定,但因为确实速度相比之前0.5版下降明显,所以想咨询一下~


点赞 评论 引用 举报

Tianyi_Li

发帖: 385粉丝: 196

发消息 + 关注

发表于2020年11月05日 15:55:21
直达本楼层的链接
5#
显示全部楼层
  1. 你是用的是官方提供的MindSpore 1.0环境吧,官方在发布时应该是测试过的,应该不会没有安装好;

  2. 记得MindSpore运行的时候,会指定设备类型,选择Ascend,如果没报错的话,应该用的就是Ascend,不会是CPU,而且8卡Ascend 910的配置,安装的应该也不会是CPU版本MIndSpore吧。

  3. 我总结一下:你目前可以正常运行代码,问题是运行的速度会比之前0.5版本慢,但是是基于同样的数据集,同样的代码,除了MindSpore版本不同外,其他都一样,同样是8卡训练,你想知道为什么会慢?
    如果说的话,应该更新后的框架至少不会慢才对;但也可能新版本对老版本某些部分修改了,所以导致变慢。

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册