Lv.2
づ ̄3 ̄づ╭❤~
更多个人资料
136
成长值
2
关注
1
粉丝
+ 关注
私信
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能
个人勋章
TA还没获得勋章~
成长雷达
130
6
0
0
0
个人资料
个人介绍
这个人很懒,什么都没有留下
感兴趣或擅长的领域
人工智能
达成规则
以上满足
项可达成此勋章
博客
关注
粉丝
论坛
全部时间
全部时间
最近三天
最近一周
最近一月
全部
暂无专栏分类
【ModelArts】能在CloudShell运行成功的命令无法通过训练作业运行
背景用户使用自定义镜像去运行训练作业时会出现 python找不到的情况。但是用户直接通过CloudShell去调试时,能正常运行。原因:CloudShell进入到容器的Terminal时,会进行初始化。而训练作业去跑时,是直接运行用户的命令。这里的初始化指的是:login shell启动时首先读取/etc/profile系统全局配置,然后依次查找~/.bash_profile、~/.bash...
づ ̄3 ̄づ╭❤~
2023-09-03 17:12:39
4930
0
0
2023-09-03 17:12:39
999+
0
0
【ModelArts】【训练作业】no socket interface found 如何解决
问题现象:日志中出现如下错误。解决办法:可能的原因:1. 从错误看NCCL_SOCKET_IFNAME设置错误解决办法1:1. https://support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0038.html解决办法2:1. 【推荐】升级NCCL版本至2.14,可使用ModelArts提供的预置镜像。参考:https...
AI开发平台ModelArts
Socket编程
づ ̄3 ̄づ╭❤~
2023-08-22 09:55:26
5544
0
0
2023-08-22 09:55:26
999+
0
0
【ModelArts】常见的训练环境中的NCCL环境变量
# 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,...
AI开发平台ModelArts
机器学习
づ ̄3 ̄づ╭❤~
2023-08-14 16:16:55
7135
0
0
2023-08-14 16:16:55
999+
0
0
【ModelArts】【训练作业】bootstrap is exiting with exit code 137是什么意思
问题:训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。这个日志的意思是启动脚本退出,退出码是137。那么退出码是什么,137又是怎么来的?退出码:像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。参考:https://tldp.org/LDP/abs/html/exitcodes.html如...
づ ̄3 ̄づ╭❤~
2023-08-10 18:17:05
3361
0
0
2023-08-10 18:17:05
999+
0
0
【ModelArts】【训练失败】域名无法解析
背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1. 明确具体是哪个host无法解析2. 明确此host来源3. 根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种...
AI开发平台ModelArts
机器学习
づ ̄3 ̄づ╭❤~
2023-08-09 11:01:48
5136
0
0
2023-08-09 11:01:48
999+
0
0
【ModelArts】【预置算法】【图像分类-ResNet_v1_50】训练失败
背景:算法来源:图像分类-ResNet_v1_50 (huaweicloud.com)算法名称:图像分类-ResNet_v1_50使用自己的数据去训练,训练失败,界面上提示显存不足可能的原因:1. 显存不足原因:batch_size过大解决办法:逐步减少batch_size2. 图片有问题在日志里面观察到如下错误比如:tensorflow.python.framework.errors_im...
AI开发平台ModelArts
机器学习
づ ̄3 ̄づ╭❤~
2023-08-09 10:59:46
5485
0
0
2023-08-09 10:59:46
999+
0
0
【ModelArts】同样超参、数据、规格、代码的训练作业突然失败之pip源影响
有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。
AI开发平台ModelArts
づ ̄3 ̄づ╭❤~
2023-07-21 17:16:28
4920
0
0
2023-07-21 17:16:28
999+
0
0
【ModelArts】如何给企业用户中的子用户配置权限隔离数据存储。
ModelArts 权限配置
AI开发平台ModelArts
EI企业智能
づ ̄3 ̄づ╭❤~
2023-07-19 10:37:54
4949
0
0
2023-07-19 10:37:54
999+
0
0
【ModelArts】自定义镜像的moxing下载数据卡死怎么办
观察自定义镜像的moxing版本是否比较低,比如低于2.x.x版本。如果自定义镜像中的moxing版本比较低,针对大规模数据下载容易造成下载性能差,下载卡死的问题。推荐安装比较新的moxing版本。自定义镜像如何安装Moxing?_AI开发平台ModelArts_常见问题_训练作业_功能咨询_华为云 (huaweicloud.com)
AI开发平台ModelArts
づ ̄3 ̄づ╭❤~
2023-06-19 19:07:49
5068
0
0
2023-06-19 19:07:49
999+
0
0
【ModelArts】创建训练作业一直在创建中是什么原因
训练作业创建中一般原因
AI开发平台ModelArts
机器学习
づ ̄3 ̄づ╭❤~
2023-06-13 14:56:24
5001
0
0
2023-06-13 14:56:24
999+
0
0
总条数:11
10
10
20
50
100
1
2
上滑加载中
https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
+ 关注
私信