作者小头像 Lv.2
更多个人资料
136 成长值
2 关注
1 粉丝
+ 关注 私信

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

人工智能
个人勋章
TA还没获得勋章~
成长雷达
130
6
0
0
0

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

人工智能

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • 暂无专栏分类
【ModelArts】能在CloudShell运行成功的命令无法通过训练作业运行
背景用户使用自定义镜像去运行训练作业时会出现 python找不到的情况。但是用户直接通过CloudShell去调试时,能正常运行。原因:CloudShell进入到容器的Terminal时,会进行初始化。而训练作业去跑时,是直接运行用户的命令。这里的初始化指的是:login shell启动时首先读取/etc/profile系统全局配置,然后依次查找~/.bash_profile、~/.bash...
作者小头像 づ ̄3 ̄づ╭❤~ 2023-09-03 17:12:39
6526
0
0
2023-09-03 17:12:39
999+
0
0
【ModelArts】【训练作业】no socket interface found 如何解决
问题现象:日志中出现如下错误。解决办法:可能的原因:1. 从错误看NCCL_SOCKET_IFNAME设置错误解决办法1:1. https://support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0038.html解决办法2:1.  【推荐】升级NCCL版本至2.14,可使用ModelArts提供的预置镜像。参考:https...
AI开发平台ModelArts Socket编程
作者小头像 づ ̄3 ̄づ╭❤~ 2023-08-22 09:55:26
7130
0
0
2023-08-22 09:55:26
999+
0
0
【ModelArts】常见的训练环境中的NCCL环境变量
# 作用:出现异常可以启动设置成TRACE进行调试,但是会影响性能NCCL_DEBUG=INFO# 出现NCCL timeout 可以适当调大NCCL_IB_TIMEOUT=18NCCL_IB_RETRY_CNT=16# 请不要修改,ModelArts会提前预置好NCCL_IB_HCA=^mlx5_bond_0NCCL_SOCKET_IFNAME="=bond0,eth0,enp218s0,...
AI开发平台ModelArts 机器学习
作者小头像 づ ̄3 ̄づ╭❤~ 2023-08-14 16:16:55
9482
0
0
2023-08-14 16:16:55
999+
0
0
【ModelArts】【训练作业】bootstrap is exiting with exit code 137是什么意思
问题:训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。这个日志的意思是启动脚本退出,退出码是137。那么退出码是什么,137又是怎么来的?退出码:像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。参考:https://tldp.org/LDP/abs/html/exitcodes.html如...
作者小头像 づ ̄3 ̄づ╭❤~ 2023-08-10 18:17:05
5260
0
0
2023-08-10 18:17:05
999+
0
0
【ModelArts】【训练失败】域名无法解析
背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1.  明确具体是哪个host无法解析2.  明确此host来源3.  根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种...
AI开发平台ModelArts 机器学习
作者小头像 づ ̄3 ̄づ╭❤~ 2023-08-09 11:01:48
6598
0
0
2023-08-09 11:01:48
999+
0
0
【ModelArts】【预置算法】【图像分类-ResNet_v1_50】训练失败
背景:算法来源:图像分类-ResNet_v1_50 (huaweicloud.com)算法名称:图像分类-ResNet_v1_50使用自己的数据去训练,训练失败,界面上提示显存不足可能的原因:1. 显存不足原因:batch_size过大解决办法:逐步减少batch_size2. 图片有问题在日志里面观察到如下错误比如:tensorflow.python.framework.errors_im...
AI开发平台ModelArts 机器学习
作者小头像 づ ̄3 ̄づ╭❤~ 2023-08-09 10:59:46
7047
0
0
2023-08-09 10:59:46
999+
0
0
【ModelArts】同样超参、数据、规格、代码的训练作业突然失败之pip源影响
有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。
AI开发平台ModelArts
作者小头像 づ ̄3 ̄づ╭❤~ 2023-07-21 17:16:28
6355
0
0
2023-07-21 17:16:28
999+
0
0
【ModelArts】如何给企业用户中的子用户配置权限隔离数据存储。
ModelArts 权限配置
AI开发平台ModelArts EI企业智能
作者小头像 づ ̄3 ̄づ╭❤~ 2023-07-19 10:37:54
6380
0
0
2023-07-19 10:37:54
999+
0
0
【ModelArts】自定义镜像的moxing下载数据卡死怎么办
观察自定义镜像的moxing版本是否比较低,比如低于2.x.x版本。如果自定义镜像中的moxing版本比较低,针对大规模数据下载容易造成下载性能差,下载卡死的问题。推荐安装比较新的moxing版本。自定义镜像如何安装Moxing?_AI开发平台ModelArts_常见问题_训练作业_功能咨询_华为云 (huaweicloud.com)
AI开发平台ModelArts
作者小头像 づ ̄3 ̄づ╭❤~ 2023-06-19 19:07:49
6477
0
0
2023-06-19 19:07:49
999+
0
0
【ModelArts】创建训练作业一直在创建中是什么原因
训练作业创建中一般原因
AI开发平台ModelArts 机器学习
作者小头像 づ ̄3 ̄づ╭❤~ 2023-06-13 14:56:24
6380
0
0
2023-06-13 14:56:24
999+
0
0
总条数:11
10
10
20
50
100
  • 1
  • 2

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注