ModelArts Server资源配置指南

举报
modelarts-dev-server 发表于 2023/06/09 12:09:32 2023/06/09
【摘要】 本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。

 1. 配置介绍

本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。

2. 网络配置

网络配置包括从外部用ssh登录的方式访问裸金属服务器, 以及从裸金属服务器内实现对公网的访问能力。

 https://bbs.huaweicloud.com/blogs/400976

当然,用户也可以直接在服务器上购买和绑定华为云弹性IP实现上述尝尽的诉求。

3. 存储配置

Server存储推荐使用SFS和OBS. https://bbs.huaweicloud.com/blogs/400972

关于云硬盘EVS, 目前部分机型不支持挂载EVS盘(如V100), 因此在使用EVS云硬盘时需要确认当前裸金属机型是否支持挂载。

4. 软件环境安装

针对不同的GPU机型给出相关的装机解决方案,可以按照如下匹配:

(1) V100 Euler装机指南: https://bbs.huaweicloud.com/blogs/401230

(2) Ant8和Ant1 Ubuntu装机指南: https://bbs.huaweicloud.com/blogs/398214

(3) NVIDIA驱动选择指南: https://bbs.huaweicloud.com/blogs/398209

5. 监控配置

提供两种裸金属服务器的监控指南

(1). 华为云CES服务官方监控方案:  https://bbs.huaweicloud.com/blogs/399007

(2). NVIDIA官方推荐的DCGM监控方案: https://bbs.huaweicloud.com/blogs/399818

6. 服务器配置验证

(1). 通过PyTorch验证NVIDIA驱动环境的有效性: https://bbs.huaweicloud.com/blogs/398211

(2). 针对Ant1和Ant8使用NCCL验证服务器性能和软件环境指南:https://bbs.huaweicloud.com/blogs/398214

(3). 针对Ant1和Ant8验证RoCE网卡的连通性和性能指南: https://bbs.huaweicloud.com/blogs/398212

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。