ModelArts Server资源配置指南
【摘要】 本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。
1. 配置介绍
本文旨在介绍购买ModelArts Server后,如何高效便捷的进行资源配置,包括服务器的网络、存储、GPU/NPU软件、监控等, 并给出服务器配置完备的验证指南。
2. 网络配置
网络配置包括从外部用ssh登录的方式访问裸金属服务器, 以及从裸金属服务器内实现对公网的访问能力。
https://bbs.huaweicloud.com/blogs/400976
当然,用户也可以直接在服务器上购买和绑定华为云弹性IP实现上述尝尽的诉求。
3. 存储配置
Server存储推荐使用SFS和OBS. https://bbs.huaweicloud.com/blogs/400972
关于云硬盘EVS, 目前部分机型不支持挂载EVS盘(如V100), 因此在使用EVS云硬盘时需要确认当前裸金属机型是否支持挂载。
4. 软件环境安装
针对不同的GPU机型给出相关的装机解决方案,可以按照如下匹配:
(1) V100 Euler装机指南: https://bbs.huaweicloud.com/blogs/401230
(2) Ant8和Ant1 Ubuntu装机指南: https://bbs.huaweicloud.com/blogs/398214
(3) NVIDIA驱动选择指南: https://bbs.huaweicloud.com/blogs/398209
5. 监控配置
提供两种裸金属服务器的监控指南
(1). 华为云CES服务官方监控方案: https://bbs.huaweicloud.com/blogs/399007
(2). NVIDIA官方推荐的DCGM监控方案: https://bbs.huaweicloud.com/blogs/399818
6. 服务器配置验证
(1). 通过PyTorch验证NVIDIA驱动环境的有效性: https://bbs.huaweicloud.com/blogs/398211
(2). 针对Ant1和Ant8使用NCCL验证服务器性能和软件环境指南:https://bbs.huaweicloud.com/blogs/398214
(3). 针对Ant1和Ant8验证RoCE网卡的连通性和性能指南: https://bbs.huaweicloud.com/blogs/398212
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)