- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GPU 裸金属服务器CES监控安装指南

modelarts-dev-server 发表于 2023/05/16 12:00:30 2023/05/16

【摘要】利用华为云BMS和CES提供的能力，总结云主机监控采集可视化等解决方案。

本文的提供解决方案是华为云BMS+CES官方监控解决方案

一、裸金属服务器监控介绍

监控概述请参考BMS官方文档：https://support.huaweicloud.com/usermanual-bms/bms_umn_0065.html

除文档所列支持的镜像之外，目前还支持ubuntu20.04. 指标采样周期1分钟。

当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NVIDIA驱动后，可以自动采集GPU的如下指标:

指标英文名	指标中文名	说明	单位	维度
gpu_status	gpu健康状态	BMS上GPU健康状态，是一个综合指标，0代表健康，1代表亚健康，2代表故障		instance_id,gpu
gpu_utilization	gpu使用率	该GPU的算力使用率	%	instance_id,gpu
memory_utilization	显存使用率	该GPU的显存使用率	%	instance_id,gpu
gpu_performance	gpu性能状态	该GPU的性能状态		instance_id,gpu
encoder_utilization	编码使用率	该GPU的编码能力使用率	%	instance_id,gpu
decoder_utilization	解码使用率	该GPU的解码能力使用率	%	instance_id,gpu
volatile_correctable	短期可纠正ECC错误数量	该GPU重置以来可纠正的ECC错误数量，每次重置后归0	个	instance_id,gpu
volatile_uncorrectable	短期不可纠正ECC错误数量	该GPU重置以来不可纠正的ECC错误数量，每次重置后归0	个	instance_id,gpu
aggregate_correctable	累计可纠正ECC错误数量	该GPU累计的可纠正ECC错误数量	个	instance_id,gpu
aggregate_uncorrectable	累计不可纠正ECC错误数量	该GPU累计的不可纠正ECC错误数量	个	instance_id,gpu
retired_page_single_bit	retired page single bit错误数量	retired page single bit 错误数量,表示当前卡隔离的单比特页数	个	instance_id,gpu
retired_page_double_bit	retired page double bit错误数量	retired page double bit 错误数量,表示当前卡隔离的双比特页的数量	个	instance_id,gpu

备注： GPU监控指标项在不断补充中，关于GPU AXX系列ROCE网卡的监控预计7月底上线，敬请期待。

二、安装监控插件步骤

1. 当前账户需要给CES授权委托，参考：https://support.huaweicloud.com/usermanual-ces/ces_01_0090.html

2. 当前还不支持在CES界面直接一键安装监控，需要登录到服务器上执行以下命令安装，以北京四为例：

cd /usr/local
wget https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh
bash agent_install.sh -r cn-north-4 -u 0.1.4 -t 2.4.8 -d agent.ces.myhuaweicloud.com

其它region的安装下载链接请参考官方指导：https://support.huaweicloud.com/usermanual-ces/ces_04_0010.html

安装成功的标志如下：

3. 去CES界面查看具体的监控项， GPU类的监控项必须在主机安装NVIDIA驱动后才会有相关指标：

至此，监控插件已经安装完成，相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。

这是华为云BMS+CES联合提供的裸金属服务器的指标监控方案。

如果读者想用NVIDIA官方提供的GPU指标监控，敬请期待本博客中DCGM+DCGM EXPORTER+PROMETHS+GRAFANA端到端的解决方案。

附：华为云CES GPU裸金属服务器监控指标图

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

GPU 裸金属服务器CES监控安装指南

一、裸金属服务器监控介绍

二、安装监控插件步骤

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

GPU 裸金属服务器CES监控安装指南

一、裸金属服务器监控介绍

二、安装监控插件步骤

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品