GPU 裸金属服务器CES监控安装指南

举报
modelarts-dev-server 发表于 2023/05/16 12:00:30 2023/05/16
【摘要】 利用华为云BMS和CES提供的能力,总结云主机监控采集可视化等解决方案。

本文的提供解决方案是华为云BMS+CES官方监控解决方案

一、裸金属服务器监控介绍

监控概述请参考BMS官方文档:https://support.huaweicloud.com/usermanual-bms/bms_umn_0065.html

除文档所列支持的镜像之外,目前还支持ubuntu20.04.  指标采样周期1分钟。

当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NVIDIA驱动后,可以自动采集GPU的如下指标:

指标英文名

指标中文名

说明

单位

维度

gpu_status

gpu健康状态

BMS上GPU健康状态,是一个综合指标,0代表健康,1代表亚健康,2代表故障

 

instance_id,gpu

gpu_utilization

gpu使用率

该GPU的算力使用率

%

instance_id,gpu

memory_utilization

显存使用率

该GPU的显存使用率

%

instance_id,gpu

gpu_performance

gpu性能状态

该GPU的性能状态

 

instance_id,gpu

encoder_utilization

编码使用率

该GPU的编码能力使用率

%

instance_id,gpu

decoder_utilization

解码使用率

该GPU的解码能力使用率

%

instance_id,gpu

volatile_correctable

短期可纠正ECC错误数量

该GPU重置以来可纠正的ECC错误数量,每次重置后归0

instance_id,gpu

volatile_uncorrectable

短期不可纠正ECC错误数量

该GPU重置以来不可纠正的ECC错误数量,每次重置后归0

instance_id,gpu

aggregate_correctable

累计可纠正ECC错误数量

该GPU累计的可纠正ECC错误数量

instance_id,gpu

aggregate_uncorrectable

累计不可纠正ECC错误数量

该GPU累计的不可纠正ECC错误数量

instance_id,gpu

retired_page_single_bit

retired page single bit错误数量

retired page single bit 错误数量,表示当前卡隔离的单比特页数

instance_id,gpu

retired_page_double_bit

retired page double bit错误数量

retired page double bit 错误数量,表示当前卡隔离的双比特页的数量

instance_id,gpu

备注: GPU监控指标项在不断补充中,关于GPU AXX系列ROCE网卡的监控预计7月底上线,敬请期待。

二、安装监控插件步骤

1. 当前账户需要给CES授权委托,参考:https://support.huaweicloud.com/usermanual-ces/ces_01_0090.html

2. 当前还不支持在CES界面直接一键安装监控, 需要登录到服务器上执行以下命令安装,以北京四为例:

cd /usr/local
wget https://uniagent-cn-north-4.obs.cn-north-4.myhuaweicloud.com/package/agent_install.sh
bash agent_install.sh -r cn-north-4 -u 0.1.4 -t 2.4.8 -d agent.ces.myhuaweicloud.com

其它region的安装下载链接请参考官方指导:https://support.huaweicloud.com/usermanual-ces/ces_04_0010.html

安装成功的标志如下:

安装成功日志.png

3. 去CES界面查看具体的监控项, GPU类的监控项必须在主机安装NVIDIA驱动后才会有相关指标:


ces界面监控.png

至此,监控插件已经安装完成, 相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。


这是华为云BMS+CES联合提供的裸金属服务器的指标监控方案。

如果读者想用NVIDIA官方提供的GPU指标监控,敬请期待本博客中DCGM+DCGM EXPORTER+PROMETHS+GRAFANA端到端的解决方案。


附: 华为云CES GPU裸金属服务器监控指标图

20230714-144019(WeLinkPC).JPG




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。