【昇腾】NPU 裸金属服务器CES监控安装指南
一、裸金属服务器监控介绍
监控概述请参考BMS官方文档:https://support.huaweicloud.com/usermanual-bms/bms_umn_0065.html
当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NPU驱动后,可以自动采集NPU如下指标:
指标英文名称 | 指标中文名称 | 描述 | 指标单位 | 维度名称 |
npu_device_health | NPU健康状况 | NPU推理卡的健康状况,是一个综合指标,0代表健康,1代表亚健康,2代表故障 | instance_id, npu | |
npu_util_rate_ai_core | NPU卡AI核心使用率 | NPU推理卡的AI核心使用率 | % | instance_id, npu |
npu_util_rate_ai_cpu | NPU卡AICPU使用率 | NPU推理卡的AI-CPU使用率 | % | instance_id, npu |
npu_util_rate_ctrl_cpu | NPU控制CPU使用率 | NPU推理卡的控制CPU使用率 | % | instance_id, npu |
npu_freq_ai_core | NPU卡AI核心频率 | NPU推理卡的AI核心时钟频率 | MHz | instance_id, npu |
npu_power | NPU功率 | NPU推理卡功率 | W | instance_id, npu |
npu_temperature | NPU温度 | NPU推理卡温度 | °C | instance_id, npu |
同时可以自动监测NPU的状态并上报如下事件:
事件名称 |
事件级别 |
事件说明 |
NPU: npu-smi info查询缺少设备 |
重要 |
可能是由于昇腾驱动问题或NPU掉卡 |
NPU: PCIe链路异常 |
重要 |
Lspci查询卡状态为rev ff |
NPU: lspci查询缺少设备 |
重要 |
一般是由于NPU掉卡 |
NPU: 温度超过阈值 |
重要 |
可能是由于DDR颗粒温度过高或过温软件预警 |
NPU: 存在不可纠正ECC错误 |
重要 |
NPU卡出现Uncorrectable ECC Error硬件故障 |
NPU: 需要重启实例 |
提示 |
当前故障很可能需要重启进行恢复 |
NPU: 需要复位SOC |
提示 |
当前故障很可能需要复位SOC进行恢复 |
NPU: 需要退出AI任务重新执行 |
提示 |
当前故障很可能需要客户退出当前的AI任务并尝试重新执行 |
NPU: errorcode告警 |
重要 |
这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因 |
备注: NPU监控指标项和事件在不断补充中,敬请期待
二、安装监控插件步骤
1. 当前账户需要给CES授权委托,参考:https://support.huaweicloud.com/usermanual-ces/ces_01_0090.html
2. 当前还不支持在CES界面直接一键安装监控, 需要登录到裸金属服务器上执行以下命令安装,以贵阳一为例:
a.如果已经安装监控,需要先卸载。若没有安装,请跳转到步骤2
/usr/local/telescope/uninstall.sh
b.安装命令
cd /usr/local && curl -k -O https://obs.cn-southwest-2.myhuaweicloud.com/uniagent-cn-southwest-2/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.6.4.1
c.清理安装脚本
if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then rm /usr/local/agent_install.sh; else rm /usr/local/agentInstall.sh; fi
d.安装成功的标志如下:
三、查看监控指标:
进入CES界面,查看主机监控,找到所需要查看的主机
至此,监控插件已经安装完成, 相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警
- 点赞
- 收藏
- 关注作者
评论(0)