【昇腾】NPU 裸金属服务器CES监控安装指南

举报
modelarts-dev-server 发表于 2023/10/30 20:05:32 2023/10/30
【摘要】 本文的提供解决方案是华为云EI ModelArts DevServer昇腾官方监控解决方案

一、裸金属服务器监控介绍

监控概述请参考BMS官方文档:https://support.huaweicloud.com/usermanual-bms/bms_umn_0065.html

当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NPU驱动后,可以自动采集NPU如下指标:

指标英文名称 指标中文名称 描述 指标单位 维度名称
npu_device_health NPU健康状况 NPU推理卡的健康状况,是一个综合指标,0代表健康,1代表亚健康,2代表故障   instance_id, npu
npu_util_rate_ai_core NPU卡AI核心使用率 NPU推理卡的AI核心使用率 % instance_id, npu
npu_util_rate_ai_cpu NPU卡AICPU使用率 NPU推理卡的AI-CPU使用率 % instance_id, npu
npu_util_rate_ctrl_cpu NPU控制CPU使用率 NPU推理卡的控制CPU使用率 % instance_id, npu
npu_freq_ai_core NPU卡AI核心频率 NPU推理卡的AI核心时钟频率 MHz instance_id, npu
npu_power NPU功率 NPU推理卡功率 W instance_id, npu
npu_temperature NPU温度 NPU推理卡温度 °C instance_id, npu

同时可以自动监测NPU的状态并上报如下事件:

事件名称

事件级别

事件说明

NPU: npu-smi info查询缺少设备

重要

可能是由于昇腾驱动问题或NPU掉卡

NPU: PCIe链路异常

重要

Lspci查询卡状态为rev ff

NPU: lspci查询缺少设备

重要

一般是由于NPU掉卡

NPU: 温度超过阈值

重要

可能是由于DDR颗粒温度过高或过温软件预警

NPU: 存在不可纠正ECC错误

重要

NPU卡出现Uncorrectable ECC Error硬件故障

NPU: 需要重启实例

提示

当前故障很可能需要重启进行恢复

NPU: 需要复位SOC

提示

当前故障很可能需要复位SOC进行恢复

NPU: 需要退出AI任务重新执行

提示

当前故障很可能需要客户退出当前的AI任务并尝试重新执行

NPU: errorcode告警

重要

这里涵盖了大量重要及以上的NPU错误码,您可以根据这些错误码进一步定位错误原因

备注: NPU监控指标项和事件在不断补充中,敬请期待

二、安装监控插件步骤

1. 当前账户需要给CES授权委托,参考:https://support.huaweicloud.com/usermanual-ces/ces_01_0090.html

2. 当前还不支持在CES界面直接一键安装监控, 需要登录到裸金属服务器上执行以下命令安装,以贵阳一为例:

a.如果已经安装监控,需要先卸载。若没有安装,请跳转到步骤2

/usr/local/telescope/uninstall.sh

b.安装命令

cd /usr/local && curl -k -O https://obs.cn-southwest-2.myhuaweicloud.com/uniagent-cn-southwest-2/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.6.4.1

c.清理安装脚本

if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then rm /usr/local/agent_install.sh; else rm /usr/local/agentInstall.sh; fi

d.安装成功的标志如下:

21321312312321231.png

三、查看监控指标:

进入CES界面,查看主机监控,找到所需要查看的主机

21321312312321231.png

至此,监控插件已经安装完成, 相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。