- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【昇腾】NPU 裸金属服务器CES监控安装指南

modelarts-dev-server 发表于 2023/10/30 20:05:32 2023/10/30

【摘要】本文的提供解决方案是华为云EI ModelArts DevServer昇腾官方监控解决方案

一、裸金属服务器监控介绍

监控概述请参考BMS官方文档：https://support.huaweicloud.com/usermanual-bms/bms_umn_0065.html

当前监控指标项已经包含CPU、内存、磁盘、网络。在主机上安装NPU驱动后，可以自动采集NPU如下指标：

指标英文名称	指标中文名称	描述	指标单位	维度名称
npu_device_health	NPU健康状况	NPU推理卡的健康状况，是一个综合指标，0代表健康，1代表亚健康，2代表故障		instance_id, npu
npu_util_rate_ai_core	NPU卡AI核心使用率	NPU推理卡的AI核心使用率	%	instance_id, npu
npu_util_rate_ai_cpu	NPU卡AICPU使用率	NPU推理卡的AI-CPU使用率	%	instance_id, npu
npu_util_rate_ctrl_cpu	NPU控制CPU使用率	NPU推理卡的控制CPU使用率	%	instance_id, npu
npu_freq_ai_core	NPU卡AI核心频率	NPU推理卡的AI核心时钟频率	MHz	instance_id, npu
npu_power	NPU功率	NPU推理卡功率	W	instance_id, npu
npu_temperature	NPU温度	NPU推理卡温度	°C	instance_id, npu

同时可以自动监测NPU的状态并上报如下事件：

事件名称	事件级别	事件说明
NPU: npu-smi info查询缺少设备	重要	可能是由于昇腾驱动问题或NPU掉卡
NPU: PCIe链路异常	重要	Lspci查询卡状态为rev ff
NPU: lspci查询缺少设备	重要	一般是由于NPU掉卡
NPU: 温度超过阈值	重要	可能是由于DDR颗粒温度过高或过温软件预警
NPU: 存在不可纠正ECC错误	重要	NPU卡出现Uncorrectable ECC Error硬件故障
NPU: 需要重启实例	提示	当前故障很可能需要重启进行恢复
NPU: 需要复位SOC	提示	当前故障很可能需要复位SOC进行恢复
NPU: 需要退出AI任务重新执行	提示	当前故障很可能需要客户退出当前的AI任务并尝试重新执行
NPU: errorcode告警	重要	这里涵盖了大量重要及以上的NPU错误码，您可以根据这些错误码进一步定位错误原因

备注： NPU监控指标项和事件在不断补充中，敬请期待

二、安装监控插件步骤

1. 当前账户需要给CES授权委托，参考：https://support.huaweicloud.com/usermanual-ces/ces_01_0090.html

2. 当前还不支持在CES界面直接一键安装监控，需要登录到裸金属服务器上执行以下命令安装，以贵阳一为例：

a.如果已经安装监控，需要先卸载。若没有安装，请跳转到步骤2

/usr/local/telescope/uninstall.sh

b.安装命令

cd /usr/local && curl -k -O https://obs.cn-southwest-2.myhuaweicloud.com/uniagent-cn-southwest-2/package/agent_install.sh && bash agent_install.sh -r cn-southwest-2 -u 0.1.5 -t 2.6.4.1

c.清理安装脚本

if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then rm /usr/local/agent_install.sh; else rm /usr/local/agentInstall.sh; fi

d.安装成功的标志如下：

三、查看监控指标：

进入CES界面，查看主机监控，找到所需要查看的主机

至此，监控插件已经安装完成，相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【昇腾】NPU 裸金属服务器CES监控安装指南

一、裸金属服务器监控介绍

二、安装监控插件步骤

三、查看监控指标：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【昇腾】NPU 裸金属服务器CES监控安装指南

一、裸金属服务器监控介绍

二、安装监控插件步骤

三、查看监控指标：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品