ModelArts集群监控配置指导手册
本文档是“ModelArts专属池使用”的一个子场景。本场景下,我们介绍如何配置grafana,并可视化展现监控信息。
一、安装Grafana
前提:已购买了一台ECS(建议8U或者以上,本地存储100G),并绑定弹性公网EIP。
1、执行命令:
sudo apt-get install -y adduser libfontconfig1
返回如下代表执行成功:
2、执行命令下载安装包:
wget https://dl.grafana.com/oss/release/grafana_9.3.6_amd64.deb
下载完成:
3、执行命令安装
sudo dpkg -i grafana_9.3.6_amd64.deb
4、执行命令启动
sudo /bin/systemctl start grafana-server
在ECS上打开本地浏览器,输入“http://localhost:3000 ”后回车,出现Grafana登录页面即代表安装成功。
5、外部访问Grafana配置
确保ECS绑定了弹性IP,且对应安全组配置正确(入方向放开TCP协议的3000端口,出方向全部放通)。如:
在浏览器中输入“http://{弹性ip}:3000”,即可进行访问。
二、配置Grafana数据源
通过华为云AOM服务,查看ModelArts的监控数据。
前提:华为运维人员已经给对应资源池开通了监控。
1、 生成AccessCode
a. 打开AOM管理控制台,在左侧导航栏中选择“配置管理”>“接入管理”。传送门
b. 单击“添加AccessCode”
c. 记录生成的AccessCode
2、 获取数据源URL
在Grafana中需要配置数据源URL,URL的组成是:https://{Endpoint}/v1/{project_id}
a. AOM的Endpoint信息可以访问地区和终端节点 ,国内region参考下表。
区域名称 |
区域 |
终端节点(Endpoint) |
协议 |
华北-北京一 |
cn-north-1 |
aom.cn-north-1.myhuaweicloud.com |
HTTPS |
华北-北京四 |
cn-north-4 |
aom.cn-north-4.myhuaweicloud.com |
HTTPS |
华东-上海二 |
cn-east-2 |
aom.cn-east-2.myhuaweicloud.com |
HTTPS |
华东-上海一 |
cn-east-3 |
aom.cn-east-3.myhuaweicloud.com |
HTTPS |
华南-广州 |
cn-south-1 |
aom.cn-south-1.myhuaweicloud.com |
HTTPS |
b. project_id需填写对应region的项目id,通过“我的凭证”获取,详细方法参考文档 。
3、 在Grafana中增加数据源
a. 登录Grafana。
b. 在左侧菜单栏,选择“Configuration > Data Sources”,单击“Add data source”。
c. 单击“Prometheus”,进入Prometheus配置页面。
d. 如图进行配置。
Name:自定义
URL:步骤2中拼接成的URL
Basic auth:开启
Skip TLS Verify:开启
User:aom_access_code
Password:步骤1中生成的AccessCode
e. 配置完成后,点击下方的“Save & test”,展示“Data source is working”代表配置数据源成功。
三、配置监控仪表盘示例
Grafana中可以自定义配置各种视图的仪表盘,ModelArts也提供了针对集群的配置模板。下面以导入模板的方式,说明如何进行仪表盘配置。配置完成后可以随意编辑、修改。
前提:已经获取导出的模板json文件,也可自行配置Dashboards显示内容。
1、 打开“DashBoards”,点击“New”,选择“Import”
2、 复制粘贴json内容(参考模板如附件),填入后点击“Load”。
3、 修改视图名称,点击import
注意:如提示uid重复,则修改下json中的uid再“Load”。
4、 导入成功后,在Dashboard下,即可见到导入的视图,点击视图即可打开监控。
5、 下钻配置修改:
“Data Links”的url需要根据实际安装配置来设置。可能需要修改的点包括:EIP(访问链接),Dashboard ID(若进行了自定义)。
四、配置效果
1. 集群级:
点击占用率饼图可下钻。
2. 用户级:
点击占用率饼图可下钻
3. 任务级:
- 点赞
- 收藏
- 关注作者
评论(0)