ModelArts集群监控配置指导手册

举报
yangzilong 发表于 2023/02/02 12:06:46 2023/02/02
【摘要】 本文档是“ModelArts专属池使用”的一个子场景。本场景下,我们介绍如何配置grafana,并可视化展现监控信息。一、安装Grafana前提:已购买了一台ECS(建议8U或者以上,本地存储100G),并绑定弹性公网EIP。1、执行命令:sudo apt-get install -y adduser libfontconfig1返回如下代表执行成功:2、执行命令下载安装包:wget htt...

本文档是“ModelArts专属池使用”的一个子场景。本场景下,我们介绍如何配置grafana,并可视化展现监控信息。


安装Grafana

前提:已购买了一台ECS(建议8U或者以上,本地存储100G,并绑定弹性公网EIP

1执行命令

sudo apt-get install -y adduser libfontconfig1

返回如下代表执行成功

2执行命令下载安装包

wget https://dl.grafana.com/oss/release/grafana_9.3.6_amd64.deb

下载完成

3、执行命令安装

sudo dpkg -i grafana_9.3.6_amd64.deb

4、执行命令启动

sudo /bin/systemctl start grafana-server

ECS打开本地浏览器输入http://localhost:3000 后回车,出现Grafana录页面即代表安装成功。

5外部访问Grafana配置

确保ECS绑定了弹性IP对应安全组配置正确(入方向TCP协议的3000端口出方向全部放通

在浏览器中输入http://{弹性ip}:3000即可进行访问

二、配置Grafana数据源

通过华为云AOM服务,查看ModelArts监控数据

前提:华为运维人员已经给对应资源池开通了监控。

1、 生成AccessCode

a. 打开AOM管理控制台在左侧导航栏中选择“配置管理”>“接入管理”传送门

b. 单击“添加AccessCode

c. 记录生成的AccessCode

2、 获取数据源URL

Grafana中需要配置数据源URLURL的组成是https://{Endpoint}/v1/{project_id}

a. AOMEndpoint信息可以访问地区和终端节点 国内region参考下表

区域名称

区域

终端节点(Endpoint)

协议

华北-北京一

cn-north-1

aom.cn-north-1.myhuaweicloud.com

HTTPS

华北-北京四

cn-north-4

aom.cn-north-4.myhuaweicloud.com

HTTPS

华东-上海二

cn-east-2

aom.cn-east-2.myhuaweicloud.com

HTTPS

华东-上海一

cn-east-3

aom.cn-east-3.myhuaweicloud.com

HTTPS

华南-广州

cn-south-1

aom.cn-south-1.myhuaweicloud.com

HTTPS

b. project_id需填写对应region的项目id通过“我的凭证”获取,详细方法参考文档

3、 Grafana中增加数据源

    a. 登录Grafana

    b. 在左侧菜单栏,选择“Configuration > Data Sources”,单击“Add data source”

    c. 单击“Prometheus”,进入Prometheus配置页面。

    d. 如图进行配置。

Name:自定义
URL:步骤2中拼接成的URL
Basic auth:开启
Skip TLS Verify:开启
User:aom_access_code
Password:步骤1中生成的AccessCode

    e. 配置完成后,点击下方的“Save & test”,展示“Data source is working”代表配置数据源成功

三、配置监控仪表盘示例

Grafana中可以自定义配置各种视图的仪表盘,ModelArts也提供了针对集群的配置模板。下面以导入模板的方式,说明如何进行仪表盘配置。配置完成后可以随意编辑、修改。

前提已经获取导出的模板json文件,也可自行配置Dashboards显示内容。

1、 打开“DashBoards”,点击“New”,选择“Import

2、 复制粘贴json内容(参考模板如附件),填入后点击Load

3、 修改视图名称点击import


注意如提示uid重复则修改下json中的uidLoad

4、 导入成功后,在Dashboard下,即可见到导入的视图,点击视图即可打开监控。

5、 下钻配置修改

“Data Links”的url需要根据实际安装配置来设置。可能需要修改的点包括:EIP(访问链接),Dashboard ID(若进行了自定义)。

四、配置效果

1. 集群级:

点击占用率饼图可下钻。

2. 用户级:

点击占用率饼图可下钻

3. 任务级:


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。