【云小课】基础服务第88课 还在怕资源状态异常无法及时得知吗?使用云监控服务创建告警规则和通知就行啦~
云监控告警提供对监控指标的告警功能,您可以对云服务的核心监控指标设置告警规则,当监控指标触发您设置的告警条件时,云监控支持以邮箱、短信、HTTP、HTTPS等方式通知您,让您在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。
云监控服务使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开启消息通知服务并选择创建的主题,这样在云服务发生异常时,云监控服务可以实时的将告警信息以广播的方式通知这些订阅者。
本节云小课以CPU使用率为例,使用云监控服务为弹性云服务器创建告警规则和通知,当弹性云服务器设置CPU使用率超过90%时触发告警。
一:创建主题
- 登录管理控制台。
- 在管理控制台左上角选择区域和项目。
- 选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
- 在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
- 在主题页面,单击“创建主题”,开始创建主题。此时将显示“创建主题”对话框。
6. 在“主题名称”框中,输入主题名称,在“显示名”框中输入相关描述,如下表所示。
参数 |
说明 |
主题名称 |
创建的主题名称,用户可自定义名称,规范如下: l 只能包含字母,数字,短横线(-)和下划线(_),且必须由大写字母、小写字母或数字开头。 l 名称长度限制在1-255字符之间。 l 主题名称为主题的唯一标识,一旦创建后不能再修改主题名称。 |
显示名 |
显示名,长度限制在192字节或64个中文字。 说明: 推送邮件消息时,若未设置主题的显示名,发件人呈现为“username@example.com”,若已设置主题的显示名,发件人则呈现为“显示名<username@example.com>”。 |
标签 |
标签由标签“键”和标签“值”组成,用于标识云资源,可对云资源进行分类和搜索。 l 键的长度最大36字符,值的长度最大43 字符,不能包含“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”,且首尾字符不能为空格。 l 每个主题最多可创建10个标签。 |
7. 单击“确定”,主题创建成功。新创建的主题将显示在主题列表中。主题创建成功后,系统会自动生成主题URN,主题URN是主题的唯一资源标识,不可修改。新创建的主题将显示在主题列表中。
8. 单击主题名称,可查看主题详情和主题订阅总数。
二:添加订阅
- 登录管理控制台。
- 选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
- 在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
- 在主题列表中,选择您要向其添加订阅者的主题,在右侧“操作”栏单击“添加订阅”。此时将显示“添加订阅”对话框。
5. 在“协议”下拉框中选择订阅终端支持的协议,在“订阅终端”输入框中输入对应的订阅终端。批量添加订阅终端时,每个终端地址占一行。添加终端详情请参考消息通知服务用户指南的“添加订阅”。
6. 单击“确定”。新增订阅将显示在页面下方的订阅列表中。
三:创建告警规则和通知
- 登录管理控制台。
- 单击“服务列表 > 云监控服务”。
- 单击页面左侧的“主机监控”,进入主机监控页面。此时页面上显示了当前云平台上的弹性云服务器列表。
- 单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。弹出创建告警规则的窗口。
- 依次按照如下所示配置参数。
-
- 选择类型:选择自定义创建。
- 监控指标:在下拉框中选择“CPU使用率”。
- 告警策略:CPU使用率、平均值、监控周期5分钟、连续三个周期、≥、90%。
- 告警级别:重要。
- 发送通知:是。
- 生效时间:00:00-23:59
- 主题通知:选择已创建的主题。
- 触发条件:依次勾选“出现告警”、“恢复正常”。
配置完成后,点击下一步。
6. 依次输入告警规则名称和描述后,点击“创建”,完成告警规则的创建。
您还可以通过以下视频进了解更详细的操作步骤:
除了CPU使用率,您还可以参考以下告警策略的最佳实践来继续创建其他服务的告警规则和通知,配置告警从此变得so easy~
表 1 告警策略最佳实践
服务 |
维度 |
指标-英文 |
指标-中文 |
告警策略最佳实践 |
告警级别最佳实践 |
弹性云服务器 ECS |
弹性云服务器-云服务器 |
cpu_util |
CPU使用率 |
连续3次 原始值 > 90%,带外 |
重要 |
mem_util |
内存使用率 |
连续3次 原始值 > 80%,带内 |
重要 |
||
disk_util |
磁盘使用率 |
连续3次 原始值 > 80%,带内 |
重要 |
||
主机监控-云服务器 |
cpu_usage |
AGT.CPU使用率 |
连续3个周期 原始值 > 90% |
重要 |
|
mem_usedPercent |
AGT.内存使用率 |
连续3个周期 原始值 > 80% |
重要 |
||
disk_usedPercent |
AGT.磁盘使用率 |
连续3个周期 原始值 > 80% |
重要 |
||
disk_ioUtils |
AGT.磁盘I/O使用率 |
连续3个周期 原始值 > 90% |
重要 |
||
disk_fs_rwstate |
AGT.文件系统读写状态 |
连续2个周期 原始值 = 1 |
重要 |
||
disk_inodesUsedPercent |
AGT.inode已使用占比 |
连续3个周期 原始值 > 90% |
重要 |
||
裸金属服务器 BMS |
BMS操作系统监控指标 |
cpu_usage |
AGT.CPU使用率 |
连续3次 原始值 > 80%, 带内 |
重要 |
mem_usedPercent |
AGT.内存使用率 |
连续3次 原始值 > 80%, 带内 |
重要 |
||
disk_usedPercent |
AGT.磁盘使用率 |
连续3次 原始值 > 80%, 带内 |
重要 |
||
disk_ioUtils |
AGT.磁盘I/O使用率 |
连续3次 原始值 > 90% |
|
||
disk_fs_rwstate |
AGT.文件系统读写状态 |
连续2次 原始值 = 1 |
|
||
disk_inodesUsedPercent |
AGT.inode已使用占比 |
连续3次 原始值 > 90% |
|
||
云手机 CPH |
云手机服务器 |
cpu_usage |
CPU使用率 |
连续3次 原始值 > 80% |
重要 |
mem_usedPercent |
内存使用率 |
连续3次 原始值 > 80% |
|
||
upstream_bandwidth_usage |
出网带宽使用率 |
连续3次 原始值 > 95% |
重要 |
||
cph_sharebase_usedPercent |
共享存储空间使用率 |
连续5次 原始值 > 95% |
重要 |
||
云手机服务器-云手机 |
cph_cpu_usage |
CPU使用率 |
连续5次 原始值 > 90% |
重要 |
|
cph_mem_usedPercent |
内存使用率 |
连续5次 原始值 > 90% |
重要 |
||
cph_disk_usedPercent |
云手机磁盘使用率 |
连续5次 原始值 > 90% |
重要 |
||
云手机服务器-磁盘 |
disk_usage_read_await |
平均读操作耗时 |
连续3次 原始值 > 50ms |
重要 |
|
disk_usage_write_await |
平均写操作耗时 |
连续3次 原始值 > 50ms |
重要 |
||
云硬盘 EVS |
磁盘 |
disk_device_write_await |
平均写操作耗时 |
连续5次 原始值 > 500ms |
紧急 |
连续3次 原始值 > 500ms |
重要 |
||||
disk_device_read_await |
平均读操作耗时 |
连续5次 原始值 > 400ms |
紧急 |
||
连续3次 原始值 > 400ms |
重要 |
||||
对象存储服务 |
桶名称 |
request_count_4xx |
4xx错误次数 |
根据业务实际情况配置 |
紧急 |
request_count_5xx |
5xx错误次数 |
连续2次,最大值 >N ; N=总请求数*(1-99.95%)并向上取整 |
紧急 |
||
total_request_latency |
总请求平均时延 |
连续3次 原始值 > 阈值(见备注) |
重要 |
||
upload_bytes |
上传流量 |
连续3次 原始值>1200GB |
紧急 |
||
download_bytes |
下载流量 |
连续3次 原始值>1200GB |
紧急 |
||
用户 |
total_request_latency |
总请求平均时延 |
连续3次 原始值 > 阈值(见备注) |
重要 |
|
upload_bytes |
上传流量 |
连续3次 原始值>1200GB |
紧急 |
||
download_bytes |
下载流量 |
连续3次 原始值>1200GB |
紧急 |
||
云存储网关 CSG |
网关 |
cpu_util |
CPU使用率 |
连续3次 原始值 > 95% |
重要 |
mem_util |
内存使用率 |
连续3次 原始值 > 90% |
紧急 |
||
cache_util |
缓存盘空间使用率 |
连续3次 原始值 > 95% |
紧急 |
||
虚拟私有云 VPC |
EIP/带宽 |
upstream_bandwidth_usage |
出网带宽使用率 |
连续3次 原始值 > 95% |
重要 |
虚拟专用网络 VPN |
VPN连接 |
connection_status |
VPN连接状态 |
连续2次 原始值 = 0 |
紧急 |
弹性负载均衡 ELB |
ELB |
m1_cps |
并发连接数 |
连续3次 原始值 > xx(根据业务实际情况配置) |
紧急 |
m4_ncps |
新建连接数 |
连续3次 原始值 > xx(根据业务实际情况配置) |
紧急 |
||
m9_abnormal_servers |
异常主机数 |
连续1次 原始值 > 0 |
紧急 |
||
me_l7_http_4xx |
七层协议返回码(4XX) |
连续3次 原始值 > xx (根据业务实际情况) |
紧急 |
||
mf_l7_http_5xx |
七层协议返回码(5XX) |
连续3次 原始值 > xx (根据业务实际情况) |
紧急 |
||
监听器 |
me_l7_http_4xx |
七层协议返回码(4XX) |
连续3次 原始值 > xx (根据业务实际情况) |
紧急 |
|
mf_l7_http_5xx |
七层协议返回码(5XX) |
连续3次 原始值 > xx (根据业务实际情况) |
紧急 |
||
云专线 |
物理专线/历史专线/虚拟接口 |
packet_loss_rate |
丢包率 |
连续3次 原始值 = 100% |
紧急 |
连续3次 原始值 > 10% |
重要 |
||||
network_incoming_bits_rate |
网络流入带宽 |
连续3次 原始值 = 0 |
紧急 |
||
network_outgoing_bits_rate |
网络流出带宽 |
连续3次 原始值 = 0 |
紧急 |
||
NAT网关 NAT |
NAT网关 |
inbound_bandwidth |
入方向带宽 |
连续3次 原始值 >80% |
重要 |
outbound_bandwidth |
出方向带宽 |
连续3次 原始值 >80% |
重要 |
||
snat_connection_ratio |
SNAT连接数使用率 |
连续3次 原始值 >80% |
重要 |
||
云连接 CC |
域间带宽 |
network_incoming_bits_rate |
网络流入带宽 |
连续5次 原始值 >=指定带宽值 |
紧急 |
network_outgoing_bits_rate |
网络流出带宽 |
连续5次 原始值 >=指定带宽值 |
紧急 |
表 2 数据库指标告警
维度 |
指标-英文 |
指标-中文 |
最佳实践阈值 |
最佳实践告警级别 |
mysql |
rds001_cpu_util |
CPU使用率 |
连续3次 原始值 >80% |
重要 |
rds002_mem_util |
内存使用率 |
连续3次 原始值 >90% |
重要 |
|
rds039_disk_util |
磁盘利用率 |
连续3次 原始值 >80% |
重要 |
|
rds072_conn_usage |
连接数使用率 |
连续3次 原始值 > 80% |
重要 |
|
rds073_replication_delay |
实时复制时延 |
连续3次 原始值 > 600s |
重要 |
|
postgresql |
rds001_cpu_util |
CPU使用率 |
连续3次 原始值 > 80% |
重要 |
rds002_mem_util |
内存使用率 |
连续3次 原始值 > 90% |
重要 |
|
rds039_disk_util |
磁盘利用率 |
连续3次 原始值 > 80% |
重要 |
|
rds046_replication_lag |
复制时延 |
连续3次 原始值 > 600s |
重要 |
|
rds083_conn_usage |
连接数使用率 |
连续3次 原始值 > 80% |
重要 |
|
SQL Server |
rds001_cpu_util |
CPU使用率 |
连续3次 原始值 > 80% |
重要 |
rds039_disk_util |
磁盘利用率 |
连续3次 原始值 > 80% |
重要 |
|
rds002_mem_util |
内存使用率 |
连续3次 原始值 > 90% |
重要 |
|
rds054_db_connections_in_use |
使用中的数据库连接数 |
连续3次 原始值 > 80% |
重要 |
|
DDS |
mongo007_connections |
当前活动连接数 |
连续3次 原始值>80% |
重要 |
mongo031_cpu_usage |
CPU使用率 |
连续3次 原始值>80% |
重要 |
|
mongo035_disk_usage |
磁盘利用率 |
连续3次 原始值>80% |
重要 |
|
mongo032_mem_usage |
内存使用率 |
连续3次 原始值>80% |
重要 |
|
GaussDB |
gaussdb_mysql001_cpu_util |
CPU使用率 |
连续3次 原始值>80% |
重要 |
gaussdb_mysql002_mem_util |
内存使用率 |
连续3次 原始值>85% |
重要 |
|
gaussdb_mysql011_innodb_buf_hit |
缓冲池命中率 |
连续3次 原始值>90% |
重要 |
|
gaussdb_mysql072_conn_usage |
连接数使用率 |
连续3次 原始值 > 80% |
重要 |
|
gaussdb_mysql077_replication_delay |
数据同步延迟 |
连续3次 原始值>1s |
重要 |
|
gaussdb_mysql104_dfv_write_delay |
存储写时延 |
连续3次 原始值>10ms |
重要 |
|
gaussdb_mysql105_dfv_read_delay |
存储读时延 |
连续3次 原始值>10ms |
重要 |
|
数据库代理 |
rds001_cpu_util |
CPU使用率 |
连续3次 原始值 > 80% |
重要 |
rds002_mem_util |
内存使用率 |
连续3次 原始值 > 90% |
重要 |
|
DRS |
cpu_util |
CPU使用率 |
连续3次 原始值 > 90% |
重要 |
mem_util |
内存使用率 |
连续3次 原始值 > 90% |
重要 |
|
disk_util |
磁盘利用率 |
连续3次 原始值 > 80% |
重要 |
|
apply_latency |
数据同步延迟 |
根据业务实际情况配置 |
重要 |
|
apply_current_state |
同步状态 |
连续1次 原始值 = 0 |
重要 |
|
apply_thread_workers |
同步线程数量 |
连续3次 原始值 > 80 |
重要 |
|
DDM |
cpu_usage |
CPU使用率 |
连续3次 原始值 > 90% |
重要 |
memory_usage |
内存使用率 |
连续3次 原始值 > 90% |
重要 |
|
GaussDB(for Cassandra) |
cassandra001_cpu_usage |
CPU使用率 |
连续3次 原始值>80% |
重要 |
cassandra002_mem_usage |
内存使用率 |
连续3次 原始值>80% |
重要 |
|
nosql005_disk_usage |
磁盘利用率 |
连续3次 原始值>80% |
重要 |
|
cassandra014_connections |
活动连接数 |
连续3次 原始值>最大连接数的80% |
重要 |
|
GaussDB(for Influx) |
gemini001_cpu_usage |
CPU使用率 |
连续3次 原始值>80% |
重要 |
gemini002_mem_usage |
内存使用率 |
连续3次 原始值>80% |
重要 |
|
nosql005_disk_usage |
磁盘利用率 |
|
重要 |
|
GaussDB(for Redis) |
gemini001_cpu_usage |
CPU利用率 |
连续3次 原始值>80% |
重要 |
gemini002_mem_usage |
内存利用率 |
连续3次 原始值>80% |
重要 |
|
nosql005_disk_usage |
磁盘利用率 |
连续3次 原始值>80% |
重要 |
|
redis015_proxy_use_memory |
proxy内存使用量 |
连续3次 原始值>80% |
重要 |
|
redis016_proxy_used_cpu |
proxy CPU利用率 |
连续3次 原始值>核数*80% |
重要 |
|
GaussDB(for MongoDB) |
nosql001_cpu_usage |
CPU利用率 |
连续3次 原始值>80% |
重要 |
nosql002_mem_usage |
内存利用率 |
连续3次 原始值>80% |
重要 |
|
nosql005_disk_usage |
磁盘利用率 |
连续3次 原始值>80% |
重要 |
|
mongodb007_connections_usage |
当前活动连接数百分比 |
连续3次 原始值>80% |
重要 |
|
GaussDB(for openGauss) |
rds001_cpu_util |
CPU使用率 |
连续3次 原始值>80% |
重要 |
rds002_mem_util |
内存使用率 |
连续3次 原始值>80% |
重要 |
|
rds007_instance_disk_usage |
实例数据磁盘已使用百分比 |
连续3次 原始值>80% |
重要 |
表 3 数据库事件告警
服务名 |
事件英文名称 |
事件中文名称 |
最佳实践告警级别 |
RDS |
activeStandBySwitchFailed |
主备切换异常 |
紧急 |
abnormalReplicationStatus |
复制状态异常 |
紧急 |
|
replicationStatusRecovered |
复制状态异常已恢复 |
紧急 |
|
faultyDBInstance |
实例运行状态异常 |
紧急 |
|
DBInstanceRecovered |
实例运行状态异常已恢复 |
紧急 |
|
DDS |
DDSAbnormalReplicationStatus |
复制状态异常 |
紧急 |
DDSReplicationStatusRecovered |
复制状态异常已恢复 |
紧急 |
|
Insufficient storage space |
数据盘空间不足 |
紧急 |
|
The data disk space is expanded and becomes writable |
数据盘空间已扩容并恢复可写 |
紧急 |
|
DDSFaultyDBInstance |
实例运行状态异常 |
紧急 |
|
DDSDBInstanceRecovered |
实例运行状态异常已恢复 |
紧急 |
|
DDSFaultyDBNode |
节点运行状态异常 |
紧急 |
|
DDSDBNodeRecovered |
节点运行状态异常已恢复 |
紧急 |
|
云数据库 GaussDB(for MySQL) |
TaurusInstanceRunningStatusAbnormal |
实例运行状态异常 |
紧急 |
TaurusInstanceRunningStatusRecovered |
实例运行状态异常已恢复 |
紧急 |
|
TaurusNodeRunningStatusAbnormal |
节点运行状态异常 |
紧急 |
|
TaurusNodeRunningStatusRecovered |
节点运行状态异常已恢复 |
紧急 |
|
云数据库GaussDB(openGauss) |
ProcessStatusAlarm |
进程状态告警 |
重要 |
ComponentStatusAlarm |
组件状态告警 |
重要 |
|
ClusterStatusAlarm |
集群状态告警 |
重要 |
|
HardwareResourceAlarm |
硬件资源告警 |
重要 |
|
StateTransitionAlarm |
状态转换告警 |
重要 |
|
OtherAbnormalAlarm |
其他异常告警 |
重要 |
|
GaussDBV5FaultyDBInstance |
实例运行状态异常 |
紧急 |
|
GaussDBV5InstanceRecovered |
实例运行状态异常已恢复 |
紧急 |
|
GaussDBV5FaultyDBNode |
节点运行状态异常 |
紧急 |
|
GaussDBV5FaultyDBNodeRecovered |
节点运行状态异常已恢复 |
紧急 |
|
云数据库 GaussDB NoSQL |
Insufficient storage space |
数据盘空间不足 |
紧急 |
The data disk space is expanded and becomes writable |
数据盘空间已扩容并恢复可写 |
紧急 |
|
NoSQLFaultyDBNode |
节点运行状态异常 |
紧急 |
|
NoSQLDBNodeRecovered |
节点运行状态异常恢复 |
紧急 |
|
NoSQLPrimaryStandbySwitched |
实例主备切换 |
紧急 |
- 点赞
- 收藏
- 关注作者
评论(0)