【云小课】基础服务第88课 还在怕资源状态异常无法及时得知吗?使用云监控服务创建告警规则和通知就行啦~

举报
云小萌 发表于 2021/10/12 10:45:43 2021/10/12
【摘要】 使用云监控服务创建告警规则和通知

云监控告警提供对监控指标的告警功能,您可以对云服务的核心监控指标设置告警规则,当监控指标触发您设置的告警条件时,云监控支持以邮箱、短信、HTTPHTTPS等方式通知您,让您在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。

 

云监控服务使用消息通知服务向用户通知告警信息。首先,您需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,您需要开启消息通知服务并选择创建的主题,这样在云服务发生异常时,云监控服务可以实时的将告警信息以广播的方式通知这些订阅者。

本节云小课以CPU使用率为例,使用云监控服务为弹性云服务器创建告警规则和通知,当弹性云服务器设置CPU使用率超过90%时触发告警。


一:创建主题

  1. 登录管理控制台。
  2. 在管理控制台左上角选择区域和项目。
  3. 选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
  4. 在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
  5. 在主题页面,单击“创建主题”,开始创建主题。此时将显示“创建主题”对话框。


    6. 在“主题名称”框中,输入主题名称,在“显示名”框中输入相关描述,如下表所示。

参数

说明

主题名称

创建的主题名称,用户可自定义名称,规范如下:

l  只能包含字母,数字,短横线(-)和下划线(_),且必须由大写字母、小写字母或数字开头。

l  名称长度限制在1-255字符之间。

l  主题名称为主题的唯一标识,一旦创建后不能再修改主题名称。

显示名

显示名,长度限制在192字节或64个中文字。

说明:

推送邮件消息时,若未设置主题的显示名,发件人呈现为“username@example.com”,若已设置主题的显示名,发件人则呈现为显示名<username@example.com>”

标签

标签由标签“键”和标签“值”组成,用于标识云资源,可对云资源进行分类和搜索。

l  键的长度最大36字符,值的长度最大43 字符,不能包含“=,*,<,>,\,,,|,/”,且首尾字符不能为空格。

l  每个主题最多可创建10个标签。


    7. 单击“确定”,主题创建成功。新创建的主题将显示在主题列表中。主题创建成功后,系统会自动生成主题URN,主题URN是主题的唯一资源标识,不可修改。新创建的主题将显示在主题列表中。

    8. 单击主题名称,可查看主题详情和主题订阅总数。

二:添加订阅

  1. 登录管理控制台。
  2. 选择“管理与监管” > “消息通知服务”。进入消息通知服务页面。
  3. 在左侧导航栏,选择“主题管理” > “主题”。进入主题页面。
  4. 在主题列表中,选择您要向其添加订阅者的主题,在右侧“操作”栏单击“添加订阅”。此时将显示“添加订阅”对话框。


     

        5. 在“协议”下拉框中选择订阅终端支持的协议,在“订阅终端”输入框中输入对应的订阅终端。批量添加订阅终端时,每个终端地址占一行。添加终端详情请参考消息通知服务用户指南的“添加订阅

        6. 单击“确定”。新增订阅将显示在页面下方的订阅列表中。

     

    三:创建告警规则和通知

    1. 登录管理控制台。
    2. 单击“服务列表 > 云监控服务”。
    3. 单击页面左侧的“主机监控”,进入主机监控页面。此时页面上显示了当前云平台上的弹性云服务器列表。
    4. 单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。弹出创建告警规则的窗口。
    5. 依次按照如下所示配置参数。


      1. 选择类型:选择自定义创建。
      2. 监控指标:在下拉框中选择“CPU使用率”。
      3. 告警策略:CPU使用率、平均值、监控周期5分钟、连续三个周期、≥、90%
      4. 告警级别:重要。
      5. 发送通知:是。
      6. 生效时间:00:00-23:59
      7. 主题通知:选择已创建的主题。
      8. 触发条件:依次勾选“出现告警”、“恢复正常”。

          配置完成后,点击下一步。

        6. 依次输入告警规则名称和描述后,点击“创建”,完成告警规则的创建。

     

    您还可以通过以下视频进了解更详细的操作步骤:

     

    除了CPU使用率,您还可以参考以下告警策略的最佳实践来继续创建其他服务的告警规则和通知,配置告警从此变得so easy~

     

    1 告警策略最佳实践

    服务

    维度

    指标-英文

    指标-中文

    告警策略最佳实践

    告警级别最佳实践

    弹性云服务器 ECS
    /
    云容器引擎 CCE-节点

    弹性云服务器-云服务器

    cpu_util

    CPU使用率

    连续3次 原始值 > 90%,带外

    重要

    mem_util

    内存使用率

    连续3次 原始值 > 80%,带内

    重要

    disk_util

    磁盘使用率

    连续3次 原始值 > 80%,带内

    重要

    主机监控-云服务器

    cpu_usage

    AGT.CPU使用率

    连续3个周期 原始值 > 90%

    重要

    mem_usedPercent

    AGT.内存使用率

    连续3个周期 原始值 > 80%

    重要

    disk_usedPercent

    AGT.磁盘使用率

    连续3个周期 原始值 > 80%

    重要

    disk_ioUtils

    AGT.磁盘I/O使用率

    连续3个周期 原始值 > 90%

    重要

    disk_fs_rwstate

    AGT.文件系统读写状态

    连续2个周期 原始值 = 1

    重要

    disk_inodesUsedPercent

    AGT.inode已使用占比

    连续3个周期 原始值 > 90%

    重要

    裸金属服务器 BMS

    BMS操作系统监控指标

    cpu_usage

    AGT.CPU使用率

    连续3次 原始值 > 80%, 带内

    重要

    mem_usedPercent

    AGT.内存使用率

    连续3次 原始值 > 80%, 带内

    重要

    disk_usedPercent

    AGT.磁盘使用率

    连续3次 原始值 > 80%, 带内

    重要

    disk_ioUtils

    AGT.磁盘I/O使用率

    连续3次 原始值 > 90%

     

    disk_fs_rwstate

    AGT.文件系统读写状态

    连续2次 原始值 = 1

     

    disk_inodesUsedPercent

    AGT.inode已使用占比

    连续3次 原始值 > 90%

     

    云手机 CPH

    云手机服务器

    cpu_usage

    CPU使用率

    连续3次 原始值 > 80%

    重要

    mem_usedPercent

    内存使用率

    连续3次 原始值 > 80%

     

    upstream_bandwidth_usage

    出网带宽使用率

    连续3次 原始值 > 95%

    重要

    cph_sharebase_usedPercent

    共享存储空间使用率

    连续5  原始值 > 95%

    重要

    云手机服务器-云手机

    cph_cpu_usage

    CPU使用率

    连续5  原始值 > 90%

    重要

    cph_mem_usedPercent

    内存使用率

    连续5  原始值 > 90%

    重要

    cph_disk_usedPercent

    云手机磁盘使用率

    连续5次 原始值 > 90%

    重要

    云手机服务器-磁盘

    disk_usage_read_await

    平均读操作耗时

    连续3次 原始值 > 50ms

    重要

    disk_usage_write_await

    平均写操作耗时

    连续3次 原始值 > 50ms

    重要

    云硬盘 EVS

    磁盘

    disk_device_write_await

    平均写操作耗时

    连续5次 原始值 > 500ms

    紧急

    连续3次 原始值 > 500ms

    重要

    disk_device_read_await

    平均读操作耗时

    连续5次 原始值 > 400ms

    紧急

    连续3次 原始值 > 400ms

    重要

    对象存储服务

    桶名称

    request_count_4xx

    4xx错误次数

    根据业务实际情况配置

    紧急

    request_count_5xx

    5xx错误次数

    连续2次,最大值 >N ; N=总请求数*(1-99.95%)并向上取整

    紧急

    total_request_latency

    总请求平均时延

    连续3次 原始值 > 阈值(见备注)

    重要

    upload_bytes

    上传流量

    连续3次 原始值>1200GB

    紧急

    download_bytes

    下载流量

    连续3次 原始值>1200GB

    紧急

    用户

    total_request_latency

    总请求平均时延

    连续3次 原始值 > 阈值(见备注)

    重要

    upload_bytes

    上传流量

    连续3次 原始值>1200GB

    紧急

    download_bytes

    下载流量

    连续3次 原始值>1200GB

    紧急

    云存储网关 CSG

    网关

    cpu_util

    CPU使用率

    连续3次 原始值 > 95%

    重要

    mem_util

    内存使用率

    连续3次 原始值 > 90%

    紧急

    cache_util

    缓存盘空间使用率

    连续3次 原始值 > 95%

    紧急

    虚拟私有云 VPC

    EIP/带宽

    upstream_bandwidth_usage

    出网带宽使用率

    连续3次 原始值 > 95%

    重要

    虚拟专用网络 VPN

    VPN连接

    connection_status

    VPN连接状态

    连续2次 原始值 = 0

    紧急

    弹性负载均衡 ELB

    ELB

    m1_cps

    并发连接数

    连续3次 原始值 > xx(根据业务实际情况配置)

    紧急

    m4_ncps

    新建连接数

    连续3次 原始值 > xx(根据业务实际情况配置)

    紧急

    m9_abnormal_servers

    异常主机数

    连续1次 原始值 > 0

    紧急

    me_l7_http_4xx

    七层协议返回码(4XX)

    连续3次 原始值 > xx (根据业务实际情况)

    紧急

    mf_l7_http_5xx

    七层协议返回码(5XX)

    连续3次 原始值 > xx (根据业务实际情况)

    紧急

    监听器

    me_l7_http_4xx

    七层协议返回码(4XX)

    连续3次 原始值 > xx (根据业务实际情况)

    紧急

    mf_l7_http_5xx

    七层协议返回码(5XX)

    连续3次 原始值 > xx (根据业务实际情况)

    紧急

    云专线

    物理专线/历史专线/虚拟接口

    packet_loss_rate

    丢包率

    连续3次 原始值 =  100%

    紧急

    连续3次 原始值 >  10%

    重要

    network_incoming_bits_rate

    网络流入带宽

    连续3次 原始值 = 0

    紧急

    network_outgoing_bits_rate

    网络流出带宽

    连续3次 原始值 = 0

    紧急

    NAT网关 NAT

    NAT网关

    inbound_bandwidth

    入方向带宽

    连续3次 原始值 >80%

    重要

    outbound_bandwidth

    出方向带宽

    连续3次 原始值 >80%

    重要

    snat_connection_ratio

    SNAT连接数使用率

    连续3次 原始值 >80%

    重要

    云连接 CC

    域间带宽

    network_incoming_bits_rate

    网络流入带宽

    连续5次 原始值 >=指定带宽值

    紧急

    network_outgoing_bits_rate

    网络流出带宽

    连续5次 原始值 >=指定带宽值

    紧急

     表 2 数据库指标告警

    维度

    指标-英文

    指标-中文

    最佳实践阈值

    最佳实践告警级别

    mysql

    rds001_cpu_util

    CPU使用率

    连续3次 原始值 >80%

    重要

    rds002_mem_util

    内存使用率

    连续3次 原始值 >90%

    重要

    rds039_disk_util

    磁盘利用率

    连续3次 原始值 >80%

    重要

    rds072_conn_usage

    连接数使用率

    连续3次 原始值 > 80%

    重要

    rds073_replication_delay

    实时复制时延

    连续3次 原始值 > 600s

    重要

    postgresql

    rds001_cpu_util

    CPU使用率

    连续3次 原始值 > 80%

    重要

    rds002_mem_util

    内存使用率

    连续3次 原始值 > 90%

    重要

    rds039_disk_util

    磁盘利用率

    连续3次 原始值 > 80%

    重要

    rds046_replication_lag

    复制时延

    连续3次 原始值 > 600s

    重要

    rds083_conn_usage

    连接数使用率

    连续3次 原始值 > 80%

    重要

    SQL Server

    rds001_cpu_util

    CPU使用率

    连续3次 原始值 > 80%

    重要

    rds039_disk_util

    磁盘利用率

    连续3次 原始值 > 80%

    重要

    rds002_mem_util

    内存使用率

    连续3次 原始值 > 90%

    重要

    rds054_db_connections_in_use

    使用中的数据库连接数

    连续3次 原始值 > 80%

    重要

    DDS

    mongo007_connections

    当前活动连接数

    连续3  原始值>80%

    重要

    mongo031_cpu_usage

    CPU使用率

    连续3  原始值>80%

    重要

    mongo035_disk_usage

    磁盘利用率

    连续3  原始值>80%

    重要

    mongo032_mem_usage

    内存使用率

    连续3  原始值>80%

    重要

    GaussDB
    (for MySQL)

    gaussdb_mysql001_cpu_util

    CPU使用率

    连续3  原始值>80%

    重要

    gaussdb_mysql002_mem_util

    内存使用率

    连续3  原始值>85%

    重要

    gaussdb_mysql011_innodb_buf_hit

    缓冲池命中率

    连续3  原始值>90%

    重要

    gaussdb_mysql072_conn_usage

    连接数使用率

    连续3次 原始值 > 80%

    重要

    gaussdb_mysql077_replication_delay

    数据同步延迟

    连续3次 原始值>1s

    重要

    gaussdb_mysql104_dfv_write_delay

    存储写时延

    连续3次 原始值>10ms

    重要

    gaussdb_mysql105_dfv_read_delay

    存储读时延

    连续3次 原始值>10ms

    重要

    数据库代理

    rds001_cpu_util

    CPU使用率

    连续3次 原始值 > 80%

    重要

    rds002_mem_util

    内存使用率

    连续3次 原始值 > 90%

    重要

    DRS

    cpu_util

    CPU使用率

    连续3次 原始值 > 90%

    重要

    mem_util

    内存使用率

    连续3次 原始值 > 90%

    重要

    disk_util

    磁盘利用率

    连续3次 原始值 > 80%

    重要

    apply_latency

    数据同步延迟

    根据业务实际情况配置

    重要

    apply_current_state

    同步状态

    连续1次 原始值 = 0

    重要

    apply_thread_workers

    同步线程数量

    连续3次 原始值 > 80

    重要

     DDM

    cpu_usage

    CPU使用率

    连续3次 原始值 > 90%

    重要

    memory_usage

    内存使用率

    连续3次 原始值 > 90%

    重要

    GaussDB(for Cassandra)

    cassandra001_cpu_usage

    CPU使用率

    连续3  原始值>80%

    重要

    cassandra002_mem_usage

    内存使用率

    连续3  原始值>80%

    重要

    nosql005_disk_usage

    磁盘利用率

    连续3  原始值>80%

    重要

    cassandra014_connections

    活动连接数

    连续3  原始值>最大连接数的80%

    重要

    GaussDB(for Influx)

    gemini001_cpu_usage

    CPU使用率

    连续3  原始值>80%

    重要

    gemini002_mem_usage

    内存使用率

    连续3  原始值>80%

    重要

    nosql005_disk_usage

    磁盘利用率

     

    重要

    GaussDB(for Redis)

    gemini001_cpu_usage

    CPU利用率

    连续3  原始值>80%

    重要

    gemini002_mem_usage

    内存利用率

    连续3  原始值>80%

    重要

    nosql005_disk_usage

    磁盘利用率

    连续3  原始值>80%

    重要

    redis015_proxy_use_memory

    proxy内存使用量

    连续3  原始值>80%

    重要

    redis016_proxy_used_cpu

    proxy CPU利用率

    连续3  原始值>核数*80%

    重要

    GaussDB(for MongoDB)

    nosql001_cpu_usage

    CPU利用率

    连续3  原始值>80%

    重要

    nosql002_mem_usage

    内存利用率

    连续3  原始值>80%

    重要

    nosql005_disk_usage

    磁盘利用率

    连续3  原始值>80%

    重要

    mongodb007_connections_usage

    当前活动连接数百分比

    连续3  原始值>80%

    重要

    GaussDB(for openGauss)

    rds001_cpu_util

    CPU使用率

    连续3  原始值>80%

    重要

    rds002_mem_util

    内存使用率

    连续3  原始值>80%

    重要

    rds007_instance_disk_usage

    实例数据磁盘已使用百分比

    连续3  原始值>80%

    重要


    表 3 数据库事件告警

    服务名

    事件英文名称

    事件中文名称

    最佳实践告警级别

    RDS

    activeStandBySwitchFailed

    主备切换异常

    紧急

    abnormalReplicationStatus

    复制状态异常

    紧急

    replicationStatusRecovered

    复制状态异常已恢复

    紧急

    faultyDBInstance

    实例运行状态异常

    紧急

    DBInstanceRecovered

    实例运行状态异常已恢复

    紧急

    DDS

    DDSAbnormalReplicationStatus

    复制状态异常

    紧急

    DDSReplicationStatusRecovered

    复制状态异常已恢复

    紧急

    Insufficient storage space

    数据盘空间不足

    紧急

    The data disk space is expanded and becomes writable

    数据盘空间已扩容并恢复可写

    紧急

    DDSFaultyDBInstance

    实例运行状态异常

    紧急

    DDSDBInstanceRecovered

    实例运行状态异常已恢复

    紧急

    DDSFaultyDBNode

    节点运行状态异常

    紧急

    DDSDBNodeRecovered

    节点运行状态异常已恢复

    紧急

    云数据库 GaussDB(for MySQL)

    TaurusInstanceRunningStatusAbnormal

    实例运行状态异常

    紧急

    TaurusInstanceRunningStatusRecovered

    实例运行状态异常已恢复

    紧急

    TaurusNodeRunningStatusAbnormal

    节点运行状态异常

    紧急

    TaurusNodeRunningStatusRecovered

    节点运行状态异常已恢复

    紧急

    云数据库GaussDB(openGauss)

    ProcessStatusAlarm

    进程状态告警

    重要

    ComponentStatusAlarm

    组件状态告警

    重要

    ClusterStatusAlarm

    集群状态告警

    重要

    HardwareResourceAlarm

    硬件资源告警

    重要

    StateTransitionAlarm

    状态转换告警

    重要

    OtherAbnormalAlarm

    其他异常告警

    重要

    GaussDBV5FaultyDBInstance

    实例运行状态异常

    紧急

    GaussDBV5InstanceRecovered

    实例运行状态异常已恢复

    紧急

    GaussDBV5FaultyDBNode

    节点运行状态异常

    紧急

    GaussDBV5FaultyDBNodeRecovered

    节点运行状态异常已恢复

    紧急

    云数据库 GaussDB NoSQL
    (原GeminiDB

    Insufficient storage space

    数据盘空间不足

    紧急

    The data disk space is expanded and becomes writable

    数据盘空间已扩容并恢复可写

    紧急

    NoSQLFaultyDBNode

    节点运行状态异常

    紧急

    NoSQLDBNodeRecovered

    节点运行状态异常恢复

    紧急

    NoSQLPrimaryStandbySwitched

    实例主备切换

    紧急

    【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。