GaussDB(DWS) 数据库智能监控运维服务-节点监控指标
GaussDB(DWS)使用DMS来承载数据库的智能运维体系,提供了数据库运维过程中的监控,分析,处理三大核心处理过程。本文将着重介绍DMS服务中对于集群主机硬件指标监控数据。
在GaussDB(DWS) 产品中完成集群创建后,即可在集群管理页面看到创建的集群信息,选择集群操作选项中的监控面板功能,即可进入 DMS服务中。
DMS提供了多项关于数据库相关的监控与工具功能,本文中我们主要关注监控功能中对于节点监控指标。
对于数据库集群中节点监控主要在于CPU 内存 磁盘 网络四个方面,从当前这个概览界面可以看主机当前的一些状态指标
CPU使用率 | 通过 /proc/stat 获得CPU状态 ,由SYS(内核态) 与 USER(用户态)占比相加获得当前CPU使用率,该指标反映了节点CPU压力状态。 |
内存使用率 | 通过 /proc/meminfo获得内存信息,由总内存减去空闲内存与缓存占比获得当前内存使用率,该指标反映了节点内存使用状态。 |
平均磁盘使用率 | 通过读取节点磁盘挂载信息,获得节点磁盘容量使用情况。 |
磁盘I/O | 通过iostat 命令获得当前节点IO状态,该指标反映了当前磁盘IO流量情况。 |
TCP协议重传率 | 通过/proc/net/snmp 获得节点网络协议统计结果,该指标一定程度上反映了节点的网络质量。 |
网络I/O | 通过/proc/net/dev 获得节点各个网络端口的流量情况,该指标反映了节点的网络流量压力状态。 |
状态 | 通过检查节点到集群CCN节点是否可达,判断节点当前状态。 |
将鼠标移动至某个指标,还可以查看更详细的一些监控值例如CPU,可以查看用户态 系统态 IDLE IO等待消耗的CPU占比。
节点监控页面上还可以针对磁盘和网络活动更加详细的信息,例如磁盘功能将对每个节点各个磁盘的IO状态指标进行采集与展示。
DMS服务从CPU 内存 磁盘 网络四个方面对数据库节点展开监控,那么这些监控指标如何体现了数据库当前的状态,从这些指标又怎么发现数据库当前可能存在的问题
CPU指标:CPU使用率反映了集群当前运行业务情况,业务数量越多计算量越多,节点的CPU使用率越高,当在集群业务高峰期观察时将可以看到CPU使用率是处在高位。对于CPU指标举例两类场景问题:
CPU使用率一直处于高位 | 排查集群运行的业务,业务SQL或者表索引是否设计不合理或者需要排查节点是否存在非GaussDB进程一直消耗CPU资源。 |
各节点CPU使用率明显差异 | 排查集群业务,是否业务分布不合理,对于CN节点可以查看是否未配置负载均衡,导致单个节点压力过大。 |
内存指标:内存使用率反映当前集群运行时消耗内存情况,业务涉及的数据量越多,节点的内存消耗越多。举例内存指标相关问题:
内存使用率缓慢增长 | 排查是否存在内存泄露问题 |
各节点内存使用率明显差异 | 排查集群业务,是否业务分布不合理 |
磁盘指标:磁盘指标反映了当前集群运行时集群数据对于磁盘占用情况, 举例磁盘指标相关问题:
磁盘使用率短期内迅速增长 | 排查是否业务与磁盘占用是否相符,是否数据库存在过多脏页,临时文件等占用大量磁盘资源。 |
节点磁盘IO等待时间过高 | 排查磁盘状态,磁盘是否处于慢盘状态。 |
各节点磁盘使用率明显差异 | 排查集群业务,是否业务分布不合理,导致数据倾斜。 |
网络指标:网络指标反映了当前集群运行时各个节点网络流量状态,举例网络问题:
网络TCP重传率高 | 排查集群网络,是否网络拥塞,网络状态不良。 |
网络丢包数过高 | 排查集群业务与网络,是否是业务压力导致网卡丢包或网络本身问题。 |
- 点赞
- 收藏
- 关注作者
评论(0)