GaussDB(DWS) 数据库智能监控运维服务-节点监控指标

power_gouge 发表于 2022/06/23 18:01:19 2022/06/23
【摘要】   GaussDB(DWS)使用DMS来承载数据库的智能运维体系,提供了数据库运维过程中的监控,分析,处理三大核心处理过程。本文将着重介绍DMS服务中对于集群主机硬件指标监控数据。

  GaussDB(DWS)使用DMS来承载数据库的智能运维体系,提供了数据库运维过程中的监控,分析,处理三大核心处理过程。本文将着重介绍DMS服务中对于集群主机硬件指标监控数据。

  在GaussDB(DWS) 产品中完成集群创建后,即可在集群管理页面看到创建的集群信息,选择集群操作选项中的监控面板功能,即可进入 DMS服务中。

DMS提供了多项关于数据库相关的监控与工具功能,本文中我们主要关注监控功能中对于节点监控指标。

对于数据库集群中节点监控主要在于CPU 内存 磁盘 网络四个方面,从当前这个概览界面可以看主机当前的一些状态指标

CPU使用率 通过 /proc/stat 获得CPU状态 ,由SYS(内核态) 与 USER(用户态)占比相加获得当前CPU使用率,该指标反映了节点CPU压力状态。
内存使用率 通过 /proc/meminfo获得内存信息,由总内存减去空闲内存与缓存占比获得当前内存使用率,该指标反映了节点内存使用状态。
平均磁盘使用率 通过读取节点磁盘挂载信息,获得节点磁盘容量使用情况。
磁盘I/O 通过iostat 命令获得当前节点IO状态,该指标反映了当前磁盘IO流量情况。
TCP协议重传率 通过/proc/net/snmp 获得节点网络协议统计结果,该指标一定程度上反映了节点的网络质量。
网络I/O 通过/proc/net/dev 获得节点各个网络端口的流量情况,该指标反映了节点的网络流量压力状态。
状态 通过检查节点到集群CCN节点是否可达,判断节点当前状态。

将鼠标移动至某个指标,还可以查看更详细的一些监控值例如CPU,可以查看用户态 系统态 IDLE IO等待消耗的CPU占比。

节点监控页面上还可以针对磁盘和网络活动更加详细的信息,例如磁盘功能将对每个节点各个磁盘的IO状态指标进行采集与展示。

DMS服务从CPU 内存 磁盘 网络四个方面对数据库节点展开监控,那么这些监控指标如何体现了数据库当前的状态,从这些指标又怎么发现数据库当前可能存在的问题

CPU指标:CPU使用率反映了集群当前运行业务情况,业务数量越多计算量越多,节点的CPU使用率越高,当在集群业务高峰期观察时将可以看到CPU使用率是处在高位。对于CPU指标举例两类场景问题:

CPU使用率一直处于高位 排查集群运行的业务,业务SQL或者表索引是否设计不合理或者需要排查节点是否存在非GaussDB进程一直消耗CPU资源。
各节点CPU使用率明显差异 排查集群业务,是否业务分布不合理,对于CN节点可以查看是否未配置负载均衡,导致单个节点压力过大。

内存指标:内存使用率反映当前集群运行时消耗内存情况,业务涉及的数据量越多,节点的内存消耗越多。举例内存指标相关问题:

内存使用率缓慢增长 排查是否存在内存泄露问题
各节点内存使用率明显差异 排查集群业务,是否业务分布不合理

磁盘指标:磁盘指标反映了当前集群运行时集群数据对于磁盘占用情况, 举例磁盘指标相关问题:

磁盘使用率短期内迅速增长 排查是否业务与磁盘占用是否相符,是否数据库存在过多脏页,临时文件等占用大量磁盘资源。
节点磁盘IO等待时间过高 排查磁盘状态,磁盘是否处于慢盘状态。
各节点磁盘使用率明显差异 排查集群业务,是否业务分布不合理,导致数据倾斜。

网络指标:网络指标反映了当前集群运行时各个节点网络流量状态,举例网络问题:

网络TCP重传率高 排查集群网络,是否网络拥塞,网络状态不良。
网络丢包数过高 排查集群业务与网络,是否是业务压力导致网卡丢包或网络本身问题。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。