GaussDB(DWS) DMS功能简介

举报
ACBD 发表于 2021/06/28 09:58:48 2021/06/28
【摘要】 数据库智能运维(DMS)是一个为GaussDB(DWS)数据库提供多维度监控服务的系统,能够对数据库运行所依赖的磁盘、网络、操作系统及其运行的关键性能指标进行收集和监控,再经过综合分析和处理,将数据库各类原子指标、派生指标和组合指标呈现给用户,并对数据库主机、实例、业务SQL等进行诊断,及时暴露出数据库中关键故障及性能问题,指导用户进行优化和解决。

数据库智能运维(DMS)是一个为GaussDB(DWS)数据库提供多维度监控服务的系统,能够对数据库运行所依赖的磁盘、网络、操作系统及其运行的关键性能指标进行收集和监控,再经过综合分析和处理,将数据库各类原子指标、派生指标和组合指标呈现给用户,并对数据库主机、实例、业务SQL等进行诊断,及时暴露出数据库中关键故障及性能问题,指导用户进行优化和解决。

1. 监控指标及功能

DMS监控指标及功能如图1所示,监控指标包括主机相关指标、集群和数据库相关指标,DMS采集多个维度的指标并呈现给用户,对数据库实时监测。功能包括是否呈现监控指标,以及对监控指标的呈现方式、采集频率、保留时间等进行设置,用户可以自定义监控内容。

图1 DMS监控指标和功能

 

2. 监控展示

2.1 集群概览

集群概览页面展示了集群状态、资源消耗、Top5耗时的查询、Top 5最大下盘量的查询、会话数量和查询数量。其中,集群状态对集群的规模进行了监控,包括集群的节点数量、CN数量和数据库数量指标,资源消耗对集群的消耗情况进行了监控,包括内存使用率、磁盘使用率、CPU使用率、磁盘I/O和网络I/O,Top5的查询对当前数据库中耗时最长的和下盘量最大的SQL语句进行了监控。集群概览页面还展示了当前数据库的会话数量和查询数量。

图2 集群概览

 

2.2 主机监控

主机监控对数据库的宿主机各项资源进行了监控,包括主机的CPU、内存、磁盘、网络等。主机监控概览页面,对主机的名称、CPU使用率、内存使用率、平均磁盘使用率、磁盘I/O、网络I/O、主机状态等指标进行了监控。CPU使用率监控展示了用户、系统、空闲和I/O等待分别占用CPU使用情况,如图3所示。

图3 CPU使用率

 

内存使用率监控展示了内存总量及可用、缓冲、缓存、总交换和可用交换分别占用内存量,如图4所示。

图4 内存使用率

 

    平均磁盘使用率监控展示了总磁盘大小及已使用磁盘大小、可用磁盘大小,如图5所示。

图5 平均磁盘使用率

 

主机监控磁盘监控项展示了更详细的主机磁盘使用状态,包括每台主机上挂载的磁盘数量,磁盘的容量、使用率、读写速率、磁盘I/O等信息,如图6所示。

图6 磁盘监控

 

主机监控网络监控展示了主机网卡的详细信息,包括网卡状态、速率、收发包数、收发速率等信息,如图7所示。

图7 网络监控

 

2.3 性能监控

性能监控从集群维度和数据库维度展示了集群和数据库多项性能指标,通过图表数据可视化的形式,直观展示了集群和数据库的性能。其中集群性能指标包括:CPU使用率,内存使用率,磁盘使用率,磁盘I/O,网络I/O,状态,CN异常数量,只读,会话数量,查询数量,死锁数量,DN异常数量,DN实例CPU使用率,平均每秒事务数,平均每秒查询数等15个性能指标,数据库性能指标包括查询等待队列长度,会话数量,查询数量,提交事务数,回滚事务数,全表扫描返回行数,索引查询返回行数,插入行数,更新行数,删除行数,容量,每秒事务数等12个性能指标。性能监控页面如图8所示。

图8 性能监控

 

性能监控页面用户可以自定义需要关注的监控指标,并能以不同的时间周期进行展示,对于长周期数据,可以对原始数据进行聚合后展示出来,呈现出该指标长周期的趋势。用户还可以自定义想要展示的时间周期内监控指标数据,并可以导出监控数据做进一步分析。通过可视化的图表展示集群和数据库性能指标,可以更加直观地识别出问题所在,指导运维人员定位问题和解决问题。

2.4 数据库监控

数据库监控展示了当前集群包含的数据库及数据库的使用容量、用户数量、应用数量、会话数量、查询数量、表数据的增删改数量、事务数量等,将数据库的关键性能指标直观呈现出来。数据库监控如图9所示。

图9 数据库监控

 

2.5 会话监控

会话监控展示了会话ID、用户名称、数据库名称、会话用时、应用名称、查询数量、最近查询用时、客户端IP、接入CN以及会话状态指标,并提供了终止会话接口,当某项会话超时时可以用来终止超时会话。会话监控如图10所示。


10 会话监控

 

2.6 查询监控

查询监控展示了当前数据库的实时和历史查询数据。其中实时查询展示了查询ID、用户名称、数据库名称、提交时间、执行时间、查询语句、快慢车道、查询状态等多个指标,用户可自定义需要展示的指标项。历史查询展示了历史查询的ID、用户名、数据库名称、提交时间、执行时间、查询状态、完成时间等,用户可以自定义需要展示的指标项。实时查询页面用户点击终止查询按钮可终止查询。查询监控如图11所示。


 

图11 查询监控

 

点击实时查询的查询ID,可以查看该查询监控的详细信息,在详情页面会展示当前监控的更多细节。例如查询语句的基本信息、在执行中的实时资源消耗、执行过程中的历史资源消耗、完整描述以及查询计划等,如图12所示。

图12 查询监控详情

 

2.7 实例监控

DMS可以在集群的CN节点上自动配置并拉起慢实例检测脚本,通过周期性采集脚本的缓存表,将检测到的慢实例数据上报。用户可在界面上查看24小时内检测到的慢实例数量,以及在时间维度上的分布状态等信息,更为快捷的定位到拖慢整个集群的慢节点并分析其根因。

慢实例检测页面分为两部分,上半部分是检测出慢实例数量的时间分布图,显示的是在不同的检测时间段检测出慢实例的数量。下半部分是慢实例详情,当用户选中时间分布图中的任意柱状时,就会在慢实例详情中展示该检测时间、节点名称、实例名称以及慢节点检测次数(24小时内)等详细情况。实例监控如图13。

图13 实例监控

 

2.8 负载监控

负载监控展示了用户自定义的工作负载队列名称,实时/历史资源消耗以及工作负载队列资源配额,如图14所示。

图14 工作负载队列监控

 

工作负载队列上的等待查询可以实时查看工作负载队列上的等待作业情况,帮助用户识别工作负载队列上的业务压力,如图15所示。

图15 工作负载队列上的等待查询监控

 

熔断查询监控可以查看工作负载队列上的熔断规则的触发情况,展示了查询ID、查询语句、阻塞时间、执行时间、CPU时间、CPU倾斜率、异常处理方式、处理状态等指标,如图16所示。

图16 熔断查询

 

2.9 SQL诊断

SQL诊断监控展示了查询ID、数据库名称、模式名、用户名、客户端、客户端IP、运行时间、CPU时间、开始时间、完成时间、详情等指标,SQL诊断给出了SQL告警信息及调优建议,帮助用户更高效的执行SQL查询,如图17所示。

图17 SQL诊断

 

3. 监控设置

3.1 监控采集

监控采集页面用户可自定义监控指标的采集频率,打开或关闭某个监控指标项,打开或关闭集群DMS监控,每个监控项均有默认采集频率,可一键重置为默认采集频率。监控采集如图18所示。

图18 监控采集

3.2 采集存储

采集存储页面用户可自定义监控指标数据保留时间,当前支持最短保留1天,最长保留30天,如图19所示。

图19 采集存储

 

 

想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技,后台还可获取众多学习资料哦~

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。