【云驻共创】DWS告警服务DMS详细介绍和集群连接方式简介

breakDawn 发表于 2022/06/28 09:09:03 2022/06/28
【摘要】 DWS的应用场景非常重要, 因此数据库是否正常运作、是否出现故障节点、慢查询等,如何快速反应并修复,是许多使用者关心的一个重要问题。 华为云DWS为此推出了DMS,这是一款提供了监控、分析、告警识别等功能的云原生数据库监控管理服务。

DWS是一款具备分析及混合负载能力的分布式数据库,支持x86和Kunpeng硬件架构,支持行存储与列存储,提供GB~PB级数据分析能力、多模分析和实时处理能力,用于数据仓库、数据集市、实时分析、实时决策和混合负载等场景,广泛应用于汽车、制造、零售、物流、互联网、金融、政府、电信等行业分析决策系统。

如上所述,DWS的应用场景非常重要, 因此数据库是否正常运作、是否出现故障节点、慢查询等,如何快速反应并修复,是许多使用者关心的一个重要问题。

华为云DWS为此推出了DMS,这是一款提供了监控、分析、告警识别等功能的云原生数据库监控管理服务。

DMS同时具备眼、脑、手三大核心部位。
眼:负责采集并存储数据库运行状态数据。

脑:根据监控数据,识别数据库异常状态,定位异常状态根因,并给出解决方案

手:根据解决方案,执行运维操作,修复问题。

下面进行详细的介绍

DWS四大基本能力

1. 告警信息统计

DMS的告警信息统计功能,可以提供过去7天内产生告警的趋势, 以及当前系统中未消除告警的数量和分布,并支持根据集群筛选告警统计信息。
image.png

2. 告警通知

通知渠道包含短信平台、邮件等,方便运营、dba人员快速感知到问题发生,及时修复,避免影响业务正常运行。

3. 告警规则

当前DMS提供了20多条告警规则, 这些规则默认开启,并支持修改和停用。
image.png
用户可以根据自己的业务实际情况进行阈值修改,设置告警抑制条件等, 方便过滤一些不关心的或者短周期的报警, 且支持绑定特定集群,配置方式十分灵活。
image.png

4. 关键信息监控

当前上线的主要是硬件资源相关的监控, 例如cpu使用率、日志磁盘情况、交换分区磁盘情况等。
另外也包括一些更高级的细化的信息, 例如查询语句堆积情况、 触发量较大的查询语句等。
比如提交作业后资源池20分钟内没有变化, 就会产生告警,提示用户进行排查。

DMS六大概览主题页

DMS在入口页面,按照主题分布,展示了集群各维度资源的使用情况和性能情况,并分别以卡片的形式呈现。
image.png

1. 集群状态

集群状态包含了集群内过去24小时正常状态的占比,以及异常状态的占比。
并分析出各占比的降级是多少,追赶是多少。
同时还包含DWS细分数据库实例DN的当前状态、主备倒换次数等。

2. 告警统计

告警统计中, 显示了当前告警、过去未消除告警以及告警生成趋势,方便用户快速确认告警数量和分布情况。

3. 集群资源

包含了cpu、磁盘、内存等基础硬件资源使用情况。
同时也包括24h内集群级别的一个平均值,以及top5的资源消耗节点情况等。

4. 业务负载

业务负载中,展示了Sql堆积情况、Qps、dbs统计、工作负载队列排队情况等,方便用户确认作业运行性能,快速定位问题作业,并进行及时调整和修复。

5. 数据库

数据库页面展示了数据库当前容量、各模式容量的监控,以及当前使用量top5的schema。

6. 查询统计

查询统计页展现了24h内的查询总量、平均耗时、事务总量等。
对于查询和会话的监控,需要提前开启会话采集项。
实时会话页签会显示当前连接数据库的各个应用,包括用户名、会话用时、客户端ip、接入CN等,我们可以通过实时会话ID跳转到对应ID的当前查询中

DMS特色功能

查询执行计划

可以通过查询ID,进入到查询寻详情页,通过表格查询执行情况,并可以通过可视化页面,查看SQL执行计划。
image.png

历史查询

历史查询页面会对已完成的执行情况,提供比实时查询更加丰富的信息。
支持通过查询ID,查看执行SQL的资源使用情况等更细节的内容。
image.png

慢实例查询

DMS可以在集群的CN节点上自动配置并拉起慢实例检测脚本,通过周期性采集脚本的缓存表,将检测到的慢实例数据进行上报。 用户可在界面上查看24小时内检测到的慢实例数量,以及在时间维度上的分布状态信息,更为快捷地定位到拖慢整个集群的慢节点,并分析根因。

DMS可以在集群的CN节点上,自动配置并拉起慢实例检测脚本。

DMS可以显示用户定义的工作负载队列名称,实时/历史资源,展示工作负载队列上的工作情况。
image.png

性能监控

DMS还提供了性能监控, 方便使用趋势图的方式监控各个指标数据。
image.png

DMS四大工具

SQL诊断

在开启实时查询监控和历史查询监控后,DMS提供了对问题SQL的诊断功能,会对过去一段时间内影响性能的sql进行分析,给出相应的诊断,提醒用户进行修改。

DLL审核

DDL审核用于对DDL元数据的规范性检测,方便用户对潜在的表定义问题提前感知。
对于未通过的审核项, 可以单击查看,跳转至详情页面。
image.png

SQL探针

用户配置探针SQL,定时检测探针SQL执行时间, 支持对于超过告警阈值的探针SQL上报告警。

对于配置了SQL探针的集群,支持配置告警项。
image.png

负荷分析

升级到最新版本的dmsagent后, 云数仓可以提供相关功能,为数据库提供性能数据收集和分析,用户可以通过负荷信息快照,在指定时间段采集集群的负荷信息数据,其中两个负荷信息快照可以形成该时间段内的负荷诊断报告。

负荷诊断报告WDR可以提供指定时间段内的性能数据, 以HTML网页报告的形式呈现给用户,能够帮助用户发现异常、诊断问题、优化性能等,其内容丰富直观,是数据库调优的利器。
负荷信息快照页面展示了集群负荷信息快照的基础信息,支持手动触发创建及相关参数配置。
image.png

附赠:连接DWS集群的3种方式

另外,本文附赠了如何快速应用DWS的经验,方便你快速数据上云,应用无忧。
以下是三种常见的DWS连接方式:

Gsql命令行

可以基于linux平台, 远程连接集群。

dataStudio图形界面

这是基于windows的sql客户端工具,可以更直观地操作和运行SQL脚本。

Jdbc驱动

用于在代码中进行调用来连接数据库,是开发人员经常使用的一个选择。

我们下面详细介绍一下常用的Gsql命令方式,以理解DWS的连接过程。

GSQL连接方式

image.png

下载客户端

从官网下载正确的gsql安装包。
一般容易出现的问题就是版本问题,因此要注意选择正确的版本。

准备linux服务器

可以将gsql安装在如下两类服务器上:

  1. 华为云弹性云服务器ECS, 连接地址可以使用内网和公网地址,连接性好。
  2. 自有linux服务器, 连接地址选择公网地址, 带宽受限于本地网络。

这里补充一下链接地址概念:
内网地址:同一私有网络内可以访问连接的地址
例如CN地址、内网域名地址
公网地址:私有网络内, 或者互联网网络。

安装客户端

在对应linux机器上,执行安装命令,将客户端进行安装。

连接集群

使用gsql客户端启动命令进行连接即可。

总结

可以看到DWS的DMS告警服务功能十分强大,在告警服务的保证下,通过特定的连接方式存储和使用DWS数据,将会十分方便,上云无忧。


image.png
开发者论坛链接:https://bbs.huaweicloud.com/forum/forumdisplay-fid-598.html

本文参与华为云社区【内容共创】活动第17期。
https://bbs.huaweicloud.com/blogs/358780

原视频链接地址:
https://bbs.huaweicloud.com/live/cloud_live/202205251900.html
理论+实操,轻松解决云数仓常见问题
送一套环境,教您数据上云,分析无忧

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。