GaussDB(DWS)巡检之日常巡检介绍

举报
sevenjiang 发表于 2021/04/14 11:29:29 2021/04/14
【摘要】 通过日常巡检减少系统隐患,确保系统能够长期安全、稳定、可靠地运行,降低维护成本,确保系统进行正常的业务处理。

目的:通过日常巡检减少系统隐患,确保系统能够长期安全、稳定、可靠地运行,降低维护成本,确保系统进行正常的业务处理。

巡检范围及内容:管控面巡检、租户面巡检。

租户面巡检项清单:

序号

巡检项ID

巡检项名称

检查标准

1

85100

CheckNTPD
检查NTPD服务

检查系统NTPD服务,如果服务开启则检查项通过,否则检查项不通过。

2

85102

检查时区一致性

检查集群内各节点时区,如果时区一致则检查通过,否则检查项不通过

3

85116

检查关键进程omm_adj的值

检查所有关键进程,如果所有关键进程omm_adj值为0,则通过,否则不通过

4

85135

检查是否存在僵尸进程

如果存在5个以上的僵尸进程,检查不通过,否则通过。

5

85208

检查磁盘使用率

检查磁盘以上指定目录(目录列表)使用率,如果使用率超过70% warning 超过90%则检查项不通过,集群路径下检查GAUSSHOME/PGHOST/GPHOME/GAUSSLOG/tmp/data路径的剩余空间,不满足阈值则检查项不通过

6

85300

检查集群状态

检查CM进程存在,否则检查不通过;检查fenced UDF状态,如果为down则报warning;检查集群状态,如果为Normal则检查项通过,否则检查项不通过

7

85302

检查数据库集群参数

检查CN检查共享缓冲区大小和Sem参数
DN实例检查共享缓冲区大小和最大连接数
共享缓冲区需要大于128kB且大于shmmax且大于shmall*PAGESIZE
若存在CN,则Sem值需大于(DN最大连接数+150)/16向上取整
以上项完全满足则检查项通过,否则检查项不通过

8

85306

检查环境变量

检查节点环境变量($GAUSSHOME$LD_LIBRARY_PATH$PATH),检查CMS/CMA/GTM/CN/DN进程的环境变量。如果环境变量存在、配置正确且一致,进程的环境变量存在则检查项通过,否则检查项不通过

9

85307

检查gaussdb版本

检查各个节点gaussdb版本是否一致,如果版本一致则检查项通过,否则检查项不通过

10

85309

检查只读模式

检查集群中所有含CN节点上default_transaction_read_only值若为为off则检查通过,否则不通过

11

85310

检查Catchup

检查gaussdb进程堆栈是否能搜索到CatchupMain函数,若搜索不到则检查项通过,否则检查项不通过

12

85315

检查om_moitor进程

检查各个节点om_monitor进程是否存在,若各节点都存在则检查项通过,否则检查项不通过。

13

85317

检查系统表膨胀

检查系统表是否膨胀,若检查结果大于50warning,大于100则不通过,否则检查通过

14

85320

检查各节点间互信

检查各个节点的是否互信,若有节点未互信则检查不通过,否则检查通过

15

85321

检查集群配置参数

检查集群配置类参数(ip, Port类,路径类参数)在postgresql.conf或者pgxc_node的配置,必须和静态配置文件一致,不一致则报错。

16

85323

检查表空间

检查集群用户对tablespace父目录是否具有操作权限(读,写,执行),如果有检查通过,否则检查不通过。

17

85325

检查负载均衡状态

查询Balance状态,如果查询结果为YES则检查项通过,
如果不是Yes则报Warning,如果查询失败则检查项不通过。

18

85326

检查cm_server备机状态

如果查询结果为Standby则检查项通过,否则报出Warning

19

85329

检查DN路径

同一挂载点下,如果有多个DN实例,检查不通过。

20

85332

检查重要文件是否存在

检查conf文件、control文件,data下关键目录是否存在,若有文件存在,检查通过,否则检查不通过。

21

85345

检查gaussdb完整性

检查各个节点gaussdbsha256值,若各节点一致则检查项通过,否则检查项不通过

22

85404

检查CN个数

检查集群CN实例个数,如果CN个数大于1,小于20则检查项通过,否则检查项不通过

23

85407

检查comm_max_datanode参数

检查最大DN数,若最大DN数小于当前DN数的2倍报warning,否则检查项通过

24

85408

检查残留两阶段事务

检查pgxc_prepared_xacts参数,如果不存在二阶段事物则检查项通过,否则检查项不通过

25

85409

检查pgxc_group表中需要重分布的个数

检查pgxc_group表中需要重分布的个数,检查结果为0则通过,否则不通过

26

85410

检查集群是否被锁

检查集群是否被锁,若集群被锁则不通过,否则检查项通过

27

85412

检查数据库连接

检查能否连接数据库,如果连接成功则检查项通过,否则检查项不通过

28

85419

检查Pooler使用量

检查Pooler使用量,若超过33000则报NG,超过28000Warning,否则检查通过

29

85421

检查guc参数一致性

检查各CN/DN实例的guc参数是否一致,若全部一致则检查通过,否则检查不通过

30

85426

检查TD数据库中orcdate类型列

存在(TD模式数据库下的orc表,且包含date类型的列)此用法则报NG,不存在则OK

31

85428

检查hash index语法

如果存在hash index则报NG,否则报OK

32

85429

Node group编码格式检查

存在非SQL_ASCII字符的node group名称则报NG,不存在报OK

33

85430

检查创建视图

创建视图时,如果查询语句中含有子查询,并且子查询结果查询解析&重写之后存在别名重复,检查不通过,否则检查通过。

34

85431

检查重分布残留的临时表

检查数据库中是否存在重分布残留的临时表,若不存在则检查通过,否则检查不通过

35

85435

检查是否开启TD兼容特性

检查是否开启与TD数据库相应的兼容特征,如果未开启,则检查通过,否则检查不通过

36

85437

检查单分区的记录数

如果有单分区记录数偏少的表,报warning,否则检查通过

37

85438

检查元数据一致性

检查系统表元数据是否一致,如果一致,则检查通过,否则检查不通过。

38

85439

检查pg_catalog

检查pg_catalog中是否有用户自定义的数据库对象,如果有检查不通过,否则检查通过。

39

85440

检查bcm追赶

如果存在catchcup检查不通过,否则检查通过。

40

85441

检查nodegroup

如果有installation, query, optimalgroup_name,检查不通过,否则检查通过。

41

85448

检查proacl信息

pg_proc系统表中proacl中存在纯数字用户名时报NG,其他情况下报OK

42

85449

检查内存泄漏

在各个cndn实例,
other_used_memory/process_used_memory
大于40%检查报warning
other_used_memory/process_used_memory
大于70%检查报NG
dayamic_used_memory/max_dynamic_memory
大于60%检查报wanring
dynamic_used_memory/max_dynamic_memory
大于100%检查报NG
dynamic_used_shrctx/dynamic_used_memory
大于50%检查报warning

43

85450

检查cndn之间元数据一致性

检查系统表在cndn之间数据是否一致,一致则检查通过,否则检查不通过

44

85453

检查DDL是否能够执行成功

启动事务创建、删除schema和表,如果事务能够提交,检查通过,否则检查不通过

45

85459

检查每个实例的系统表容量

如果每一块磁盘的剩余容量大于该磁盘上所有实例的系
统表容量总和则检查项通过,否则检查项不通过

46

85461

检查用户自定义函数返回值类型

用户自定义函数包含非法返回类型检查不通过,否则通过

47

85500

检查网络通畅

检查集群内所有节点的互通性,如果各节点所有IP均可ping通则检查项通过,否则检查项不通过

48

85600

检查DN磁盘空间使用率

检查磁盘DN目录使用率,如果使用率低于90%则检查项通过,否则检查项不通过

49

85602

检查日志目录磁盘使用率

检查磁盘日志目录空间和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过

50

85603

检查临时目录磁盘使用率

检查磁盘临时目录磁盘和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过

使用FusionCare巡检:

环境信息添加请参考《华为云Stack 8.0.3 数据仓库服务(DWS)运维指南 01》指导手册使用FusionCare巡检章节进行添加。

创建巡检任务:

前提条件

(1)已登录ManageOne运维面。

(2)已完成添加环境信息和节点,参考添加环境信息添加节点章节。

1.ManageOne运维面,单击“首页”页面“常用链接”区域的“FusionCare(巡检) > 待巡检region名称”,进入FusionCare系统。

2.选择“健康检查 > 任务列表”,单击页面左上角的“新建”,进入健康检查配置页面。

1:日常巡检任务策略可选立即执行、定时任务、周期任务

2:执行巡检任务的目标客户云。管理侧:勾选"DWS”,巡检项勾选全选。租户侧管理节点:勾选"DWS”,巡检项勾选全选


  1. 单击“立即创建”,完成巡检任务创建。待巡检完成后可界面查看本次巡检任务中的故障详情或者通过导出巡检报告对巡检结果进行分析。

其他相关操作:

1)重新巡检:在任务详情页面的右上角,单击“重新巡检”可重新巡检本任务。

2)删除:在任务详情页面的右上角,单击“删除”可删除本巡检任务(只可删除完成后的任务,正在进行的任务不可删除)。

问题修复案例介绍:

问题修复案例1

报告分析中检查NTPD服务检查结果不合格,可能影响扩容/升级/节点替换失败,数据库业务可能出现报错,NTP(自动校时)服务可保证所有机器系统时间一致,从而保证数据库全局性业务和数据同步功能正常,按照处理建议:

从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称

以集群名称dwstest06312restore为例:

sh connectTool.sh -n dwstest06312restore

cd opsTool/;./connectTool.sh  -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点,对当前问题节点进行修复

1.开启ntpq服务(suse 11service ntp startSuse12euleroscentosredhat: service ntpd start),并配置校时服务器.

  1. 重新巡检或使用/usr/sbin/ntpq -p 检查ntpd服务是否开启.
  2. 重新巡检对报告进行分析

问题修复案例2

检查只读模式未通过,分析当前集群只读模式的原因,待原因定位清楚后,需要对当前不通过进行整改,否则只读模式会导致数据库无法写入数据,影响变更和数据库功能,依照处理建议:

从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称

以集群名称wstest06312restore为例:

sh connectTool.sh -n dwstest06312restore

cd opsTool/;./connectTool.sh  -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点

ssh `hostname -i` 进入沙箱。

1.先定位集群只读原因之后,使用GUC工具关闭只读模式:gs_guc set -Z coordinator -N all -I all -c default_transaction_read_only=off;gs_guc set -Z datanode -N all -I all -c default_transaction_read_only=off

2.重启集群:cm_ctl stop && cm_ctl start

3.修复后重新巡检对报告进行分析

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。