GaussDB(DWS)巡检之日常巡检介绍
目的:通过日常巡检减少系统隐患,确保系统能够长期安全、稳定、可靠地运行,降低维护成本,确保系统进行正常的业务处理。
巡检范围及内容:管控面巡检、租户面巡检。
租户面巡检项清单:
序号 |
巡检项ID |
巡检项名称 |
检查标准 |
1 |
85100 |
CheckNTPD |
检查系统NTPD服务,如果服务开启则检查项通过,否则检查项不通过。 |
2 |
85102 |
检查时区一致性 |
检查集群内各节点时区,如果时区一致则检查通过,否则检查项不通过 |
3 |
85116 |
检查关键进程omm_adj的值 |
检查所有关键进程,如果所有关键进程omm_adj值为0,则通过,否则不通过 |
4 |
85135 |
检查是否存在僵尸进程 |
如果存在5个以上的僵尸进程,检查不通过,否则通过。 |
5 |
85208 |
检查磁盘使用率 |
检查磁盘以上指定目录(目录列表)使用率,如果使用率超过70% 报warning 超过90%则检查项不通过,集群路径下检查GAUSSHOME/PGHOST/GPHOME/GAUSSLOG/tmp/data路径的剩余空间,不满足阈值则检查项不通过 |
6 |
85300 |
检查集群状态 |
检查CM进程存在,否则检查不通过;检查fenced UDF状态,如果为down则报warning;检查集群状态,如果为Normal则检查项通过,否则检查项不通过 |
7 |
85302 |
检查数据库集群参数 |
检查CN检查共享缓冲区大小和Sem参数 |
8 |
85306 |
检查环境变量 |
检查节点环境变量($GAUSSHOME、$LD_LIBRARY_PATH、$PATH),检查CMS/CMA/GTM/CN/DN进程的环境变量。如果环境变量存在、配置正确且一致,进程的环境变量存在则检查项通过,否则检查项不通过 |
9 |
85307 |
检查gaussdb版本 |
检查各个节点gaussdb版本是否一致,如果版本一致则检查项通过,否则检查项不通过 |
10 |
85309 |
检查只读模式 |
检查集群中所有含CN节点上default_transaction_read_only值若为为off则检查通过,否则不通过 |
11 |
85310 |
检查Catchup |
检查gaussdb进程堆栈是否能搜索到CatchupMain函数,若搜索不到则检查项通过,否则检查项不通过 |
12 |
85315 |
检查om_moitor进程 |
检查各个节点om_monitor进程是否存在,若各节点都存在则检查项通过,否则检查项不通过。 |
13 |
85317 |
检查系统表膨胀 |
检查系统表是否膨胀,若检查结果大于50报warning,大于100则不通过,否则检查通过 |
14 |
85320 |
检查各节点间互信 |
检查各个节点的是否互信,若有节点未互信则检查不通过,否则检查通过 |
15 |
85321 |
检查集群配置参数 |
检查集群配置类参数(ip类, Port类,路径类参数)在postgresql.conf或者pgxc_node的配置,必须和静态配置文件一致,不一致则报错。 |
16 |
85323 |
检查表空间 |
检查集群用户对tablespace父目录是否具有操作权限(读,写,执行),如果有检查通过,否则检查不通过。 |
17 |
85325 |
检查负载均衡状态 |
查询Balance状态,如果查询结果为YES则检查项通过, |
18 |
85326 |
检查cm_server备机状态 |
如果查询结果为Standby则检查项通过,否则报出Warning |
19 |
85329 |
检查DN路径 |
同一挂载点下,如果有多个DN实例,检查不通过。 |
20 |
85332 |
检查重要文件是否存在 |
检查conf文件、control文件,data下关键目录是否存在,若有文件存在,检查通过,否则检查不通过。 |
21 |
85345 |
检查gaussdb完整性 |
检查各个节点gaussdb的sha256值,若各节点一致则检查项通过,否则检查项不通过 |
22 |
85404 |
检查CN个数 |
检查集群CN实例个数,如果CN个数大于1,小于20则检查项通过,否则检查项不通过 |
23 |
85407 |
检查comm_max_datanode参数 |
检查最大DN数,若最大DN数小于当前DN数的2倍报warning,否则检查项通过 |
24 |
85408 |
检查残留两阶段事务 |
检查pgxc_prepared_xacts参数,如果不存在二阶段事物则检查项通过,否则检查项不通过 |
25 |
85409 |
检查pgxc_group表中需要重分布的个数 |
检查pgxc_group表中需要重分布的个数,检查结果为0则通过,否则不通过 |
26 |
85410 |
检查集群是否被锁 |
检查集群是否被锁,若集群被锁则不通过,否则检查项通过 |
27 |
85412 |
检查数据库连接 |
检查能否连接数据库,如果连接成功则检查项通过,否则检查项不通过 |
28 |
85419 |
检查Pooler使用量 |
检查Pooler使用量,若超过33000则报NG,超过28000报Warning,否则检查通过 |
29 |
85421 |
检查guc参数一致性 |
检查各CN/DN实例的guc参数是否一致,若全部一致则检查通过,否则检查不通过 |
30 |
85426 |
检查TD数据库中orc表date类型列 |
存在(TD模式数据库下的orc表,且包含date类型的列)此用法则报NG,不存在则OK。 |
31 |
85428 |
检查hash index语法 |
如果存在hash index则报NG,否则报OK |
32 |
85429 |
Node group编码格式检查 |
存在非SQL_ASCII字符的node group名称则报NG,不存在报OK |
33 |
85430 |
检查创建视图 |
创建视图时,如果查询语句中含有子查询,并且子查询结果查询解析&重写之后存在别名重复,检查不通过,否则检查通过。 |
34 |
85431 |
检查重分布残留的临时表 |
检查数据库中是否存在重分布残留的临时表,若不存在则检查通过,否则检查不通过 |
35 |
85435 |
检查是否开启TD兼容特性 |
检查是否开启与TD数据库相应的兼容特征,如果未开启,则检查通过,否则检查不通过 |
36 |
85437 |
检查单分区的记录数 |
如果有单分区记录数偏少的表,报warning,否则检查通过 |
37 |
85438 |
检查元数据一致性 |
检查系统表元数据是否一致,如果一致,则检查通过,否则检查不通过。 |
38 |
85439 |
检查pg_catalog |
检查pg_catalog中是否有用户自定义的数据库对象,如果有检查不通过,否则检查通过。 |
39 |
85440 |
检查bcm追赶 |
如果存在catchcup检查不通过,否则检查通过。 |
40 |
85441 |
检查nodegroup |
如果有installation, query, optimal的group_name,检查不通过,否则检查通过。 |
41 |
85448 |
检查proacl信息 |
pg_proc系统表中proacl中存在纯数字用户名时报NG,其他情况下报OK。 |
42 |
85449 |
检查内存泄漏 |
在各个cn和dn实例, |
43 |
85450 |
检查cn和dn之间元数据一致性 |
检查系统表在cn和dn之间数据是否一致,一致则检查通过,否则检查不通过 |
44 |
85453 |
检查DDL是否能够执行成功 |
启动事务创建、删除schema和表,如果事务能够提交,检查通过,否则检查不通过 |
45 |
85459 |
检查每个实例的系统表容量 |
如果每一块磁盘的剩余容量大于该磁盘上所有实例的系 |
46 |
85461 |
检查用户自定义函数返回值类型 |
用户自定义函数包含非法返回类型检查不通过,否则通过 |
47 |
85500 |
检查网络通畅 |
检查集群内所有节点的互通性,如果各节点所有IP均可ping通则检查项通过,否则检查项不通过 |
48 |
85600 |
检查DN磁盘空间使用率 |
检查磁盘DN目录使用率,如果使用率低于90%则检查项通过,否则检查项不通过 |
49 |
85602 |
检查日志目录磁盘使用率 |
检查磁盘日志目录空间和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过 |
50 |
85603 |
检查临时目录磁盘使用率 |
检查磁盘临时目录磁盘和索引使用率,如果使用率低于90%则检查项通过,否则检查项不通过 |
使用FusionCare巡检:
环境信息添加请参考《华为云Stack 8.0.3 数据仓库服务(DWS)运维指南 01》指导手册使用FusionCare巡检章节进行添加。
创建巡检任务:
前提条件
(1)已登录ManageOne运维面。
(2)已完成添加环境信息和节点,参考添加环境信息和添加节点章节。
1.在ManageOne运维面,单击“首页”页面“常用链接”区域的“FusionCare(巡检) > 待巡检region名称”,进入FusionCare系统。
2.选择“健康检查 > 任务列表”,单击页面左上角的“新建”,进入健康检查配置页面。
注1:日常巡检任务策略可选立即执行、定时任务、周期任务
注2:执行巡检任务的目标客户云。管理侧:勾选"DWS”,巡检项勾选“全选”。租户侧管理节点:勾选"DWS”,巡检项勾选“全选”。
- 单击“立即创建”,完成巡检任务创建。待巡检完成后可界面查看本次巡检任务中的故障详情或者通过导出巡检报告对巡检结果进行分析。
其他相关操作:
(1)重新巡检:在任务详情页面的右上角,单击“重新巡检”可重新巡检本任务。
(2)删除:在任务详情页面的右上角,单击“删除”可删除本巡检任务(只可删除完成后的任务,正在进行的任务不可删除)。
问题修复案例介绍:
问题修复案例1:
报告分析中检查NTPD服务检查结果不合格,可能影响扩容/升级/节点替换失败,数据库业务可能出现报错,NTP(自动校时)服务可保证所有机器系统时间一致,从而保证数据库全局性业务和数据同步功能正常,按照处理建议:
从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称
以集群名称dwstest06312restore为例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点,对当前问题节点进行修复
1.开启ntpq服务(suse 11:service ntp start;Suse12、euleros、centos、redhat: service ntpd start),并配置校时服务器.
- 重新巡检或使用/usr/sbin/ntpq -p 检查ntpd服务是否开启.
- 重新巡检对报告进行分析
问题修复案例2:
检查只读模式未通过,分析当前集群只读模式的原因,待原因定位清楚后,需要对当前不通过进行整改,否则只读模式会导致数据库无法写入数据,影响变更和数据库功能,依照处理建议:
从容器登录dws的任意检查失败实例节点,sh connectTool.sh -n 集群实例名称
以集群名称wstest06312restore为例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone进入集群节点
ssh `hostname -i` 进入沙箱。
1.先定位集群只读原因之后,使用GUC工具关闭只读模式:gs_guc set -Z coordinator -N all -I all -c default_transaction_read_only=off;gs_guc set -Z datanode -N all -I all -c default_transaction_read_only=off
2.重启集群:cm_ctl stop && cm_ctl start
3.修复后重新巡检对报告进行分析
- 点赞
- 收藏
- 关注作者
评论(0)