GaussDB(DWS)快照异常/容灾异常之管控面排查方法【绽放吧!GaussDB(DWS)云原生数仓】

举报
不想吃土豆 发表于 2023/10/27 16:31:23 2023/10/27
【摘要】 GaussDB(DWS)的快照与容灾都是从管控面下发任务到后端内核执行,大体流程如下:DWS管控面/FI管控面-> GaussRoach.py/SyncDataToStby.py -> gs_roach 有些时候问题并不是发生在roach侧,而是管控面调度异常,本文提供管控面排查思路。

GaussDB(DWS)的快照与容灾都是从管控面下发任务到后端内核执行,大体流程如下:

DWS管控面/FI管控面-> GaussRoach.py/SyncDataToStby.py -> gs_roach内核

后端备份排查思路参考:https://bbs.huaweicloud.com/forum/thread-0222127187204429089-1-1.html

有些时候问题并不是发生在roach侧,而是管控面任务调度异常,可能备份任务并未成功下发到后台,本文提供管控面快照/容灾管理的定位方法:

管控面rms数据库登录参考:DWS登录指南_数仓GaussDB(DWS)_大数据_华为云论坛 (huaweicloud.com)

一、管控面快照job查看步骤:

1、登录mysql数据库,查看集群id

select name,id from rds_cluster where name='集群名称';

 

2、根据集群id找到报错快照的jobid

select status,id,name,backJobId from rds_cluster_backup where clusterId='c22a5d15-1d60-4d15-a7a3-7846ea99b394' order by name;

 

3、根据jobid查看具体的快照是在哪一步骤报错

select * from taskmgr_task where job_id='2c9080298b6480a0018b6cdf8881049f' ORDER BY begin_time desc;

4、根据jobid找到对应的pod节点 去查看controller日志

select server_hostname,created_at,scheduled_at from taskmgr_job where job_id='2c9080298b6480a0018b6cdf8881049f' ORDER BY begin_time desc;

5、第四步中可查到报错pod,登录报错 pod 根据 jobid 查看ossres-dws.log

6、根据ossres-dws.log中报错的  instanceId ,登录节点查看沙箱外日志 home/Ruby/log/cloud-dws-deploy.log

(若cloud-dws-deploy.log日志为空,考虑日志已归档,查看归档目录/home/Ruby/archivelog,解压对应时间压缩包进行查看)

二、管控面容灾job排查步骤:

1、登录mysql数据库,查看集群id;

通过rds_disaster_recovery_cluster_info这张表,使用容灾ID查询到容灾的集群,拿到主集群的ID;

容灾管理-->点击容灾名称,进入详情后获取容灾ID

select role,clusterId,clusterName from rds_disaster_recovery_cluster_info where disasterRecoveryId='e5f580a8-fbc2-423c-871b-c96b9f962252';

2、根据主集群ID查询job调度情况

select job_id, job_def_name, execution_status, begin_time, server_hostname from taskmgr_job where request like '%f002086c-e653-4527-b0d5-09a184a7c5ed%' order by begin_time desc, job_id desc;

3、根据jobid查看具体的job执行结果

select * from taskmgr_task where job_id='2c9080028b5bea07018b5ce2c1c001f1' ORDER BY task_index;

4.管控面容灾日志路径:/home/Ruby/log/disaster_recovery.log

tips:管控面如何确认哪个节点为主节点

select id,name,status,privateIp,internalIp,manageIp,datastoreVersion,guestAgentVersion,instType from rds_instance where clusterId='492c94ed-60c2-487e-9ec6-69af30532ff3';

  查询得到的第一个cn节点为主节点

当前仅初步整理了简单的管控面排查思路,后续会继续补充。

我正在参加【有奖征文 第27期】绽放吧!GaussDB(DWS)云原生数仓!https://bbs.huaweicloud.com/blogs/413921

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。