[HCS]DWS快照管理:自动增量备份任务一直失败

举报
农夫山泉 发表于 2024/12/11 12:00:12 2024/12/11
【摘要】 [HCS]DWS快照因obs地址配置错误导致备份失败定位修复过程

问题发生背景:前几天做过obs2.0到obs3.0切换(本实例截图与原始问题截图非统一环境,但定位逻辑一致)

1、连续几天配置的自动增量备份任务失败

2、获取失败备份快照backJobId和运行容器名称server_hostname

        在上一步骤页面获取快照名称和集群名称,然后登录rms数据库执行如下sql,获取查看日志的信息:

select backup.backJobId,backup.name,taskjob.begin_time,taskjob.job_def_name,taskjob.server_hostname,taskjob.fail_reason,taskjob.fail_detail 
from rds_cluster_backup backup join taskmgr_job taskjob 
on backup.backJobId = taskjob.job_id 
where backup.clusterid = '集群ID' and backup.name = '快照名称';

        如下图所示backJobId=2c90802d93aa7ef50193b33a77bd00ba,server_hostname =taskmgr_server_dwscontroller-7488c5fd5b-phncp(实际容器名去掉前缀为dwscontroller-7488c5fd5b-phncp),也可以再次确认查询是否正确即:begin_time列值与页面快照开始时间基本一致。

3、登录运行快照业务的服务容器并查看日志

       根据上一步骤中获取的去掉前缀的server_hostname名称,使用K8s命令 kubectl exec -ti {容器名称} bash -n dws 登录dwscontroller-7488c5fd5b-phncp容器,并进入到日志目录查看日志文件ossres-dws.log

       使用grep {backJobId} ossres-dws.log 或 grep {backJobId} ossres-dws.log | grep ERROR      查看报错日志,如果报错日志不够明显,也可以vi进入到日志文件,并根据backJobId查看是否有错误堆栈

       如果快照备份运行日志已经归档,可找到对应时间压缩文件解压:gzip -d {对应时间压缩文件},然后按照上面继续查询日志。

4、分析日志发现是obs地址漏配置:443端口导致

     本问题由于报错日志不够详细,vi进入日志文件后根据备份id找到报错信息,发现在解析obs地址时报错,发现是切换obs地址时,controller服务cdk配置参数没有添加443端口

     

 5、修正正确的obs域名后,备份成功

       修改方法:登录cloudscope->CDK->变更管理 升级->选dwscontroller->下一步->参数列表搜obs.endpoint,追加 :443 (同时修改liveness参数+1或-1,使修改参数生效)

       

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。