[HCS]DWS快照管理:自动增量备份任务一直失败
问题发生背景:前几天做过obs2.0到obs3.0切换(本实例截图与原始问题截图非统一环境,但定位逻辑一致)
1、连续几天配置的自动增量备份任务失败
2、获取失败备份快照backJobId和运行容器名称server_hostname
在上一步骤页面获取快照名称和集群名称,然后登录rms数据库执行如下sql,获取查看日志的信息:
select backup.backJobId,backup.name,taskjob.begin_time,taskjob.job_def_name,taskjob.server_hostname,taskjob.fail_reason,taskjob.fail_detail
from rds_cluster_backup backup join taskmgr_job taskjob
on backup.backJobId = taskjob.job_id
where backup.clusterid = '集群ID' and backup.name = '快照名称';
如下图所示backJobId=2c90802d93aa7ef50193b33a77bd00ba,server_hostname =taskmgr_server_dwscontroller-7488c5fd5b-phncp(实际容器名去掉前缀为dwscontroller-7488c5fd5b-phncp),也可以再次确认查询是否正确即:begin_time列值与页面快照开始时间基本一致。
3、登录运行快照业务的服务容器并查看日志
根据上一步骤中获取的去掉前缀的server_hostname名称,使用K8s命令 kubectl exec -ti {容器名称} bash -n dws 登录dwscontroller-7488c5fd5b-phncp容器,并进入到日志目录查看日志文件ossres-dws.log
使用grep {backJobId} ossres-dws.log 或 grep {backJobId} ossres-dws.log | grep ERROR 查看报错日志,如果报错日志不够明显,也可以vi进入到日志文件,并根据backJobId查看是否有错误堆栈
如果快照备份运行日志已经归档,可找到对应时间压缩文件解压:gzip -d {对应时间压缩文件},然后按照上面继续查询日志。
4、分析日志发现是obs地址漏配置:443端口导致
本问题由于报错日志不够详细,vi进入日志文件后根据备份id找到报错信息,发现在解析obs地址时报错,发现是切换obs地址时,controller服务cdk配置参数没有添加443端口
5、修正正确的obs域名后,备份成功
修改方法:登录cloudscope->CDK->变更管理 升级->选dwscontroller->下一步->参数列表搜obs.endpoint,追加 :443 (同时修改liveness参数+1或-1,使修改参数生效)
- 点赞
- 收藏
- 关注作者
评论(0)