主动预防-DWS快照残留问题排查与整改
1. 问题背景及影响
DWS快照定时删除有问题,删除有快照文件残留,造成文件堆积,占用大量obs空间,长期积累可能导致 obs空间爆满,影响其他服务及本服务的正常运行。
2. 解决措施
- 用工具连接obs,手动清理本应删除的快照文件修复
- 计划在630进行补丁修复
3. 手动修复方案
手动修复逻辑:获取登录obs的信息,通过工具登录到obs服务上,找到具体的桶里面某一个集群的快照列表,同时从rms库中获取已经删除的bucketKey,两边进行对比,对状态为deleted的残留的快照文件进行手动删除修复
3.1 获取登录OBS的信息
从cdk获取obs.endpoint、数据库登录信息,再登录后台数据库获取名 ,AK,SK为登录obs收集信息
3.1.1 使用op_cdk_sso登录cloudscope查看dwscontroller服务下obs服务的配置信息及后台数据库登录信息
用户名/密码:op_cdk_sso/Huawei12#$%,如果密码有修改,请用修改后的密码
3.1.1.1 筛选“obs.endpoint”获取参数值
3.1.1.2 筛选“db.”获取controller后台数据库
3.1.2 登录dwscontroller服务rms库获取桶名(obsBucket),AK,SK
select a.id,b.obsBucket,b.ak,b.sk from rds_cluster a,rds_restenant b where a.tenantId=b.realDomainId and name={集群名称}
SK需要在运维容器进行解密 java –jar AESTool.jar,数据库登录和解密具体请参考《DWS登录指南v01》中内容
3.2 使用OBS Browser工具登录OBS
下载地址:https://developer.huaweicloud.com/tools#section-2,关于工具的使用请参考用户指南:https://support.huaweicloud.com/browsertg-obs/obs_03_1000.html,在obs服务界面下载, 遇到问题请联系obs技术支撑
根据3.1收集的信息填充服务器地址,Access Key ID(即AK),Secret Access Key(即SK)
3.3 排查是否残留快照文件:
步骤一:在桶列表中找到3.1.2中查到的桶名
步骤二:找到集群对应的对象,对象名称前缀为集群名称
步骤三:/桶名/对象名称/roach/backupKey
步骤四:在rms库中查询,status为deleted则是需要删除的文件,对照obs中File列表如果有则有残留文件
select backupKey,`status` from rds_cluster_backup where clusterId={集群id};
参数“集群id”为3.1.2中对应的查到的id
步骤五:同时对照前台快照列表,确定显示可用快照被保留
3.4 删除排查出来的残留文件
- 通过OBS工具删除3中排查出来的状态为deleted的backupkey对应的日期目录
如果存储池容量达到85%以上请联系obs技术人员支撑调整空间回收策略,快速恢复可用空间
- 点赞
- 收藏
- 关注作者
评论(0)