主动预防-DWS快照残留问题排查与整改

举报
上官寒雨 发表于 2022/09/27 15:38:08 2022/09/27
【摘要】 1.    问题背景及影响DWS快照定时删除有问题,删除有快照文件残留,造成文件堆积,占用大量obs空间,长期积累可能导致 obs空间爆满,影响其他服务及本服务的正常运行。2. 解决措施用工具连接obs,手动清理本应删除的快照文件修复计划在630进行补丁修复3.   手动修复方案手动修复逻辑:获取登录obs的信息,通过工具登录到obs服务上,找到具体的桶里面某一个集群的快照列表,同时从rms...

1.    问题背景及影响

DWS快照定时删除有问题,删除有快照文件残留,造成文件堆积,占用大量obs空间,长期积累可能导致 obs空间爆满,影响其他服务及本服务的正常运行。

2. 解决措施

  • 用工具连接obs,手动清理本应删除的快照文件修复
  • 计划在630进行补丁修复

3.   手动修复方案

手动修复逻辑:获取登录obs的信息,通过工具登录到obs服务上,找到具体的桶里面某一个集群的快照列表,同时从rms库中获取已经删除的bucketKey,两边进行对比,对状态为deleted的残留的快照文件进行手动删除修复

3.1 获取登录OBS的信息

cdk获取obs.endpoint、数据库登录信息,再登录后台数据库获取名 ,AK,SK为登录obs收集信息

3.1.1 使用op_cdk_sso登录cloudscope查看dwscontroller服务下obs服务的配置信息及后台数据库登录信息

用户名/密码:op_cdk_sso/Huawei12#$%,如果密码有修改,请用修改后的密码

3.1.1.1 筛选“obs.endpoint”获取参数值

3.1.1.2 筛选“db.”获取controller后台数据库  

3.1.2 登录dwscontroller服务rms库获取桶名(obsBucketAKSK

select a.id,b.obsBucket,b.ak,b.sk from rds_cluster a,rds_restenant b where a.tenantId=b.realDomainId  and  name={集群名称}

 

SK需要在运维容器进行解密 java –jar AESTool.jar,数据库登录和解密具体请参考《DWS登录指南v01》中内容

3.2 使用OBS Browser工具登录OBS

下载地址:https://developer.huaweicloud.com/tools#section-2,关于工具的使用请参考用户指南:https://support.huaweicloud.com/browsertg-obs/obs_03_1000.html,在obs服务界面下载, 遇到问题请联系obs技术支撑

 

根据3.1收集的信息填充服务器地址,Access Key ID(即AK,Secret Access Key(即SK

3.3 排查是否残留快照文件:

步骤一:在桶列表中找到3.1.2中查到的桶名

步骤二:找到集群对应的对象,对象名称前缀为集群名称

步骤三:/桶名/对象名称/roach/backupKey

步骤四:在rms库中查询,statusdeleted则是需要删除的文件,对照obsFile列表如果有则有残留文件

select backupKey,`status` from rds_cluster_backup where clusterId={集群id};

参数“集群id”为3.1.2中对应的查到的id

 

步骤五:同时对照前台快照列表,确定显示可用快照被保留

3.4 删除排查出来的残留文件

  • 通过OBS工具删除3中排查出来的状态为deletedbackupkey对应的日期目录

如果存储池容量达到85%以上请联系obs技术人员支撑调整空间回收策略,快速恢复可用空间

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。