GaussDB案例:集群只读10分钟后自动恢复
【摘要】 某局点DWS集群DB出现只读异常,十分钟后自动恢复,后又出现集群只读自动恢复。
问题描述:
某局点DWS集群DB出现只读异常,十分钟后自动恢复,后又出现集群只读自动恢复。
问题分析:
1. 集群只读后磁盘自动下降恢复,只有三种场景可能只读后自恢复:
- 临时文件下盘
- 临时表导入倾斜或数据量过大
- 有create table as select语句导入倾斜或数据量过大
2. 根据cm_agent日志,发现集群只读时,主备dn 6439和6440所在磁盘同步上涨,排除临时文件下盘场景
图1. dn_6439 磁盘使用率cm_agent日志
图2. dn_6440 磁盘使用率cm_agent日志
3. 集群只读时,会杀掉当前所有语句,并在dn日志打印,排查dn日志只读时间点被杀的语句,没有create table as select语句,排除该场景
图3. 业务sql
4. 查看其他节点cm_agent日志,发现磁盘空间无明显变化,判断是临时表导入过程中,数据倾斜在dn_6439_6440
5. 查看cm_agent日志,监控磁盘情况,只读自恢复后,dn_6439_6440所在磁盘重新开始上涨
图4. 集群再次只读dn_6439 磁盘使用率cm_agent日志
6. 查看dn数据目录下大文件,发现单DN大于6T的有四张表
具体查找方法见:https://bbs.huaweicloud.com/forum/thread-59485-1-1.html 中2.2.4
7. 在数据库中查出这四张表,反馈给客户整改
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)