[HCS]DWS频繁上报告警:controller服务内部异常
【摘要】 【HCS】DWS频繁告警事件定位案例
1、频繁告警问题先分清楚告警来源
从下图中看到告警源为controller服务,定位信息为接口报错,附加信息里面有traceid和对应的controller容器
2、根据容器和traceid查看日志,发现是查询资源接口调用异常,空指针异常直接查看对应异常堆栈信息
3、结合堆栈信息找到抛异常的逻辑,经过查询发现集群表中存在一些字段不全的脏数据,即datastoreType为null的创建失败的集群记录,由于页面也不显示,因此修改记录为以删除状态400
update rds_cluster set status = '400' where status = '303' and name = 'xx';
4、继续观察无异常,问题解决
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)