Pending signal资源不足应急预案(预计10分钟)
【摘要】 Pending signal资源不足应急预案(预计10分钟)华为云oncall收到【pending signal系统资源不足】按照以下应急预案进行快速恢复1、应急步骤(需要提权操作),提前登陆好步骤1:根据告警信息确认异常DN实例,后台登录对应节点 步骤2:查询集群状态确认对应实例目录cm_ctl query -Cvd|grep $实例编号 步骤3:在对应实例节点确认实例PID,根据PID信...
Pending signal资源不足应急预案(预计10分钟)
华为云oncall收到【pending signal系统资源不足】按照以下应急预案进行快速恢复
1、应急步骤(需要提权操作),提前登陆好
步骤1:根据告警信息确认异常DN实例,后台登录对应节点
步骤2:查询集群状态确认对应实例目录
cm_ctl query -Cvd|grep $实例编号
步骤3:在对应实例节点确认实例PID,根据PID信息kill实例
ps -ef|grep xxx
gsatck 66860 > ~/66860.log
kill -9 66860
步骤4:若发生实例切换待集群恢复normal均衡集群
连接CN执行checkpoint
cm_ctl switchover -a
2、恢复确认
查看集群状态是否恢复,集群状态非unavailable即恢复正常,继续观察业务是否恢复即可
3、原因分析
收集对应从备日志及堆栈信息(~/66860.log)反馈至华为云研发进行分析。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)