Pending signal资源不足应急预案(预计10分钟)

举报
上官寒雨 发表于 2024/05/10 21:12:43 2024/05/10
【摘要】 Pending signal资源不足应急预案(预计10分钟)华为云oncall收到【pending signal系统资源不足】按照以下应急预案进行快速恢复1、应急步骤(需要提权操作),提前登陆好步骤1:根据告警信息确认异常DN实例,后台登录对应节点 步骤2:查询集群状态确认对应实例目录cm_ctl query -Cvd|grep $实例编号 步骤3:在对应实例节点确认实例PID,根据PID信...

Pending signal资源不足应急预案(预计10分钟)

华为云oncall收到【pending signal系统资源不足】按照以下应急预案进行快速恢复

1、应急步骤(需要提权操作),提前登陆好

步骤1:根据告警信息确认异常DN实例,后台登录对应节点

 

步骤2查询集群状态确认对应实例目录

cm_ctl query -Cvd|grep $实例编号

 

步骤3在对应实例节点确认实例PID,根据PID信息kill实例

ps -ef|grep xxx


gsatck 66860 > ~/66860.log

kill -9 66860

步骤4:若发生实例切换待集群恢复normal均衡集群

连接CN执行checkpoint

cm_ctl switchover -a

2、恢复确认

查看集群状态是否恢复,集群状态非unavailable即恢复正常,继续观察业务是否恢复即可


3、原因分析

收集对应从备日志及堆栈信息(~/66860.log)反馈至华为云研发进行分析。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。