GaussDB生产扩容引起的PANIC问题处理案例

举报
石岩上的苍松 发表于 2025/09/01 10:57:02 2025/09/01
【摘要】 PINAIC问题处理本质是numa组没有与GaussDB的核数没有绑定,在服务器扩容过程中需要用gs_cgroup使用查看一下情况。

1 环境信息

CPU:8C

内存:64G

GaussDB版本:24.7.32

解决方案部署形态:HCS

部署形态:1主1从1日志

扩容原因:当前的配置满足不了max_connections为2000值,即当前的业务最大连接数超过2000个而按照8C64G的配置最多满足600的连数据数,经沟通扩容到32C128G。

2 问题现象


服务器扩完容之后,GaussDB启动失败,3个节点状态为down,情况如下:

查看dn日志:

PANIC: proc_init_process numa_run_node_mask fail

3 分析过程


查看ffic日志:

cd $GAUSSLOG/ffic_log

vim gaussdb-2025-08-29-232343.log

使用命令查看:gs_cgroup -P

GaussDB只绑了0-7核,还有8~31核没有绑上。

4 处理方法


使用gs_cgroup -u -T Gaussdb -f命令绑上0-31核。

注:0-31:代表CPU的核数

最后执行gs_ssh命令将所有节点批量修改完成:

如下:

gs_ssh -c "gs_cgroup -u -T Gaussdb -f 0-31"


最后重启GaussDB服务:

cm_ctl start

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。