【集群管理】 一键配置OS core工具

举报
洋芋擦擦 发表于 2025/02/13 15:37:49 2025/02/13
【摘要】 【 问题现象】现网出现core问题,使用数据库自带的bbox core dump时可能出现dump时间过长被CM杀掉无法core出来的问题,此时我们需要配置OS core保证 core可以稳定dump出来。【 处理方法】该工具目的是快速配置OS core避免手动操作较长的步骤。该工具为单节点配置gaussdb os core工具,如需配置整个集群的core需在每个配置的需配置的节点执行。使用...

【 问题现象】

现网出现core问题,使用数据库自带的bbox core dump时可能出现dump时间过长被CM杀掉无法core出来的问题,此时我们需要配置OS core保证 core可以稳定dump出来。

【 处理方法】

该工具目的是快速配置OS core避免手动操作较长的步骤。

该工具为单节点配置gaussdb os core工具,如需配置整个集群的core需在每个配置的需配置的节点执行。

使用方法:

1.上传文件(所有配置节点都要执行)

使用root用户登录需要配置的节点,并上传config_sys_core.py文件。

config_sys_core.py文件见文档结尾附件,下载后重命名为config_sys_core.py。

dos2unix config_sys_core.py

2.配置OS core(所有配置节点都要执行)

云环境执行 python config_sys_core.py Ruby

线下环境执行 python config_sys_core.py omm

3.关闭bbox core(一个节点执行)

云环境进入沙箱执行,线下环境omm用户source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile后执行

gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=off"

3.重启集群(一个节点执行)

cm_ctl stop

cm_ctl start

4.检查是否生效(所有节点执行)

切到omm或Ruby用户下,kill -11 从备进程号,检查从备数据目录下是否有core文件产生。

检查配置是否生效工具 https://bbs.huaweicloud.com/forum/thread-0255111293440812002-1-1.html

补充说明

1.集群配置在所有节点配置后再重启集群;单节点配置可以不用重启集群,重启节点所有gaussdb实例即可

如只配置1节点的core可以cm_ctl stop -n 1 停止1节点实例;cm_ctl start -n 1启动生效

2.部分线下环境配置后还存在core不完整的情况,可以检查/etc/security/limits.d/omm-ncore.conf文件是否有额外配置如

cke_7700.png

需要将10240改为unlimited,重新执行配置过程

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。