【集群管理】 一键配置OS core工具
【 问题现象】
现网出现core问题,使用数据库自带的bbox core dump时可能出现dump时间过长被CM杀掉无法core出来的问题,此时我们需要配置OS core保证 core可以稳定dump出来。
【 处理方法】
该工具目的是快速配置OS core避免手动操作较长的步骤。
该工具为单节点配置gaussdb os core工具,如需配置整个集群的core需在每个配置的需配置的节点执行。
使用方法:
1.上传文件(所有配置节点都要执行)
使用root用户登录需要配置的节点,并上传config_sys_core.py文件。
config_sys_core.py文件见文档结尾附件,下载后重命名为config_sys_core.py。
dos2unix config_sys_core.py
2.配置OS core(所有配置节点都要执行)
云环境执行 python config_sys_core.py Ruby
线下环境执行 python config_sys_core.py omm
3.关闭bbox core(一个节点执行)
云环境进入沙箱执行,线下环境omm用户source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile后执行
gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=off"
3.重启集群(一个节点执行)
cm_ctl stop
cm_ctl start
4.检查是否生效(所有节点执行)
切到omm或Ruby用户下,kill -11 从备进程号,检查从备数据目录下是否有core文件产生。
检查配置是否生效工具 https://bbs.huaweicloud.com/forum/thread-0255111293440812002-1-1.html
补充说明
1.集群配置在所有节点配置后再重启集群;单节点配置可以不用重启集群,重启节点所有gaussdb实例即可
如只配置1节点的core可以cm_ctl stop -n 1 停止1节点实例;cm_ctl start -n 1启动生效
2.部分线下环境配置后还存在core不完整的情况,可以检查/etc/security/limits.d/omm-ncore.conf文件是否有额外配置如
需要将10240改为unlimited,重新执行配置过程
- 点赞
- 收藏
- 关注作者
评论(0)