DWS812集群X86架构EulerOS release 2.0(SP5)OSCore配置
【摘要】 主动预防-OSCore配置,原因是现网出现core问题,使用数据库自带的bbox core dump时可能出现dump时间过长被CM杀掉无法core出来问题,此时我们需要配置OS Core保证core可以稳定dump出来。
- 上传配置脚本
- 使用MobaXterm、xshell或其它工具登录EICommon-Region-Master-01/节点
- 将core.sh文件 (附件core.txt修改txt后缀为sh可得)上传到EICommon-Region-Master-01后台虚拟机的/tmp/目录下
- 执行如下命令,将core.sh文件上传maintain运维容器的opsTool目录下
执行如下命令获取dwsmaintaintool 名称
kubectl get pod -n dws-maintain
执行如下命令将core.sh文件上传到maintain运维容器的opsTool目录下
kubectl cp core.sh dws-maintain/dwsmaintaintool-xxxxxxxxxxxx:/opt/cloud/3rdComponent/opsTool/
其中容器名称为上述查出来的容器的任意一个
- 配置OSCore
- 执行如下命令登录运维容器
kubectl exec -it dwsmaintaintool-xxxxxxxxxxxx -n dws-maintain bash
- 进入opsTool目录
cd opsTool/
- 格式化脚本
dos2unix core.sh
- 执行如下命令配置OSCore
./modify_instance.py -s core.sh -r false
- 执行以下命令关闭bbox core
gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=off"
- 重启相关进程
- 登录任意CN节点,然后进入沙箱
- 获取容器
kubectl get pod -n dws-maintain
- 登录容器
kubectl exec -it dwsmaintaintool-79xxxxxf8-dxxxc -n dws-maintain bash
- 进入opsTool
cd opsTool/
- 登录任意CN节点
sh connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n CN实例名称 -tStandalone
- 切换Ruby用户
su - Ruby
- 登录沙箱
ssh `hostname -i`
;
- 获取容器
- 执行以下命令重启om_monitor。
gs_ssh -c "killall -u Ruby om_monitor"
- 连接CN,执行checkpoint
gsql -d postgres -p 8000 -r
checkpoint;
\q
- 执行以下命令重启集群
cm_ctl stop && cm_ctl start
- 执行以下命令检查集群状态
cm_ctl query -Cvip | more
- OSCore配置验证
- 选择第一个节点备DN进行验证。
- 查看该节点备DN状态
cm_ctl query -Cvd|cut -d'|' -f2|grep `hostname`|grep 'Standby Normal'
- 获取第一个备DN数据路径
dn_path=`cm_ctl query -Cvd|cut -d'|' -f2|grep \`hostname\`|grep 'Standby Normal'|head -n 1|awk '{print $4}'`
- 查看进程该DN进程
ps -ef|grep $dn_path|grep -v grep
- 获取该DN进程号
PID=`ps -ef|grep $dn_path|grep -v grep|awk '{print $2}'`
- 执行kill操作,生成系统core文件
kill -11 ${PID}
- 确认进程自动拉起
ps -ef|grep $dn_path|grep -v grep
- 查看该节点备DN状态
- 检查对应的数据目录下是否生成core文件,如果生成,说明配置成功。
cd ${dn_path}
stat core
- 删除测试core文件。
rm -f core
- 检查集群状态
cm_ctl query -Cvip | more
- 回退步骤
- 执行如下命令开启bbox core
gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=on"
- 将1/2/3步骤中的core.sh文件替换为core_rollback.sh(附件core_rollback.txt修改txt后缀为sh可得)文件,重新执行一遍即可。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)