DWS812集群X86架构EulerOS release 2.0(SP5)OSCore配置

举报
不会飞的乌龟 发表于 2023/05/25 14:54:18 2023/05/25
【摘要】 主动预防-OSCore配置,原因是现网出现core问题,使用数据库自带的bbox core dump时可能出现dump时间过长被CM杀掉无法core出来问题,此时我们需要配置OS Core保证core可以稳定dump出来。
  1. 上传配置脚本
  • 使用MobaXterm、xshell或其它工具登录EICommon-Region-Master-01/节点
  • 将core.sh文件 (附件core.txt修改txt后缀为sh可得)上传到EICommon-Region-Master-01后台虚拟机的/tmp/目录下
  • 执行如下命令,将core.sh文件上传maintain运维容器的opsTool目录下
    执行如下命令获取dwsmaintaintool 名称
    kubectl get pod -n dws-maintain
    image.png
    执行如下命令将core.sh文件上传到maintain运维容器的opsTool目录下
    kubectl cp core.sh dws-maintain/dwsmaintaintool-xxxxxxxxxxxx:/opt/cloud/3rdComponent/opsTool/
    其中容器名称为上述查出来的容器的任意一个
  1. 配置OSCore
  • 执行如下命令登录运维容器
    kubectl exec -it dwsmaintaintool-xxxxxxxxxxxx -n dws-maintain bash
  • 进入opsTool目录
    cd opsTool/
  • 格式化脚本
    dos2unix core.sh
  • 执行如下命令配置OSCore
    ./modify_instance.py -s core.sh -r false
  • 执行以下命令关闭bbox core
    gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=off"
  1. 重启相关进程
  • 登录任意CN节点,然后进入沙箱
    • 获取容器
      kubectl get pod -n dws-maintain
    • 登录容器
      kubectl exec -it dwsmaintaintool-79xxxxxf8-dxxxc -n dws-maintain bash
    • 进入opsTool
      cd opsTool/
    • 登录任意CN节点
      sh connectTool.sh -uecf -drms -hxx.xx.xx.xx -p7306 -n CN实例名称 -tStandalone
    • 切换Ruby用户
      su - Ruby
    • 登录沙箱
      ssh `hostname -i`;
  • 执行以下命令重启om_monitor。
    gs_ssh -c "killall -u Ruby om_monitor"
  • 连接CN,执行checkpoint
    gsql -d postgres -p 8000 -r
    checkpoint;
    \q
  • 执行以下命令重启集群
    cm_ctl stop && cm_ctl start
  • 执行以下命令检查集群状态
    cm_ctl query -Cvip | more
  1. OSCore配置验证
  • 选择第一个节点备DN进行验证。
    • 查看该节点备DN状态
      cm_ctl query -Cvd|cut -d'|' -f2|grep `hostname`|grep 'Standby Normal'
    • 获取第一个备DN数据路径
      dn_path=`cm_ctl query -Cvd|cut -d'|' -f2|grep \`hostname\`|grep 'Standby Normal'|head -n 1|awk '{print $4}'`
    • 查看进程该DN进程
      ps -ef|grep $dn_path|grep -v grep
    • 获取该DN进程号
      PID=`ps -ef|grep $dn_path|grep -v grep|awk '{print $2}'`
    • 执行kill操作,生成系统core文件
      kill -11 ${PID}
    • 确认进程自动拉起
      ps -ef|grep $dn_path|grep -v grep
  • 检查对应的数据目录下是否生成core文件,如果生成,说明配置成功。
    cd ${dn_path}
    stat core
  • 删除测试core文件。
    rm -f core
  • 检查集群状态
    cm_ctl query -Cvip | more
  1. 回退步骤
  • 执行如下命令开启bbox core
    gs_guc reload -Z coordinator -Z datanode -N all -I all -c "enable_bbox_dump=on"
  • 将1/2/3步骤中的core.sh文件替换为core_rollback.sh(附件core_rollback.txt修改txt后缀为sh可得)文件,重新执行一遍即可。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。