主动预防-DWS关键工具安装确认

举报
上官寒雨 发表于 2023/04/11 14:43:54 2023/04/11
【摘要】 【关键工具确认】1、gdb确认是否安装(该工具用户数据库实例触发core问题后集群状态反复异常,对此问题及时分析根因并及时进行规避)登录任意集群节点执行以下命令(HC/HCS/HCSO环境登录沙箱外执行):gdb --help提示以下信息则已安装2、gstack是否安装(与gdb关联工具,gdb安装后此工具会默认安装,作用与gdb相同)登录任意集群节点执行以下命令(HC/HCS/HCSO环境...

【关键工具确认】

1、gdb确认是否安装(该工具用户数据库实例触发core问题后集群状态反复异常,对此问题及时分析根因并及时进行规避)

登录任意集群节点执行以下命令(HC/HCS/HCSO环境登录沙箱外执行):

gdb --help

提示以下信息则已安装

2、gstack是否安装(与gdb关联工具,gdb安装后此工具会默认安装,作用与gdb相同)

登录任意集群节点执行以下命令(HC/HCS/HCSO环境登录沙箱外执行):

gstack

提示以下信息则已安装

gdb与gstack安装请参考以下链接:

https://bbs.huaweicloud.com/forum/thread-182292-1-1.html

3、core是否配置(该配置可以确保数据库实例触发core问题后能够抓取异常堆栈信息,以便使用gdb工具从所抓取信息中获取触发实例异常sql及时规避与根因定位)

集群状态为Normal时执行以下命令确认(集群normal情况下该操作不影响业务)

kill -11 备dn进程号,检查对应的数据目录下是否生成core文件,若产生core文件则已配置。

若未配置请按照以下链接进行配置:

HC/HCS/HCSO core配置:https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=181948

纯软core配置: https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=182036

4、pg_xlogdump是否存在(异常业务产生大量xlog后造成业务慢,磁盘使用率快速上涨等问题,使用此工具解析异常业务)

pg_xlogdump提示以下信息则已安装(纯软环境加载环境变量后执行,HC/HCS/HCSO登录至沙箱内执行)

5、pagehack是否存在(数据文件出现静默损坏使用该工具解析异常数据文件)

pagehack提示以下信息则已安装(纯软环境加载环境变量后执行,HC/HCS/HCSO登录至沙箱内执行)

pg_xlogdump与pagehack工具获取如下链接:

https://bbs.huaweicloud.com/forum/forum.php?mod=viewthread&tid=142380

上传步骤如下:

步骤1:登录至第一个CN节点,使用omm(云上使用Ruby用户)将pagehack、pg_xlogdump工具上传至该节点$GAUSSHOME/bin/下

步骤2:将工具分发至其他节点
gs_ssh -c "scp $hostname:$GAUSSHOME/bin/pagehack $GAUSSHOME/bin/"

gs_ssh -c "scp $hostname:$GAUSSHOME/bin/pg_xlogdump $GAUSSHOME/bin/"

$hostname为第一个cn节点的hostname。

6、   gs_detect工具上传步骤(此工具包未运维团队开发,其中包括集群状态异常诊断工具、IO高工具、数据文件损坏扫描等工具,方便出现问题后及时定位及恢复)

步骤1:omm用户登录第一个cn节点(云上使用Ruby),在附件获取gs_detect工具并重命名为gs_detect.tar.gz上传至第一个cn节点/home/omm路径下(HC/HCS/HCSO形态放在第一个cn节点/home/Ruby路径下)

步骤2:使用以下命令解压

cd /home/omm

tar -zxvf gs_detect.tar.gz

步骤3:将gs_detect工具分发至其他节点

gs_ssh -c "scp -r hostname:/home/omm/gs_detect /home/omm"

$hostname为第一个cn节点的hostname。

  注:云上的分发命令需要在沙箱内执行

【系统加固】

1、arm加固项确认(x86机器不涉及)

https://support.huawei.com/enterprise/zh/bulletins-product/ENEWS2000007743

2、Centos7.6impi模块导致服务器反复重启,修复方案见附件 《CentOS7.6 ipmi模块补丁合入指导.docx》

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。