GaussDB(DWS)大集群环境FusionCare巡检工具部署使用

举报
ACBD 发表于 2022/01/14 15:59:55 2022/01/14
【摘要】 1      工具简介:FusionInsight Tool DWS Prober是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成健康检查报告。尤其是节点规模庞大,问题节点排查困难,使用此工具可以快速发现隐藏的问题,提前识别系统的健康状况。FusionInsight Tool由两部分组成:FusionCare和Sys...

1      工具简介:

FusionInsight Tool DWS Prober是为技术支持工程师和维护工程师提供的一套健康检查工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成健康检查报告。尤其是节点规模庞大,问题节点排查困难,使用此工具可以快速发现隐藏的问题,提前识别系统的健康状况。FusionInsight Tool由两部分组成:FusionCareSysCheckerFusionCare提供巡检界面可视化、环境管理、任务管理、报告管理功能。SysChecker提供对FusionInsight的巡检功能。

1.1      安装准备:

工具名称

要求

本地PC

安装Windows 7或以上版本操作系统。

浏览器

建议版本:Internet Explorer 9.0~11.0Firefox 27.0~54.0Google Chrome 30.0~59.0

解压工具

可以解压rartar.gzzip等格式压缩包。

SysChecker运行节点

操作系统:和待巡检的集群Manager节点保持一致。

系统配置:已创建omm用户,并和集群中的所有节点建立基于omm用户的互信。

l  安装FusionCare时,SysChecker会被自动安装在集群主管理节点。

l  如果在巡检时需要执行客户端检查项,集群客户端也必须安装在主管理节点上。

1.2      安装FusionCare操作步骤

  • 步骤 1 与集群管理员确认待安装节点是否有安装旧版本FusionCare
  • 步骤 2 卸载旧版本FusionCare,参考卸载FusionCare
  • 步骤 3 打开WinSCP工具,使用omm用户登录集群任意节点(建议使用OMS节点备节点),将“zip”上传到安装目录下,例如“/home/omm”。
  • 步骤 4 使用PuTTY工具,以omm用户登录FusionCare运行节点。
  • 步骤 5 执行以下命令,防止“PuTTY”超时退出。

TMOUT=0

  • 步骤 6 进入“/home/omm”目录,将“zip”解压至该目录下,然后进入解压目录。

unzip DWS_Fusioncare.zip

cd /home/omm/FusionCare

  • 步骤 7 执行sh install.sh,安装和启动FusionCare


FusionCare启动后,打开浏览器,在地址栏输入访问地址(格式为:https://安装FusionCare节点的IP地址:8803),例如“https://8.5.125.131:8803”进入登录界面。首次登录后需要修改密码。

ps:默认用户:admin默认密码:Huawei@CLOUD8!

1.3      添加对接环境

首次进入FusionCare系统,需要进行向导式配置环境信息。在“系统管理 > 环境配置”页面单击“向导式添加环境”,根据向导输入项目名称、环境名称,并选择产品FusionInsight,添加FusionInsight环境信息,单击“下一步”,进入“添加完成”界面,单击“完成”,添加节点成功后,进入系统管理界面。

 

 

巡检服务节点IP:SysChecker服务安装节点,需填写主OMS节点的管理IP地址。可登录集群的FusionInsight Manager,在主机管理页面进行查看。

OMWebService浮动IP:FusionInsight集群OMWebService浮动IP地址,请向集群管理员获取(登录Manager页面的IP地址)。

2      巡检场景

当前巡检支持任务类型有日常巡检、升级前巡检、补丁前巡检、深度巡检。

2.1      创建任务

点击创建任务->任务名称->选择任务类型->选择执行时间->执行用户-输入密码,点击下一步,选择需要巡检的集群节点,点击下一步选择需要巡检的服务类型,点击完成。统弹出“添加任务成功”,单击“确定”,巡检任务添加成功。


2.2      查看检查结果

任务执行完成后,单击任务,查看巡检结果


  1. 查看已经完成的任务,页面右下侧出现该任务每个节点的检查结果。页面上显示的节点信息包括“环境名称”、“产品类型”、“节点名称”、“节点类型”、“IP”、“状态”和“节点详情”。
  2. 在“节点详情”列单击每个节点后的按钮,弹出“节点详情”窗口,此窗口显示了本节点在这次任务中选择检查项的结果。
  3. 导出巡检报告。在已完成的任务界面上,单击“导出巡检报告”按钮。

ps:导出报告为ZIP压缩包,以“日期_任务名称”命名。

2.3      检查项修复

查看故障详情,可按照处理建议及修复方式对未通过的检查项进行修复,修复后可重新下发巡检或者点击母任务相同且带有时间戳的子任务重复巡检。

3      多环境场景下的巡检工具部署

一个FusionCare可以对同一网络内的多个环境进行巡检,对接时需要保证SysCheckerFusionCare是同时发布的版本,添加方式按照向导式添加即可。

4      卸载SysChecker

巡检或升级前检查任务完成后,如果短期内没有检查需求,建议卸载SysChecker,释放资源。

使用PuTTY工具,以root用户登录SysChecker运行机器。

执行以下命令,防止PuTTY超时退出。

TMOUT=0

进入SysChecker安装目录,本文中所在的路径为“/opt/SysChecker”,执行SysChecker卸载命令

sh  ./setup.sh  -u

5      卸载FusionCare

等待FusionCare上所有任务执行完成后,使用PuTTY工具,以omm用户登录FusionCare运行节点。

进入FusionCare安装目录(例如:/home/omm/),执行sh uninstall.sh卸载FusionCare

cd /home/omm/FusionCare

sh uninstall.sh

6      扩容前巡检

6.1      将获取的巡检包进行解压

6.2      准备节点的万兆网IP地址文件,保证各节点root密码一致。

准备一个名为allhostfile的文本文件,文件内容为集群所有数据节点和新节点的IP列表(一行一个节点IP)。例如,

10.12.15.100

10.12.15.101

10.12.15.102

10.12.15.103

...

准备一个名为oldhostfile的文本文件,文件内容为原集群的所有数据节点的IP列表(一行一个节点IP)。例如,

10.12.15.101

10.12.15.102

10.12.15.103
...

6.3      登录该CN节点,将allhostfileoldhostfile文件上传到/tmp目录下

登录该CN节点,将allhostfileoldhostfile文件上传到/tmp目录下,执行以下命令(将Gauss_234 替换为root密码):

 

chown -R omm:wheel /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib

 

chmod +x -R /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib

 

for i in `cat /tmp/allhostfile`; do python /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib/inspection/remoteExec.py "ssh -n -q root@$i \" hostname;rm -rf /tmp/test_check\"" 'Gauss_234';done

 

for i in `cat /tmp/allhostfile`;do python /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib/inspection/remoteExec.py "ssh -n -q root@$i \" hostname;mkdir -p /tmp/test_check; chmod -R 777 /tmp/test_check/ \"" 'Gauss_234' ;done

6.4      分发巡检工具并修改文件权限。

cp -r /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib/* /tmp/test_check/

for i in `cat /tmp/allhostfile`;do python /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib/inspection/remoteExec.py "scp -r /tmp/test_check root@$i:/tmp/" 'Gauss_234';done

for i in `cat /tmp/oldhostfile`;do python /tmp/SysChecker_Scripts_root/SysChecker/17_MPPDB/Lib/inspection/remoteExec.py "ssh -n -q root@$i \" hostname;chown -R omm:wheel /tmp/test_check" 'Gauss_234';done

 

6.5      执行命令进行巡检。

su - omm

cd /tmp/test_check/

source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile

进行扩容前新老节点检查,使用如下命令。每次执行命令的时候,都要指定一个新的check.log文件,文件格式是xxx.log

./gs_check -e expand -U omm --hosts=/tmp/allhostfile -l ./check.log

进行扩容前需要进行网速检查,使用如下命令。每次执行命令的时候,都要指定一个新的check.log文件,文件格式是xxx.log

./gs_check -i CheckNetSpeed gs_check -i CheckOSVer -L

/tmp/allhostfile -l ./check.log

进行扩容前需要数据倾斜检查。每次执行命令的时候,都要指定一个新的check.log文件,文件格式是xxx.log

./gs_check -i CheckTableSkew -l ./check.log

进行扩容前需要进行剩余容量检查。所有剩余可用空间均是最大单表大小的1.5倍以上。

./gs_check -i CheckBiggestTable -L -l ./check.log

 

想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技,后台还可获取众多学习资料哦~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。