GaussDB A 集群安装过程及部分问题解决方案

举报
你怎么这么好看 发表于 2020/11/12 14:21:27 2020/11/12
【摘要】 一、安装前检查1、检测服务器主机名称主机名与业务平面IP地址保持一一映射关系,即每个主机名对应唯一一个业务平面IP地址,每个业务平面IP地址对应唯一一个主机名。执行命令:hostname2、检查硬盘分区是否符合规范OS盘需要对以下目录单独分区/ 20G/tmp 10G/var 10G/var/log 130G/srv/Bigdata 60G/opt 200G其他24块硬盘以每组6个做成4组...


一、安装前检查
1、检测服务器主机名称
主机名与业务平面IP地址保持一一映射关系,即每个主机名对应唯一一个业务平面IP地址,每个业务平面IP地址对应唯一一个主机名。
执行命令:hostname

2、检查硬盘分区是否符合规范
OS盘需要对以下目录单独分区
/  20G
/tmp 10G
/var 10G
/var/log 130G
/srv/Bigdata 60G
/opt 200G
其他24块硬盘以每组6个做成4组raid5
4组raid不挂载目录,在后续安装过程中会自行挂载
ps:由于/srv/BigData/dbdata_om及/srv/BigData/LocalBackup没有单独分区,因此需要在主备管理节点,手工挂载磁盘,创建分区,具体操作步骤见下文

二、配置软件包
1、将安装包《GaussDB_A_8.0.0_RHEL.zip》上传到主管理节点198.203.70.206的/opt目录下
在opt目录下解压安装包
cd /opt
$tar -zxvf GaussDB_A_8.0.0_RHEL.zip
得到以下软件包:
•FusionInsight_Manager_6.5.1_RHEL.tar.gz
•FusionInsight_Manager_6.5.1.6_redhat.tar.gz
•FusionInsight_BASE_6.5.1_RHEL.tar.gz
•FusionInsight_BASE_6.5.1.6_redhat.tar.gz
•GaussDB_A_8.0.0_RHEL.tar.gz
•FusionInsight_SetupTool_6.5.1.6.tar.gz
2、解压软件包
tar -zxvf FusionInsight_Manager_6.5.1_RHEL.tar.gz
tar -zxvf GaussDB_A_8.0.0_RHEL.tar.gz
tar -zxvf FusionInsight_SetupTool_6.5.1.6.tar.gz
3、copy文件到指定目录
cp FusionInsight_BASE_6.5.1_RHEL.tar.gz FusionInsight_MPPDB_8.0.0_RHEL.tar.gz FusionInsight_Manager/software/packs/
cp FusionInsight_Manager_6.5.1.6_redhat.tar.gz FusionInsight_BASE_6.5.1.6_redhat.tar.gz FusionInsight_Manager/software/patch/
4、挂载操作系统镜像
mount /home/backuofile/iso/rhel7664.iso /mnt/ -o loop
5、检查OS的编码格式是否符合要求
locale 检查OS的编码格式是否为“en_US.UTF-8“
三、生成配置文件
1、打开《配置规划工具》,启用宏
2、基础配置
修改集群名称:CMBC_GAUSS
芯片类型:uname -p  x86_64
OS类型:redhat-7.6
OS镜像挂载目录:/mnt/
配置套餐:MN&CN&DN
集群节点数量:5
输出配置文件路径:D:\gaussdb\ini
3、选择服务
使用默认配置即可,无需修改
4、IP规划与进程部署
选择206与207为主备管理节点,因此在前两行类型为MN&CN&DN中填写206及207相关信息,其他3行填写208~210的信息
管理IP 199.203.76.206
业务IP 198.203.70.206
前两行MN&CN&DN中OMSServer、LdapServer、KrbServer均填Y,其余行不填,MPPDBServer所有行均填Y
5、节点信息
CPU虚拟核数:40 ( cat /proc/cpuinfo |grep "processor"|sort -u|wc -l )
内存 :256 (free -g  )
主机逻辑磁盘数量 :5 (parted -l 2>/dev/null | grep "Disk /dev/" | grep -iv "Disk /dev/mapper" | wc -l

最小数据盘容量 :4500 (执行命令 parted -l 2>/dev/null | grep "Disk /dev/" | grep -iv "Disk /dev/mapper" 得出 5001G,再乘以0.9得 4500)
主机名:206-gscmdn001 207-gsmcdn002 208-gsdn003 209-gsdn004 210-gsdn005(hostname)
6、浮动IP
浮动IP:198.203.70.65
接口:bond0:web bond0:oms(ifconfig 查找与浮动IP在同一网段的网卡名称 bond0)
子网掩码:255.255.255.0(ifconfig Use Iface为bond0的数据中对应的Genmask)
网关:198.203.70.1(ifconfig Use Iface为bond0的数据中对应的Gateway)
7、磁盘配置
参照前文《一、安装前检查》中“2、检查硬盘分区是否符合规范”,查看OS盘分区,并填写至相应目录
/     20
/tmp  10
/var  10
/var/log 130
/srv/Bigdata 60
/opt  200
元数据盘数:206与207填写1(如无多余硬盘分区,则选择0),其他3台机器选择0
数据盘数:4(每台服务器配置4个dn,每个dn单独占据一块磁盘)
8、集群参数配置
选择默认配置即可,无需修改
9、实例参数配置
206、207选择1,其他服务器选择0
10、点击生成配置文件
四、配置并检查安装环境
1、进入“2.基础配置”中 输出配置文件路径:D:\gaussdb\ini,将software文件夹打包,然后通过跳板机上传到206这台服务器的/opt/ini_file目录下
2、登录206服务器,进入配置文件压缩包所在目录后,解压压缩包
cd /opt/ini_file
unzip software.zip
3、将配置文件copy到指定目录
cd /opt/ini_file/software
/cp -r ./preinstall/* /opt/FusionInsight_Manager/software/preinstall/
/cp -r ./preinstall/* /opt/FusionInsight_SetupTool/preinstall/
/cp -r ./precheck /opt/FusionInsight_Manager/software/precheck/
/cp -r ./precheck /opt/FusionInsight_SetupTool/precheck/
/cp -r ./install_oms  /opt/FusionInsight_SetupTool
4、执行preinstall
cd /opt/FusionInsight_SetupTool
./setuptool.sh preinstall
注:若执行错误,可在“/tmp/fi-preinstall.log”路径下查看“preinstall”的日志文件,并进行相应处理。
5、“preinstall”过程结束后,默认会自动继续进行“precheck”
若precheck执行失败,可查看precheck日志/opt/FusionInsight_SetupTool/precheck/log/precheck_failed.log,并进行相应处理
五、安装manager
1、确认上一步preinstall及precheck执行无误,检查**.ini文件已传到主节点服务器/opt/
FusionInsight_Manager/software/install_oms下
2、检查ini文件是否配置正确
cd /opt/FusionInsight_Manager/software
cat install_oms/192.168.10.10.ini
3、执行manager安装命令,等待安装执行完毕
cd /opt/FusionInsight_Manager/software
./install.sh -f /opt/FusionInsight_Manager/software/install_oms/
192.168.10.10.ini
注1:安装命令执行过程中,不支持通过“Ctrl+Z”将任务挂起。挂起后再恢复执行时可能会
导致安装失败。
注2:安装失败后,查看日志/var/log/Bigdata/controller/scriptlog/install.log and /var/log/Bigdata/controller/controller.log,定位错误原因。修改之后,在执行安装之前,需执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh进行卸载后,再重新安装
六、安装集群
1、在步骤五安装完成后,会在控制台输出FIM页面地址:
HTTP://****:8080/web
复制该网址到谷歌浏览器
2、输入初始用户名\密码 admin\Admin@123,首次登录后修改密码,然后重新登录
3、登录成功后,点击创建集群按钮
4、点击按钮模板安装,选择通过lld工具生成的xml文件,d:\gaussdb\ini\software\install_cluster\installTemplet.xml,点击提交
5、选择root用户并输入“密码”,单击“查找”发现节点。查找后会自动跳转至“确定”页面,此时若发现配置规划数据有误,可单击“上一步”回到
各配置项检查或更改参数值。
6、确认配置信息,单击“提交”,在弹出的对话框中确认是否勾选“安装后启动集群”。
7、单击“确定”开始安装集群。则待集群安装完成后,在弹出的对话框中确认是否启动集群。
七、安装后检查
1、检查集群状态
登录FusionInsight Manager系统
● 检查服务的状态。选择“集群 > 待操作的集群名称 > 服务”,各服务的“运行状态”为“良好”。
● 检查节点状态。在FusionInsight Manager页面单击“主机”,各节点的“运行状态”为“良好”。
注:
● 主机名称前有标志表示该节点为主管理节点。
● 主机名称前有标志表示该节点为备管理节点。
2、执行健康检查
● 执行集群的健康检查
a. 选择“集群 > 待操作的集群名称” 。
b. 选择“更多 > 健康检查”。
● 执行主机健康检查
a. 单击“主机”。
b. 勾选待检查主机前的复选框。
c. 选择“更多 > 健康检查”启动指定主机健康检查。

附:安装过程中出现的部分问题及解决方案
问题【一】:执行preinstall报错
问题现象:执行preinstall时,有3台服务器磁盘分区成功,有2台服务器磁盘分区失败
原因分析:成功的3台服务器为纯DN服务器,206及207这两台服务器是失败的,通过分析日志中的错误信息,发现是由于
/srv/BigData/LocalBackup及/srv/BigData/dbdata_om没有单独分区,因此在执行preinstall过程中,需要4(DN数量)+1(OS系统盘)+1(/srv/BigData/LocalBackup及/srv/BigData/dbdata_om)共6块磁盘,而实际可用硬盘数量为5,从而导致执行失败。
解决方案:在206及207两台机器中,分别手工执行挂载目录,具体操作步骤如下:
1、创建磁盘挂载目录(按照规划sda~d分别对应/srv/BigData/data1~4,以daeta1为例)
mkdir -p /srv/BigData/data1
2、将指定的磁盘分区,划分分区并执行格式化
parted -s /dev/sda mklabel gpt
parted -s /dev/sda mkpart logic 100M 100%
mkfs.xfs -f /dev/sda1
3、刷新操作系统分区表
partprobe
4、获取新分区的UUID。运行如下命令:
blkid /dev/sda1
5、修改“/etc/fstab”,将如下语句作为新行添加到“/etc/fstab”中
UUID=XXXXXXXXXXXXXXXXXXXXXXX /srv/BigData/data1 xfs defaults,noatime,nodiratime 1 0
6、挂载磁盘,并修改属主
mount -a
chown 2000:wheel /srv/BigData/data1
7、重复执行步骤1~6,直至206及207两台服务器上data1~4均挂载成功
使用df -h查看目录是否挂载成功
8、主节点修改preinstall.ini配置文件,将参数“g_parted”值设为0
9、重新执行preinstall脚本,执行成功
问题【二】:执行precheck报错
问题现象:执行precheck报错,查看日志,报错信息为the real disk number 6 does not match the config file 7
原因分析:与问题【一】原因一致,是由于/srv/BigData/LocalBackup及/srv/BigData/dbdata_om没有单独分区导致
解决方案:修改precheck下checkNodes.Config,将/srv/BigData/LocalBackup及/srv/BigData/dbdata_om的硬盘分区信息删除,重新执行precheck脚本,执行成功
问题【三】:在FIM使用模板安装集群时报错
问题现象:使用模板安装集群,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists
原因分析:查看日志信息,报错信息为 Failed to verify node:gsmcdn001, the hostname already exists,怀疑可能是因为手工在/etc/hosts下添加所有机器的ip对应主机名信息导致。
解决方案:
1、删除所有5台服务器中/etc/hosts下所有手工添加的信息,在FIM使用模板创建集群,点击提交按钮后,显示“无效的业务IP”错误信息,修复失败
2、将每台服务器下/etc/hosts中只保留本机的配置,如206服务器保留 198.203.70.206 gsmcdn001,在FIM使用模板创建集群,点击提交按钮后,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists,修复失败
3、删除所有5台服务器中/etc/hosts下所有手工添加的信息,然后执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh卸载 Manager,重新安装安装Manager,再次使用模板创建集群,点击提交按钮后,显示“无效的业务IP”错误信息,修复失败
4、删除所有5台服务器中/etc/hosts下所有手工添加的信息,然后执行/opt/huawei/Bigdata/om-server/om/inst/uninstall.sh卸载 Manager,重新执行preinstall后再重新安装安装Manager,再次使用模板创建集群,点击提交按钮后,执行第一步校验请求参数报错,页面显示报错信息为 the hostname already exists,修复失败
5、将所有安装文件删除,重新解压安装包,从头重来一次(因目录已挂载成功,所有将preinstall.ini中 g_parted值设为0),在FIM中使用模板安装集群,成功。

问题【四】:安装集群后有两个告警信息
问题现象:集群安装完成后,在FIM中有两个告警信息-“主要配置文件出错”,分别是在gsmcdn001及gsmcdn002中
原因分析:查看日志中的报错信息为/etc/fstab中的UUID “XXXXXXXXXX”与mount的UUID XXXXXXXX不一致,猜测是由于这两台服务的目录挂载是手工执行的,可能与脚本自动挂载的不一致。查看其它3台正常服务器中的/etc/fstab文件与有告警信息的2台服务器做对比,发现有告警信息的服务器中是 UUID="XXXXXXXX",而正常服务器中为UUID=XXXXXXXX
解决方案:删除多余的双引号,再执行mount -a,然后再次执行日志中记录报出告警的shell脚本,shell脚本执行通过,无异常。再等待一段时间后,告警自动消除。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。