- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

GaussDB（DWS）线下纯软/ESL集群安装问题案例集

Song~ 发表于 2024/01/13 16:45:14 2024/01/13

【摘要】集群安装过程的问题90%都是环境问题，建议安装集群前重装OS，不要对OS进行加固，不要升级rpm包，提前检查网络及网卡bond配置等，避免环境问题阻塞集群安装

集群安装过程的问题90%都是环境问题，建议安装集群前重装OS，不要对OS进行加固，不要升级rpm包，提前检查网络及网卡bond配置等，避免环境问题阻塞集群安装

1. 安装前preinstall失败

日志：preinstall会打印日志提示，根据提示的日志路径分析

1.1 preinstall过程补充rpm失败

问题分析：补充rpm包失败，一般是以下几个原因：

a. 使用了非原生ISO镜像，定制ISO镜像中部分rpm版本进行了升级

b. 挂载了非安装操作系统时的ISO镜像包

c. 安装完操作系统后更新了部分rpm包，补充rpm包时依赖异常

解决方案：联系操作系统人员解决

1.2 preinstall过程autopart失败

问题分析：报错notify脚本找不到，手动检查脚本所在目录，发现不少目录存在缺失，ini-plugin目录只留下了conf目录，重新解压setuptool工具对比，确认是上传文件导致部分目录丢失，重新上传配置后做preinstall成功

解决方案：操作问题，重新上传配置做preinstall

1.3 preinstall过程setup os failed

解决方案：操作系统问题，联系操作系统人员解决

1.4 preinstall挂盘失败

问题分析：报错格式化磁盘失败，磁盘大小超过ext3的限制，格式化磁盘时会将数据盘自动格式化为OS盘的格式，如：OS盘为ext4，则数据盘就会被格式化为ext4；

此OS盘格式为ext3，所以格式化磁盘时自动将数据盘格式化为ext3，磁盘大小为28T，超过了ext3的上限，故格式化失败

解决方案：a. 手动修改conf文件中的filesystem为ext4或xfs；b. 将OS盘格式整改为ext4或者xfs

1.5 preinstall分区失败

问题分析：raid(noraid) is not raid1，这个报错是LLD配置规划工具填写配置时，元数据分区raid类型选择了raid1，但是元数据盘raid类型是nonraid导致

解决方案：将LLD配置规划工具中的元数据分区raid类型修改为noraid

2. 安装oms失败

日志：

a. 安装失败会有日志路径打印，查看对应的失败日志信息

b. controller日志：/var/log/Bigdata/controller/controller.log

ha相关日志：/var/log/Bigdata/omm/oms/ha/

agent相关日志：/var/log/Bigdata/nodeagent/scriptlog/

2.1 安装主oms失败

问题分析：install.log日志打印LDAP vendor support is not available，这个报错一般是openldap对应的rpm包版本不匹配导致，rpm -qa检查rpm包版本，发现openldap安装版本不对

解决方案：按照产品文档要求，安装对应版本的rpm包

2.2 安装主oms时step8 启动nodeagent失败

问题分析：

查看nodeagent启动日志中有连接本地20008端口失败，连接被拒，且查看controller日志（/var/log/Bigdata/controller/controller.log）有LOCKED_OUT异常信息打印，这种一般是由于铲除集群时没有正常卸载老集群，未重装OS，直接使用老服务器安装集群，老集群残留的nodeagent进程不停的连接主oms导致controller被锁，新装oms节点的nodeagent连接controller时连接失败

解决方案：

a. 对老节点重装OS；

b. 卸载老节点残留（root用户执行）：

8.1.3以下版本（sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh）

8.1.3及以上版本（sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh）

2.3 安装备oms时step7启动ntp超时

问题分析：查看install.log报错启动ntp超时，查看installntp.log（/var/log/Bigdata/nodeagent/scriptlog/installntp.log）显示安装ntp成功；继续排查ha_ntp.log（/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log）发现从浮动ip拷贝ntpkeyfile失败，检查omm互信发现互信异常，主备oms互信异常，继续排查ha日志，备oms节点ha日志报错无法访问/srv/BigData/LocalBackup目录，排查发现此目录权限异常

解决方案：卸载备oms，卸载diskmgt服务，重新执行preinstall，完成后看precheck失败日志，手动检查目录权限是否恢复，恢复后重新安装备oms

2.4 安装oms后oms频繁主备倒换

问题分析：

现场安装时多次安装卸载，停止一个oms后发现controller状态异常，查看controller日志（/var/log/Bigdata/controller/controller.log），日志中报错controller cannot be started ，authentication failed；

怀疑是未正常卸载导致数据节点nodeagent进程残留频繁连接新controller导致controller认证失败，查看数据节点确实存在nodeagent进程，手动后台卸载残留后重启oms，oms 恢复正常

解决方案：

a. 对老节点重装OS；

b. 卸载老节点残留（root用户执行）：

8.1.3以下版本（sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh）

8.1.3及以上版本（sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh）

2.5 安装备oms启动ntp失败

问题分析：日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny，互信异常导致；补充iputil和openldap包后重新安装仍旧失败，继续分析ha日志（/var/log/Bigdata/omm/oms/ha/runlog/ha.log），ha日志中有opendir failed报错，/srv/BigData/LocalBackup目录下有文件残留导致

排查思路：a. rpm包是否是产品文档要求对应的版本；b. ca证书；c. ha证书；d. sshd_config配置；e. 目录/文件残留或权限异常

解决方案：/srv/BigData/LocalBackup目录下有文件残留，清理残留文件后重新安装备oms成功

2.6 安装备oms启动ntp失败

问题分析：日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny，互信异常导致；

继续分析ha日志（/var/log/Bigdata/omm/oms/ha/runlog/ha.log），ha日志中没有同步文件失败报错；

主备oms上分别查看oms状态，只能看到自己的oms状态，怀疑证书有问题，查看安装目录的cacert（/opt/FusionInsight_Manager/software/cacert），两个节点的证书不一致,将主节点证书拷贝至备节点重新安装成功

解决方案：操作问题，两个节点安装目录下文件不一致，将主节点安装目录拷贝至备节点后重新安装成功

2.7 安装主oms时install the manager失败

问题分析：

报错slapd：SLP support is not available，此报错为oldap的报错，与openldap强相关；

根据产品文档检查安装前必须补充安装的rpm是否安装，此OS为麒麟V10SP2 x86版本，不涉及openldap等rpm包的补充安装

排查openldap包版本、openssl版本及环境变量。openldap的rpm包版本比原生镜像中的版本高，其他未发现异常。降级openldap版本后重新安装oms，安装成功

解决方案：回退openldap版本至原生镜像带的版本

3 创建集群失败

3.1 校验请求参数失败

问题分析：此步骤失败一般为nodeagent进程异常导致，检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程一直在重启，查看nodeagent日志（/var/log/Bigdata/nodeagent/agentlog/agent.log）中报错时差过大

解决方案：节点间时差过大，将节点间时间修改一致后，重启nodeagent进程以及oms。（时间往未来调整）

3.2 校验请求参数失败

问题分析：

a. 根据产品文档检查安装前必须补充安装的rpm是否安装，此OS为麒麟V10SP1 x86版本，不涉及openldap等rpm包的补充安装

b. 查看controller_nodesetup.log，执行checkNodeOS.sh脚本检查失败，该脚本是临时生成脚本，执行后就会被删除，重新创建集群，后台抓取该脚本，分析脚本查看检查逻辑

sh checkNodeOS.sh kylin tlsv1.1 手动检查，执行失败，检查openssl失败，手动执行openssl version检查openssl版本，执行失败，使用ldd检查openssl依赖库，发现异常节点引入了gds依赖库

解决方案：排查root用户环境变量，.bashrc中引入了gds环境变量，注释后重新安装

3.3 校验请求参数失败

问题分析：此步骤失败一般为nodeagent进程异常导致，检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程没有起来，手动执行拉起nodeagent拉起失败（sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/start-agent.sh），加-x重新拉起nodeagent进程，发现报错无法访问/etc/hosts文件，

解决方案：/etc/hosts文件权限异常，恢复644权限后重试即可

3.4 校验请求参数失败

问题分析：

1. 此步骤报错一般是nodeagent进程异常导致，检查主备oms节点nodeagent进程，发现进程正常且未发生重启，尝试重试，多次重试仍旧报错而且不走进度条直接报红秒报错

2. 怀疑是某个配置文件或者目录权限异常导致，排查sysctl.conf等系统文件的权限，发现hosts文件权限为600，修改为644后重试通过

解决方案：/etc/hosts文件权限异常，恢复644权限后重试即可

3.5 初始化系统环境失败

问题分析：此步骤报错一般是omm用户残留导致，查看controller_nodesetup.log日志（/var/log/Bigdata/controller/controller_nodesetup.log），日志报错执行adduser.sh脚本失败

检查失败节点omm用户，omm用户已删除，但是创建用户失败，麒麟V10OS，排查/etc/uid_list中存在omm用户残留信息，尝试删除残留信息失败，该文件被锁定，重装OS后安装成功

解决方案：

1. 操作系统存在omm用户需要删除omm用户后再安装集群（userdel -rf omm）

2. 麒麟V10删除omm用户后还需要删除uid_list文件中的omm用户残留信息

3.6 配置系统环境报错

问题分析：查看controller_nodesetup.log日志（/var/log/Bigdata/controller/controller_nodesetup.log），日志报错执行ssh命令失败，ssh不同，网络存在问题，最终网络定位是子网掩码配置错误导致

解决方案：网络配置问题，网络侧解决

3.7 分发软件包失败

问题分析：分发软件包是由主OMS通过浮动ip向其他节点分发

1. 查看controller_nodesetup.log日志（/var/log/Bigdata/controller/controller_nodesetup.log），日志报错执行ssh命令失败，手动使用omm用户测试ssh，ssh直接失败

2. 创建新用户测试ssh，ssh正常，集群节点都是利旧机器，有omm用户残留，删除omm用户后重试成功

解决方案：omm用户残留，删除omm用户后继续安装（userdel -rf omm）

3.8 分发软件包失败

问题分析：openssh版本过高，客户升级了openssh，导致集群安装时互信建立失败

解决方案：回退openssh后重新安装

建议在升级前备份主备oms节点及待升级openssh节点互信相关目录及文件
/home/omm/passphrase.file
/home/omm/passphrase.file.sha256
/home/omm/.ssh

3.9 分发软件包失败

问题分析：环境只有主备oms节点间可以使用omm用户免相互免密登录，其他节点omm用户可以ssh到主备oms节点，但是从主备oms节点ssh到数据据节点需要输入密码，数据节点间也不能相互ssh，对比主oms节点与数据节点间sshd_config文件，发现存在不一致的配置，将主oms节点sshd_config文件拷贝到数据节点，重启ssh服务后节点间互信恢复，重新执行安装集群步骤通过。

3.10 分发软件包失败

问题分析：查看controller_nodesetup.log日志（/var/log/Bigdata/controller/controller_nodesetup.log）发现在分发包是scp失败，手动ping测试发现丢包严重，客户网络存在问题

解决方案：网络问题，网络侧解决

3.11 安装节点失败

问题分析：查看/var/log/Bigdata/nodeagent/scriptlog/install.log,报错 no space left on device

解决方案：日志目录剩余空间不足，清理后重试

3.12 初始化集群失败

问题分析：查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），有个节点内核前置preinstall失败，查看失败节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），报错gs_checkos -i A检查不通过，按照报错提示执行gs_checkos -i A检查，将A改为B执行修复后重试，安装成功

解决方案：按照日志提示执行gs_checkos -i A检查，检查结果存在abnormal项，将A改为B执行修复后重试

3.13 初始化集群失败（8.1.3版本存在磁盘限制，数据盘大于20T时会在安装及扩容时失败）

问题分析：查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），发现执行到gs_install失败，日志报错如下：gs_initdb执行失败

继续查看gs_initdb日志（/var/log/Bigdata/mpp/omm/bin/gs_initdb/gs_initdb.log），日志报错tmp_file_limit和sql_use_spacelimit参数超限，此参数取值为数据盘大小的10%，数据盘大于20T导致

解决方案：数据盘大小超过20T，重新做raid将数据盘大小降至20T以下

3.14 初始化集群失败

问题分析：查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），发现找不到mpp-postinstall.sh脚本，漏做更新sudo脚本步骤

解决方案：卸载，执行更新sudo脚本后重新安装集群

3.15 初始化集群失败

问题分析：

查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），发现执行到gs_install失败；

继续排查gs_install日志（/var/log/Bigdata/mpp/omm/om/gs_install*.log），发现gs_install执行成功，怀疑是环境问题导致返回值异常

解决方案：内核已安装成功，注释mpp-postinstall.sh脚本中的498-505行跳过返回值判断，重试即可安装成功

3.16 初始化集群失败

问题分析：

查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），发现执行到gs_install失败；

继续排查gs_install日志（/var/log/Bigdata/mpp/omm/om/gs_install*.log），发现更新pgxc_node&创建node group失败；

继续排查gs_local日志（/var/log/Bigdata/mpp/omm/om/gs_local*.log），cn连接gtm失败

继续分析gtm日志（/var/log/Bigdata/mpp/omm/bin/gtm/*），检查gtm中报错的ip地址，确认其同xml中设置的IP地址一致。

同一网段配置了两个ip地址。通讯在进行ip获取时是使用的hostname，hostname解析ip在路由中是随机的，这样导致选择的ip不为真实IP，进而通讯报错。

解决方案：将主机上多余的ip从网卡上删除。确保一个网段配置一个ip

3.17 初始化集群失败

问题分析：

查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），日志报错执行python脚本时语法错误，查看python3版本为3.4.10，python3版本过低语法不兼容导致，python3版本不能低于3.7

解决方案：python3版本过低，可以按照产品文档<如何编译python3>和<如何批量为集群中的节点安装Python3>两个章节安装python3.8.5

3.18 初始化集群失败

问题分析：查看第一个数据节点的postinstall日志（/var/log/Bigdata/mpp/scriptlog/postinstall.log），日志报错set OS parameter failed，无其他报错信息打印；报错日志上一行打印the os is not suse or redhat or centos or euleros；怀疑是检测os时异常，继续排查/etc/os-release，os-release中ID=uos未添加双引号“”，导致获取os失败

解决方案：统信uos-1050e特有bug，os-release中ID=uos缺失双引号“”，手动添加后重试即可

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

GaussDB（DWS）线下纯软/ESL集群安装问题案例集

1. 安装前preinstall失败

1.1 preinstall过程补充rpm失败

1.2 preinstall过程autopart失败

1.3 preinstall过程setup os failed

1.4 preinstall挂盘失败

1.5 preinstall分区失败

2. 安装oms失败

2.1 安装主oms失败

2.2 安装主oms时step8 启动nodeagent失败

2.3 安装备oms时step7启动ntp超时

2.4 安装oms后oms频繁主备倒换

2.5 安装备oms启动ntp失败

2.6 安装备oms启动ntp失败

2.7 安装主oms时install the manager失败

3 创建集群失败

3.1 校验请求参数失败

3.2 校验请求参数失败

3.3 校验请求参数失败

3.4 校验请求参数失败

3.5 初始化系统环境失败

3.6 配置系统环境报错

3.7 分发软件包失败

3.8 分发软件包失败

3.9 分发软件包失败

3.10 分发软件包失败

3.11 安装节点失败

3.12 初始化集群失败

3.13 初始化集群失败（8.1.3版本存在磁盘限制，数据盘大于20T时会在安装及扩容时失败）

3.14 初始化集群失败

3.15 初始化集群失败

3.16 初始化集群失败

3.17 初始化集群失败

3.18 初始化集群失败

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品