GaussDB(DWS)线下纯软/ESL集群安装问题案例集

举报
Song~ 发表于 2024/01/13 16:45:14 2024/01/13
【摘要】 集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装

集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装

集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装

集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装

1. 安装前preinstall失败

日志:preinstall会打印日志提示,根据提示的日志路径分析

1.1 preinstall过程补充rpm失败

问题分析:补充rpm包失败,一般是以下几个原因:

a. 使用了非原生ISO镜像,定制ISO镜像中部分rpm版本进行了升级

b. 挂载了非安装操作系统时的ISO镜像包

c. 安装完操作系统后更新了部分rpm包,补充rpm包时依赖异常

解决方案:联系操作系统人员解决

1.2 preinstall过程autopart失败

问题分析:报错notify脚本找不到,手动检查脚本所在目录,发现不少目录存在缺失,ini-plugin目录只留下了conf目录,重新解压setuptool工具对比,确认是上传文件导致部分目录丢失,重新上传配置后做preinstall成功

解决方案:操作问题,重新上传配置做preinstall

1.3 preinstall过程setup os failed

解决方案:操作系统问题,联系操作系统人员解决

1.4 preinstall挂盘失败

问题分析:报错格式化磁盘失败,磁盘大小超过ext3的限制,格式化磁盘时会将数据盘自动格式化为OS盘的格式,如:OS盘为ext4,则数据盘就会被格式化为ext4;

此OS盘格式为ext3,所以格式化磁盘时自动将数据盘格式化为ext3,磁盘大小为28T,超过了ext3的上限,故格式化失败

解决方案:a. 手动修改conf文件中的filesystem为ext4或xfs;b. 将OS盘格式整改为ext4或者xfs

1.5 preinstall分区失败

问题分析:raid(noraid) is not raid1,这个报错是LLD配置规划工具填写配置时,元数据分区raid类型选择了raid1,但是元数据盘raid类型是nonraid导致

解决方案:将LLD配置规划工具中的元数据分区raid类型修改为noraid

2. 安装oms失败

日志:

a. 安装失败会有日志路径打印,查看对应的失败日志信息

b. controller日志:/var/log/Bigdata/controller/controller.log

ha相关日志:/var/log/Bigdata/omm/oms/ha/

agent相关日志:/var/log/Bigdata/nodeagent/scriptlog/

2.1 安装主oms失败

问题分析:install.log日志打印LDAP vendor support is not available,这个报错一般是openldap对应的rpm包版本不匹配导致,rpm -qa检查rpm包版本,发现openldap安装版本不对

解决方案:按照产品文档要求,安装对应版本的rpm包

2.2 安装主oms时step8 启动nodeagent失败

问题分析:

查看nodeagent启动日志中有连接本地20008端口失败,连接被拒,且查看controller日志(/var/log/Bigdata/controller/controller.log)有LOCKED_OUT异常信息打印,这种一般是由于铲除集群时没有正常卸载老集群,未重装OS,直接使用老服务器安装集群,老集群残留的nodeagent进程不停的连接主oms导致controller被锁,新装oms节点的nodeagent连接controller时连接失败

解决方案:

a. 对老节点重装OS;

b. 卸载老节点残留(root用户执行):

8.1.3以下版本(sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh)

8.1.3及以上版本(sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh)

2.3 安装备oms时step7启动ntp超时

问题分析:查看install.log报错启动ntp超时,查看installntp.log(/var/log/Bigdata/nodeagent/scriptlog/installntp.log)显示安装ntp成功;继续排查ha_ntp.log(/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log)发现从浮动ip拷贝ntpkeyfile失败,检查omm互信发现互信异常,主备oms互信异常,继续排查ha日志,备oms节点ha日志报错无法访问/srv/BigData/LocalBackup目录,排查发现此目录权限异常

解决方案:卸载备oms,卸载diskmgt服务,重新执行preinstall,完成后看precheck失败日志,手动检查目录权限是否恢复,恢复后重新安装备oms

2.4 安装oms后oms频繁主备倒换

问题分析:

现场安装时多次安装卸载,停止一个oms后发现controller状态异常,查看controller日志(/var/log/Bigdata/controller/controller.log),日志中报错controller cannot be started ,authentication failed;

怀疑是未正常卸载导致数据节点nodeagent进程残留频繁连接新controller导致controller认证失败,查看数据节点确实存在nodeagent进程,手动后台卸载残留后重启oms,oms 恢复正常

解决方案:

a. 对老节点重装OS;

b. 卸载老节点残留(root用户执行):

8.1.3以下版本(sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh)

8.1.3及以上版本(sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh)

2.5 安装备oms启动ntp失败

问题分析:日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny,互信异常导致;补充iputil和openldap包后重新安装仍旧失败,继续分析ha日志(/var/log/Bigdata/omm/oms/ha/runlog/ha.log),ha日志中有opendir failed报错,/srv/BigData/LocalBackup目录下有文件残留导致

排查思路:a. rpm包是否是产品文档要求对应的版本;b. ca证书;c. ha证书;d. sshd_config配置;e. 目录/文件残留或权限异常

解决方案:/srv/BigData/LocalBackup目录下有文件残留,清理残留文件后重新安装备oms成功

2.6 安装备oms启动ntp失败

问题分析:日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny,互信异常导致;

继续分析ha日志(/var/log/Bigdata/omm/oms/ha/runlog/ha.log),ha日志中没有同步文件失败报错;

主备oms上分别查看oms状态,只能看到自己的oms状态,怀疑证书有问题,查看安装目录的cacert(/opt/FusionInsight_Manager/software/cacert),两个节点的证书不一致,将主节点证书拷贝至备节点重新安装成功

解决方案:操作问题,两个节点安装目录下文件不一致,将主节点安装目录拷贝至备节点后重新安装成功

2.7 安装主oms时install the manager失败

问题分析:

报错slapd:SLP support is not available,此报错为oldap的报错,与openldap强相关;

根据产品文档检查安装前必须补充安装的rpm是否安装,此OS为麒麟V10SP2 x86版本,不涉及openldap等rpm包的补充安装

排查openldap包版本、openssl版本及环境变量。openldap的rpm包版本比原生镜像中的版本高,其他未发现异常。降级openldap版本后重新安装oms,安装成功

解决方案:回退openldap版本至原生镜像带的版本

3 创建集群失败

3.1 校验请求参数失败

问题分析:此步骤失败一般为nodeagent进程异常导致,检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程一直在重启,查看nodeagent日志(/var/log/Bigdata/nodeagent/agentlog/agent.log)中报错时差过大

解决方案:节点间时差过大,将节点间时间修改一致后,重启nodeagent进程以及oms。(时间往未来调整)

3.2 校验请求参数失败

问题分析:

a. 根据产品文档检查安装前必须补充安装的rpm是否安装,此OS为麒麟V10SP1 x86版本,不涉及openldap等rpm包的补充安装

b. 查看controller_nodesetup.log,执行checkNodeOS.sh脚本检查失败,该脚本是临时生成脚本,执行后就会被删除,重新创建集群,后台抓取该脚本,分析脚本查看检查逻辑

sh checkNodeOS.sh kylin tlsv1.1 手动检查,执行失败,检查openssl失败,手动执行openssl version检查openssl版本,执行失败,使用ldd检查openssl依赖库,发现异常节点引入了gds依赖库

解决方案:排查root用户环境变量,.bashrc中引入了gds环境变量,注释后重新安装

3.3 校验请求参数失败

问题分析:此步骤失败一般为nodeagent进程异常导致,检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程没有起来,手动执行拉起nodeagent拉起失败(sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/start-agent.sh),加-x重新拉起nodeagent进程,发现报错无法访问/etc/hosts文件,

解决方案:/etc/hosts文件权限异常,恢复644权限后重试即可

3.4 校验请求参数失败

问题分析:

1. 此步骤报错一般是nodeagent进程异常导致,检查主备oms节点nodeagent进程,发现进程正常且未发生重启,尝试重试,多次重试仍旧报错而且不走进度条直接报红秒报错

2. 怀疑是某个配置文件或者目录权限异常导致,排查sysctl.conf等系统文件的权限,发现hosts文件权限为600,修改为644后重试通过

解决方案:/etc/hosts文件权限异常,恢复644权限后重试即可

3.5 初始化系统环境失败

问题分析:此步骤报错一般是omm用户残留导致,查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行adduser.sh脚本失败

检查失败节点omm用户,omm用户已删除,但是创建用户失败,麒麟V10OS,排查/etc/uid_list中存在omm用户残留信息,尝试删除残留信息失败,该文件被锁定,重装OS后安装成功

解决方案:

1. 操作系统存在omm用户需要删除omm用户后再安装集群(userdel -rf omm)

2. 麒麟V10删除omm用户后还需要删除uid_list文件中的omm用户残留信息

3.6 配置系统环境报错

问题分析:查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行ssh命令失败,ssh不同,网络存在问题,最终网络定位是子网掩码配置错误导致

解决方案:网络配置问题,网络侧解决

3.7 分发软件包失败

问题分析:分发软件包是由主OMS通过浮动ip向其他节点分发

1. 查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行ssh命令失败,手动使用omm用户测试ssh,ssh直接失败

2. 创建新用户测试ssh,ssh正常,集群节点都是利旧机器,有omm用户残留,删除omm用户后重试成功

解决方案:omm用户残留,删除omm用户后继续安装(userdel -rf omm)

3.8 分发软件包失败

问题分析:openssh版本过高,客户升级了openssh,导致集群安装时互信建立失败

解决方案:回退openssh后重新安装

建议在升级前备份主备oms节点及待升级openssh节点互信相关目录及文件
/home/omm/passphrase.file
/home/omm/passphrase.file.sha256
/home/omm/.ssh

3.9 分发软件包失败

问题分析:环境只有主备oms节点间可以使用omm用户免相互免密登录,其他节点omm用户可以ssh到主备oms节点,但是从主备oms节点ssh到数据据节点需要输入密码,数据节点间也不能相互ssh,对比主oms节点与数据节点间sshd_config文件,发现存在不一致的配置,将主oms节点sshd_config文件拷贝到数据节点,重启ssh服务后节点间互信恢复,重新执行安装集群步骤通过。

3.10 分发软件包失败

问题分析:查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log)发现在分发包是scp失败,手动ping测试发现丢包严重,客户网络存在问题

解决方案:网络问题,网络侧解决

3.11 安装节点失败

问题分析:查看/var/log/Bigdata/nodeagent/scriptlog/install.log,报错 no space left on device

解决方案:日志目录剩余空间不足,清理后重试

3.12 初始化集群失败

问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),有个节点内核前置preinstall失败,查看失败节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),报错gs_checkos -i A检查不通过,按照报错提示执行gs_checkos -i A检查,将A改为B执行修复后重试,安装成功

解决方案:按照日志提示​执行gs_checkos -i A检查,检查结果存在abnormal项,将A改为B执行修复后重试

3.13 初始化集群失败(8.1.3版本存在磁盘限制,数据盘大于20T时会在安装及扩容时失败)

问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败,日志报错如下:gs_initdb执行失败

继续查看gs_initdb日志(/var/log/Bigdata/mpp/omm/bin/gs_initdb/gs_initdb.log),日志报错tmp_file_limit和sql_use_spacelimit参数超限,此参数取值为数据盘大小的10%,数据盘大于20T导致

解决方案:数据盘大小超过20T,重新做raid将数据盘大小降至20T以下

3.14 初始化集群失败

问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现找不到mpp-postinstall.sh脚本,漏做更新sudo脚本步骤

解决方案:卸载,执行更新sudo脚本后重新安装集群

3.15 初始化集群失败

问题分析:

查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败;

继续排查gs_install日志(/var/log/Bigdata/mpp/omm/om/gs_install*.log),发现gs_install执行成功,怀疑是环境问题导致返回值异常

解决方案:内核已安装成功,注释mpp-postinstall.sh脚本中的498-505行跳过返回值判断,重试即可安装成功

3.16 初始化集群失败

问题分析:

查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败;

继续排查gs_install日志(/var/log/Bigdata/mpp/omm/om/gs_install*.log),发现更新pgxc_node&创建node group失败;

继续排查gs_local日志(/var/log/Bigdata/mpp/omm/om/gs_local*.log),cn连接gtm失败

继续分析gtm日志(/var/log/Bigdata/mpp/omm/bin/gtm/*),检查gtm中报错的ip地址,确认其同xml中设置的IP地址一致。

同一网段配置了两个ip地址。通讯在进行ip获取时是使用的hostname,hostname解析ip在路由中是随机的,这样导致选择的ip不为真实IP,进而通讯报错。

解决方案:将主机上多余的ip从网卡上删除。确保一个网段配置一个ip

3.17 初始化集群失败

问题分析:

查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),日志报错执行python脚本时语法错误,查看python3版本为3.4.10,python3版本过低语法不兼容导致,python3版本不能低于3.7

解决方案:python3版本过低,可以按照产品文档<如何编译python3>和<如何批量为集群中的节点安装Python3>两个章节安装python3.8.5

3.18 初始化集群失败

问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),日志报错set OS parameter failed,无其他报错信息打印;报错日志上一行打印the os is not suse or redhat or centos or euleros;怀疑是检测os时异常,继续排查/etc/os-release,os-release中ID=uos未添加双引号“”,导致获取os失败

解决方案:统信uos-1050e特有bug,os-release中ID=uos缺失双引号“”,手动添加后重试即可

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。