GaussDB(DWS)线下纯软/ESL集群安装问题案例集
集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装
集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装
集群安装过程的问题90%都是环境问题,建议安装集群前重装OS,不要对OS进行加固,不要升级rpm包,提前检查网络及网卡bond配置等,避免环境问题阻塞集群安装
1. 安装前preinstall失败
日志:preinstall会打印日志提示,根据提示的日志路径分析
1.1 preinstall过程补充rpm失败
问题分析:补充rpm包失败,一般是以下几个原因:
a. 使用了非原生ISO镜像,定制ISO镜像中部分rpm版本进行了升级
b. 挂载了非安装操作系统时的ISO镜像包
c. 安装完操作系统后更新了部分rpm包,补充rpm包时依赖异常
解决方案:联系操作系统人员解决
1.2 preinstall过程autopart失败
问题分析:报错notify脚本找不到,手动检查脚本所在目录,发现不少目录存在缺失,ini-plugin目录只留下了conf目录,重新解压setuptool工具对比,确认是上传文件导致部分目录丢失,重新上传配置后做preinstall成功
解决方案:操作问题,重新上传配置做preinstall
1.3 preinstall过程setup os failed
解决方案:操作系统问题,联系操作系统人员解决
1.4 preinstall挂盘失败
问题分析:报错格式化磁盘失败,磁盘大小超过ext3的限制,格式化磁盘时会将数据盘自动格式化为OS盘的格式,如:OS盘为ext4,则数据盘就会被格式化为ext4;
此OS盘格式为ext3,所以格式化磁盘时自动将数据盘格式化为ext3,磁盘大小为28T,超过了ext3的上限,故格式化失败
解决方案:a. 手动修改conf文件中的filesystem为ext4或xfs;b. 将OS盘格式整改为ext4或者xfs
1.5 preinstall分区失败
问题分析:raid(noraid) is not raid1,这个报错是LLD配置规划工具填写配置时,元数据分区raid类型选择了raid1,但是元数据盘raid类型是nonraid导致
解决方案:将LLD配置规划工具中的元数据分区raid类型修改为noraid
2. 安装oms失败
日志:
a. 安装失败会有日志路径打印,查看对应的失败日志信息
b. controller日志:/var/log/Bigdata/controller/controller.log
ha相关日志:/var/log/Bigdata/omm/oms/ha/
agent相关日志:/var/log/Bigdata/nodeagent/scriptlog/
2.1 安装主oms失败
问题分析:install.log日志打印LDAP vendor support is not available,这个报错一般是openldap对应的rpm包版本不匹配导致,rpm -qa检查rpm包版本,发现openldap安装版本不对
解决方案:按照产品文档要求,安装对应版本的rpm包
2.2 安装主oms时step8 启动nodeagent失败
问题分析:
查看nodeagent启动日志中有连接本地20008端口失败,连接被拒,且查看controller日志(/var/log/Bigdata/controller/controller.log)有LOCKED_OUT异常信息打印,这种一般是由于铲除集群时没有正常卸载老集群,未重装OS,直接使用老服务器安装集群,老集群残留的nodeagent进程不停的连接主oms导致controller被锁,新装oms节点的nodeagent连接controller时连接失败
解决方案:
a. 对老节点重装OS;
b. 卸载老节点残留(root用户执行):
8.1.3以下版本(sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh)
8.1.3及以上版本(sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh)
2.3 安装备oms时step7启动ntp超时
问题分析:查看install.log报错启动ntp超时,查看installntp.log(/var/log/Bigdata/nodeagent/scriptlog/installntp.log)显示安装ntp成功;继续排查ha_ntp.log(/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log)发现从浮动ip拷贝ntpkeyfile失败,检查omm互信发现互信异常,主备oms互信异常,继续排查ha日志,备oms节点ha日志报错无法访问/srv/BigData/LocalBackup目录,排查发现此目录权限异常
解决方案:卸载备oms,卸载diskmgt服务,重新执行preinstall,完成后看precheck失败日志,手动检查目录权限是否恢复,恢复后重新安装备oms
2.4 安装oms后oms频繁主备倒换
问题分析:
现场安装时多次安装卸载,停止一个oms后发现controller状态异常,查看controller日志(/var/log/Bigdata/controller/controller.log),日志中报错controller cannot be started ,authentication failed;
怀疑是未正常卸载导致数据节点nodeagent进程残留频繁连接新controller导致controller认证失败,查看数据节点确实存在nodeagent进程,手动后台卸载残留后重启oms,oms 恢复正常
解决方案:
a. 对老节点重装OS;
b. 卸载老节点残留(root用户执行):
8.1.3以下版本(sh /opt/huawei/Bigdata/om-agent/nodeagent/setup/uninstall.sh)
8.1.3及以上版本(sh /opt/huawei/Bigdata_setup/nodesetup/setup/uninstall.sh)
2.5 安装备oms启动ntp失败
问题分析:日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny,互信异常导致;补充iputil和openldap包后重新安装仍旧失败,继续分析ha日志(/var/log/Bigdata/omm/oms/ha/runlog/ha.log),ha日志中有opendir failed报错,/srv/BigData/LocalBackup目录下有文件残留导致
排查思路:a. rpm包是否是产品文档要求对应的版本;b. ca证书;c. ha证书;d. sshd_config配置;e. 目录/文件残留或权限异常
解决方案:/srv/BigData/LocalBackup目录下有文件残留,清理残留文件后重新安装备oms成功
2.6 安装备oms启动ntp失败
问题分析:日志中显示执行su - omm ssh $floatip xxxx命令报错permission deny,互信异常导致;
继续分析ha日志(/var/log/Bigdata/omm/oms/ha/runlog/ha.log),ha日志中没有同步文件失败报错;
主备oms上分别查看oms状态,只能看到自己的oms状态,怀疑证书有问题,查看安装目录的cacert(/opt/FusionInsight_Manager/software/cacert),两个节点的证书不一致,将主节点证书拷贝至备节点重新安装成功
解决方案:操作问题,两个节点安装目录下文件不一致,将主节点安装目录拷贝至备节点后重新安装成功
2.7 安装主oms时install the manager失败
问题分析:
报错slapd:SLP support is not available,此报错为oldap的报错,与openldap强相关;
根据产品文档检查安装前必须补充安装的rpm是否安装,此OS为麒麟V10SP2 x86版本,不涉及openldap等rpm包的补充安装
排查openldap包版本、openssl版本及环境变量。openldap的rpm包版本比原生镜像中的版本高,其他未发现异常。降级openldap版本后重新安装oms,安装成功
解决方案:回退openldap版本至原生镜像带的版本
3 创建集群失败
3.1 校验请求参数失败
问题分析:此步骤失败一般为nodeagent进程异常导致,检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程一直在重启,查看nodeagent日志(/var/log/Bigdata/nodeagent/agentlog/agent.log)中报错时差过大
解决方案:节点间时差过大,将节点间时间修改一致后,重启nodeagent进程以及oms。(时间往未来调整)
3.2 校验请求参数失败
问题分析:
a. 根据产品文档检查安装前必须补充安装的rpm是否安装,此OS为麒麟V10SP1 x86版本,不涉及openldap等rpm包的补充安装
b. 查看controller_nodesetup.log,执行checkNodeOS.sh脚本检查失败,该脚本是临时生成脚本,执行后就会被删除,重新创建集群,后台抓取该脚本,分析脚本查看检查逻辑
sh checkNodeOS.sh kylin tlsv1.1 手动检查,执行失败,检查openssl失败,手动执行openssl version检查openssl版本,执行失败,使用ldd检查openssl依赖库,发现异常节点引入了gds依赖库
解决方案:排查root用户环境变量,.bashrc中引入了gds环境变量,注释后重新安装
3.3 校验请求参数失败
问题分析:此步骤失败一般为nodeagent进程异常导致,检查主备oms节点nodeagent进程发现备oms节点的nodeagent进程没有起来,手动执行拉起nodeagent拉起失败(sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/start-agent.sh),加-x重新拉起nodeagent进程,发现报错无法访问/etc/hosts文件,
解决方案:/etc/hosts文件权限异常,恢复644权限后重试即可
3.4 校验请求参数失败
问题分析:
1. 此步骤报错一般是nodeagent进程异常导致,检查主备oms节点nodeagent进程,发现进程正常且未发生重启,尝试重试,多次重试仍旧报错而且不走进度条直接报红秒报错
2. 怀疑是某个配置文件或者目录权限异常导致,排查sysctl.conf等系统文件的权限,发现hosts文件权限为600,修改为644后重试通过
解决方案:/etc/hosts文件权限异常,恢复644权限后重试即可
3.5 初始化系统环境失败
问题分析:此步骤报错一般是omm用户残留导致,查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行adduser.sh脚本失败
检查失败节点omm用户,omm用户已删除,但是创建用户失败,麒麟V10OS,排查/etc/uid_list中存在omm用户残留信息,尝试删除残留信息失败,该文件被锁定,重装OS后安装成功
解决方案:
1. 操作系统存在omm用户需要删除omm用户后再安装集群(userdel -rf omm)
2. 麒麟V10删除omm用户后还需要删除uid_list文件中的omm用户残留信息
3.6 配置系统环境报错
问题分析:查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行ssh命令失败,ssh不同,网络存在问题,最终网络定位是子网掩码配置错误导致
解决方案:网络配置问题,网络侧解决
3.7 分发软件包失败
问题分析:分发软件包是由主OMS通过浮动ip向其他节点分发
1. 查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log),日志报错执行ssh命令失败,手动使用omm用户测试ssh,ssh直接失败
2. 创建新用户测试ssh,ssh正常,集群节点都是利旧机器,有omm用户残留,删除omm用户后重试成功
解决方案:omm用户残留,删除omm用户后继续安装(userdel -rf omm)
3.8 分发软件包失败
问题分析:openssh版本过高,客户升级了openssh,导致集群安装时互信建立失败
解决方案:回退openssh后重新安装
建议在升级前备份主备oms节点及待升级openssh节点互信相关目录及文件
/home/omm/passphrase.file
/home/omm/passphrase.file.sha256
/home/omm/.ssh
3.9 分发软件包失败
问题分析:环境只有主备oms节点间可以使用omm用户免相互免密登录,其他节点omm用户可以ssh到主备oms节点,但是从主备oms节点ssh到数据据节点需要输入密码,数据节点间也不能相互ssh,对比主oms节点与数据节点间sshd_config文件,发现存在不一致的配置,将主oms节点sshd_config文件拷贝到数据节点,重启ssh服务后节点间互信恢复,重新执行安装集群步骤通过。
3.10 分发软件包失败
问题分析:查看controller_nodesetup.log日志(/var/log/Bigdata/controller/controller_nodesetup.log)发现在分发包是scp失败,手动ping测试发现丢包严重,客户网络存在问题
解决方案:网络问题,网络侧解决
3.11 安装节点失败
问题分析:查看/var/log/Bigdata/nodeagent/scriptlog/install.log,报错 no space left on device
解决方案:日志目录剩余空间不足,清理后重试
3.12 初始化集群失败
问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),有个节点内核前置preinstall失败,查看失败节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),报错gs_checkos -i A检查不通过,按照报错提示执行gs_checkos -i A检查,将A改为B执行修复后重试,安装成功
解决方案:按照日志提示执行gs_checkos -i A检查,检查结果存在abnormal项,将A改为B执行修复后重试
3.13 初始化集群失败(8.1.3版本存在磁盘限制,数据盘大于20T时会在安装及扩容时失败)
问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败,日志报错如下:gs_initdb执行失败
继续查看gs_initdb日志(/var/log/Bigdata/mpp/omm/bin/gs_initdb/gs_initdb.log),日志报错tmp_file_limit和sql_use_spacelimit参数超限,此参数取值为数据盘大小的10%,数据盘大于20T导致
解决方案:数据盘大小超过20T,重新做raid将数据盘大小降至20T以下
3.14 初始化集群失败
问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现找不到mpp-postinstall.sh脚本,漏做更新sudo脚本步骤
解决方案:卸载,执行更新sudo脚本后重新安装集群
3.15 初始化集群失败
问题分析:
查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败;
继续排查gs_install日志(/var/log/Bigdata/mpp/omm/om/gs_install*.log),发现gs_install执行成功,怀疑是环境问题导致返回值异常
解决方案:内核已安装成功,注释mpp-postinstall.sh脚本中的498-505行跳过返回值判断,重试即可安装成功
3.16 初始化集群失败
问题分析:
查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),发现执行到gs_install失败;
继续排查gs_install日志(/var/log/Bigdata/mpp/omm/om/gs_install*.log),发现更新pgxc_node&创建node group失败;
继续排查gs_local日志(/var/log/Bigdata/mpp/omm/om/gs_local*.log),cn连接gtm失败
继续分析gtm日志(/var/log/Bigdata/mpp/omm/bin/gtm/*),检查gtm中报错的ip地址,确认其同xml中设置的IP地址一致。
同一网段配置了两个ip地址。通讯在进行ip获取时是使用的hostname,hostname解析ip在路由中是随机的,这样导致选择的ip不为真实IP,进而通讯报错。
解决方案:将主机上多余的ip从网卡上删除。确保一个网段配置一个ip
3.17 初始化集群失败
问题分析:
查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),日志报错执行python脚本时语法错误,查看python3版本为3.4.10,python3版本过低语法不兼容导致,python3版本不能低于3.7
解决方案:python3版本过低,可以按照产品文档<如何编译python3>和<如何批量为集群中的节点安装Python3>两个章节安装python3.8.5
3.18 初始化集群失败
问题分析:查看第一个数据节点的postinstall日志(/var/log/Bigdata/mpp/scriptlog/postinstall.log),日志报错set OS parameter failed,无其他报错信息打印;报错日志上一行打印the os is not suse or redhat or centos or euleros;怀疑是检测os时异常,继续排查/etc/os-release,os-release中ID=uos未添加双引号“”,导致获取os失败
解决方案:统信uos-1050e特有bug,os-release中ID=uos缺失双引号“”,手动添加后重试即可
- 点赞
- 收藏
- 关注作者
评论(0)