GaussDB(DWS)纳管集群安装部署类问题定位指南
【摘要】 GaussDB(DWS)纳管集群安装部署类问题定位指南
1.1 分析思路
安装Manager步骤有10步,1~5主要是部署节点nodeagent,完成必要节点配置,下发安装包,6主要是创建组件工作区,7~10主要是生成组件配置文件、初始化集群及安装mppdb服务、启动集群及持久化集群数据。
- 如果1~6出现问题,常用日志
/var/log/Bigdata/controller/controller.log、/var/log/Bigdata/controller/controller_nodesetup.log
- 如果7~10出现问题,主要见界面报错、后台日志
安装mpp:/var/log/Bigdata/mpp/scriptlog/postinstall.log
mpp预启动:/var/log/Bigdata/mpp/scriptlog/prestart.log
mpp启动:/var/log/Bigdata/mpp/scriptlog/start.log
1.2 常见安装问题
1.Nodeagent安装失败,报错seem to misconfiged
- 可能原因一:有可能是因为上次直接rm掉了/opt/huawei/Bigdata/nodeagent目录,而没有kill nodeagent的进程所导致,kill nodeagent的进程界面重试;
- 可能原因二:有可能是发现节点时,输入的IP不正确。双平面时应该输入与om_float_ip同网段的IP,检查安装模板配置,卸载集群后重新安装。
2.分发安装包失败
- 在oms主节点,查看/var/log/Bigdata/controller/controller.log和/var/log/Bigdata/controller/controller_nodesetup.log日志,搜索关键字ERROR查看报错信息。根据具体情况查看:
- 下载包失败的节点与controller节点间互信失败,检查“/etc/ssh/sshd_config”配置文件,查看DenyUsers、DenyGroups、AllowUsers、AllowGroups关于omm用户(wheel组)配置是否正确。
- 主OMS节点通过omm用户登录,ssh到其他agent节点,如果需要输入密码说明互信已经被破坏。查看目录“/home/omm/.ssh”权限是否过大导致互信失败,从而导致下载服务安装包失败
3.初始化集群失败
mppdbserver报错,直接查看后台报错节点日/var/log/Bigdata/mpp/scriptlog/postinstall.log,搜索ERROR。常见问题原因有:
- gs_checkos报错,有相关os配置不符合安装要求,root用户下source环境变量,gs_checkos -i A -h host0 查看abnormal项,查看产品文档搜gs_checkos有相关修复方案。
- check timezone failed. 集群存在时区不一致节点,需要手动修改
- gs_install install failed. 查看$GAUSSLOG/om/gs_install日志
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)