GaussDB(DWS)纳管集群安装部署类问题定位指南

举报
bigmountain 发表于 2021/02/27 18:58:57 2021/02/27
【摘要】 GaussDB(DWS)纳管集群安装部署类问题定位指南

1.1      分析思路

安装Manager步骤有10步,1~5主要是部署节点nodeagent,完成必要节点配置,下发安装包,6主要是创建组件工作区,7~10主要是生成组件配置文件、初始化集群及安装mppdb服务、启动集群及持久化集群数据。


  • 如果1~6出现问题,常用日志

/var/log/Bigdata/controller/controller.log/var/log/Bigdata/controller/controller_nodesetup.log

  • 如果7~10出现问题,主要见界面报错、后台日志

安装mpp/var/log/Bigdata/mpp/scriptlog/postinstall.log

mpp预启动:/var/log/Bigdata/mpp/scriptlog/prestart.log

mpp启动:/var/log/Bigdata/mpp/scriptlog/start.log

1.2      常见安装问题

1.Nodeagent安装失败,报错seem to misconfiged

  • 可能原因一:有可能是因为上次直接rm掉了/opt/huawei/Bigdata/nodeagent目录,而没有kill nodeagent的进程所导致,kill nodeagent的进程界面重试;
  • 可能原因二:有可能是发现节点时,输入的IP不正确。双平面时应该输入与om_float_ip同网段的IP,检查安装模板配置,卸载集群后重新安装。

2.分发安装包失败

  • oms主节点,查看/var/log/Bigdata/controller/controller.log/var/log/Bigdata/controller/controller_nodesetup.log日志,搜索关键字ERROR查看报错信息。根据具体情况查看:
    • 下载包失败的节点与controller节点间互信失败,检查“/etc/ssh/sshd_config”配置文件,查看DenyUsersDenyGroupsAllowUsersAllowGroups关于omm用户(wheel组)配置是否正确。
    • OMS节点通过omm用户登录,ssh到其他agent节点,如果需要输入密码说明互信已经被破坏。查看目录“/home/omm/.ssh”权限是否过大导致互信失败,从而导致下载服务安装包失败

3.初始化集群失败


mppdbserver报错,直接查看后台报错节点日/var/log/Bigdata/mpp/scriptlog/postinstall.log,搜索ERROR。常见问题原因有:

  • gs_checkos报错,有相关os配置不符合安装要求,root用户下source环境变量,gs_checkos -i A -h host0 查看abnormal项,查看产品文档搜gs_checkos有相关修复方案。
  • check timezone failed. 集群存在时区不一致节点,需要手动修改
  • gs_install install failed. 查看$GAUSSLOG/om/gs_install日志

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。