GaussDB(DWS) Nodeagent进程故障问题汇总

举报
配音师 发表于 2021/06/15 13:18:30 2021/06/15
【摘要】 Nodeagent是GaussDB(DWS)管理系统Fi Manager采集数据节点状态信息,运维操作(如启停集群、启停实例)下发命令到数据节点的重要工作线程。 Controller按30秒周期检测NodeAgent心跳。当Controller未接收到某一个NodeAgent的心跳,则尝试重启该NodeAgent进程,如果连续三次重启失败,认为该节点产生故障。

一.Nodeagent进程的主要功能

Nodeagent是GaussDB(DWS)管理系统Fi Manager采集数据节点状态信息,运维操作(如启停集群、启停实例)下发命令到数据节点的重要工作线程。

Controller按30秒周期检测NodeAgent心跳。当Controller未接收到某一个NodeAgent的心跳,则尝试重启该NodeAgent进程,如果连续三次重启失败,认为该节点产生故障。

二.常见问题现象

1.Manager页面显示主机故障

2.从Manager系统启动集群、启动实例失败

三.常见案例

3.1服务器异常下电,配置文件丢失,导致nodeagent启动失败

1.根据nodeagent进程确认(在页面上显示故障的节点,执行ps -ef|grep nodeagent),找不到nodeagent进程

2.根据启动日志(tail -f /var/log/Bigdata/nodeagent/scriptlog/start-agent.log),报错failed to start ntp.

3.查看ntp启动日志,/var/log/Bigdata/nodeagent/scriptlog/start_ntp.log日志,报错Failed to generate /opt/huawei/Bigdata/nodeagent/tmp/ntp/ntp.conf

4.ntp源ip是从/opt/huawei/Bigdata/om-agent_V100R002C80SPC200/nodeagent/etc/agent/nodeagent.properties获取

5.登录到故障节点可以看到,该文件为空,询问客户得知之前异常下电导致配置文件丢失

3.2nodeagent进程启动用户(omm),误source数据库的环境变量,导致命令下发失败

1.查看MPPDB的prestart日志,/var/log/Bigdata/mpp/scriptlog/prestart.log报错,Cannot bind to LDAP server 或Can't contact LDAP server while initializing kadmin.local

2.检查nodeagent进程,cat /proc/pid/environ,误导入了GAUSS_ENV的环境变量

3.检查配置文件,存在后台数据库的环境变量,source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile注释掉,kill nodeagent进程,等待重新拉起后恢复

3.3数据节点ntp时间源相差太大,导致nodeagent的心跳被判定超时,命令无法下发

1.主机页面显示主机故障,并且集群运维操作不可用

2.观察故障的两个节点,告警存在这两台ntp服务异常的告警

3.执行ntpq -np,查询到本地实际与时间源相差8分钟

4.通知客户停止业务,关闭数据库,修改告警节点的系统时间,主机状态恢复正常

啊啊啊.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。