GaussDB(DWS) Nodeagent进程故障问题汇总
一.Nodeagent进程的主要功能
Nodeagent是GaussDB(DWS)管理系统Fi Manager采集数据节点状态信息,运维操作(如启停集群、启停实例)下发命令到数据节点的重要工作线程。
Controller按30秒周期检测NodeAgent心跳。当Controller未接收到某一个NodeAgent的心跳,则尝试重启该NodeAgent进程,如果连续三次重启失败,认为该节点产生故障。
二.常见问题现象
1.Manager页面显示主机故障
2.从Manager系统启动集群、启动实例失败
三.常见案例
3.1服务器异常下电,配置文件丢失,导致nodeagent启动失败
1.根据nodeagent进程确认(在页面上显示故障的节点,执行ps -ef|grep nodeagent),找不到nodeagent进程
2.根据启动日志(tail -f /var/log/Bigdata/nodeagent/scriptlog/start-agent.log),报错failed to start ntp.
3.查看ntp启动日志,/var/log/Bigdata/nodeagent/scriptlog/start_ntp.log日志,报错Failed to generate /opt/huawei/Bigdata/nodeagent/tmp/ntp/ntp.conf
4.ntp源ip是从/opt/huawei/Bigdata/om-agent_V100R002C80SPC200/nodeagent/etc/agent/nodeagent.properties获取
5.登录到故障节点可以看到,该文件为空,询问客户得知之前异常下电导致配置文件丢失
3.2nodeagent进程启动用户(omm),误source数据库的环境变量,导致命令下发失败
1.查看MPPDB的prestart日志,/var/log/Bigdata/mpp/scriptlog/prestart.log报错,Cannot bind to LDAP server 或Can't contact LDAP server while initializing kadmin.local
2.检查nodeagent进程,cat /proc/pid/environ,误导入了GAUSS_ENV的环境变量
3.检查配置文件,存在后台数据库的环境变量,source /opt/huawei/Bigdata/mppdb/.mppdbgs_profile注释掉,kill nodeagent进程,等待重新拉起后恢复
3.3数据节点ntp时间源相差太大,导致nodeagent的心跳被判定超时,命令无法下发
1.主机页面显示主机故障,并且集群运维操作不可用
2.观察故障的两个节点,告警存在这两台ntp服务异常的告警
3.执行ntpq -np,查询到本地实际与时间源相差8分钟
4.通知客户停止业务,关闭数据库,修改告警节点的系统时间,主机状态恢复正常
- 点赞
- 收藏
- 关注作者
评论(0)