GaussDB DN故障-启动失败
- 故障现象
启动集群时或者单独启动DN时,DN组件启动失败。
- 故障原因
可能原因有以下:
- 连接认证配置错误。
- DN目录权限错误或者磁盘故障。
- DN组件参数配置错误。
- 处理方法
步骤 1 登录启动失败的DN节点,执行以下命令,查询集群状态。
cm_ctl query -Cvd

如上图,DN组件启动失败,查询状态为Down。
步骤 2 查看故障DN节点的cm_agent日志,打开对应时间点的cm_agent-***.log日志。
如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志,搜索关键词StartAndStop。
cd $GAUSSLOG/cm/cm_agent
vim cm_agent-*.log

如上图,磁盘故障,无法向DN目录写数据。
若报错处有g_dnDiskDamage=1,表明磁盘故障,DN无法启动,可排查DN数据目录磁盘是否正常,目录是否存在等,是否的正常读写等。
若以上都不涉及,则继续步骤3。
说明:
1.4(V005R001C20)版本及以前版本,搜索dn_disk_damage=1关键词,1.4(V005R001C20)以后版本搜索g_dnDiskDamage=1关键词。
步骤 3 查看当前目录下的system_call-current.log日志,搜索FATAL关键词。
如报错详细信息为:Permissions should be u=rwx(0700),表明数据目录权限错误,可进入DN数据目录,修改权限为700。
若以上都不涉及,则继续步骤4。

如上图,是由于dn_6008的目录权限错误,导致启动失败。
修改权限命令为:chmod -R 700 /opt/gaussdb/engine/data/dn_6008
/opt/gaussdb/engine/data/dn_6008为启动失败DN的数据目录。
须知:修改数据目录权限为高危操作,执行前需联系华为技术支持确认。
步骤 4 继续查看当前目录下的system_call-current.log日志,搜索FATAL关键词。
如报错详细信息为:outside the valid range for parameter,则表明配置文件中的参数设置错误,可根据报错的参数,修改为正确的取值范围。
若以上都不涉及,则继续步骤5。

如上图,是由于dn_6008的recovery_time_target参数配置错误,导致启动失败。
gs_guc reload -Z datanode -N all -I all -c "recovery_time_target=60"
须知:
recovery_time_target参数为示例,实际需根据报错信息中的参数修改。
修改参数为高危操作,执行前需联系华为技术支持确认。
HCS场景,执行gs_guc命令需要进入沙箱。
步骤 5 继续查看cm_agent-***.log以及system_call-current.log日志,获取错误信息,联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)