GaussDB DN故障-启动失败

举报
GaussDB 数据库 发表于 2025/12/09 15:06:37 2025/12/09
【摘要】 故障现象启动集群时或者单独启动DN时,DN组件启动失败。故障原因可能原因有以下:连接认证配置错误。DN目录权限错误或者磁盘故障。DN组件参数配置错误。处理方法步骤 1     登录启动失败的DN节点,执行以下命令,查询集群状态。cm_ctl query -Cvd如上图,DN组件启动失败,查询状态为Down。步骤 2     查看故障DN节点的cm_agent日志,打开对应时间点的cm_age...
  • 故障现象

启动集群时或者单独启动DN时,DN组件启动失败。

  • 故障原因

可能原因有以下:

  1. 连接认证配置错误。
  2. DN目录权限错误或者磁盘故障。
  3. DN组件参数配置错误。
  • 处理方法

步骤 1     登录启动失败的DN节点,执行以下命令,查询集群状态。

cm_ctl query -Cvd

111.png

如上图,DN组件启动失败,查询状态为Down

步骤 2     查看故障DN节点的cm_agent日志,打开对应时间点的cm_agent-***.log日志。

如对应时间点的日志已被压缩,则查看对应的cm_agent-****.log.gz日志,搜索关键词StartAndStop

cd $GAUSSLOG/cm/cm_agent

vim cm_agent-*.log

112.png

如上图,磁盘故障,无法向DN目录写数据。

若报错处有g_dnDiskDamage=1,表明磁盘故障,DN无法启动,可排查DN数据目录磁盘是否正常,目录是否存在等,是否的正常读写等。

若以上都不涉及,则继续步骤3

说明:

1.4(V005R001C20)版本及以前版本,搜索dn_disk_damage=1关键词,1.4(V005R001C20)以后版本搜索g_dnDiskDamage=1关键词。

步骤 3     查看当前目录下的system_call-current.log日志,搜索FATAL关键词。

如报错详细信息为:Permissions should be u=rwx(0700),表明数据目录权限错误,可进入DN数据目录,修改权限为700

若以上都不涉及,则继续步骤4

113.png

如上图,是由于dn_6008的目录权限错误,导致启动失败。

修改权限命令为:chmod -R 700 /opt/gaussdb/engine/data/dn_6008

/opt/gaussdb/engine/data/dn_6008为启动失败DN的数据目录。

须知:修改数据目录权限为高危操作,执行前需联系华为技术支持确认。

步骤 4     继续查看当前目录下的system_call-current.log日志,搜索FATAL关键词。

如报错详细信息为:outside the valid range for parameter,则表明配置文件中的参数设置错误,可根据报错的参数,修改为正确的取值范围。

若以上都不涉及,则继续步骤5

114.png

如上图,是由于dn_6008recovery_time_target参数配置错误,导致启动失败。

gs_guc reload -Z datanode -N all -I all -c "recovery_time_target=60"

须知:

recovery_time_target参数为示例,实际需根据报错信息中的参数修改。

修改参数为高危操作,执行前需联系华为技术支持确认。

HCS场景,执行gs_guc命令需要进入沙箱。

步骤 5     继续查看cm_agent-***.log以及system_call-current.log日志,获取错误信息,联系华为技术支持。

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。