GaussDB升级失败
- 故障现象
在下发升级命令后,升级任务返回失败,或者内核升级日志报错,或者升级任务卡死不结束。
- 故障原因
可能原因有以下:
- 升级om_agent失败。
- 升级任务流失败。
- 数据库内核升级失败。
- 处理方法
步骤 1 排查确认对业务是否有影响。
查询状态是否正常,是否出现磁盘满、网络不通等问题,若存在,根据CN故障处理,DN故障处理解决故障。
步骤 2 如果升级om_agent失败。
1. 根据变更记录或者告警信息,找到升级失败的实例,在DBS运维管理平台,找到升级任务流,若失败的任务流为GaussDBV5UpgradeOmAgent则说明升级om_agent失败。

2. 排查当前实例磁盘是否出现系统盘或数据盘满等问题,解决后重试任务流。
3. 查看任务流树表具体报错信息。
如果在WaitUpgradeOmAgentTask子任务之前失败,需要查看实例管理节点日志进行分析。
如果在WaitUpgradeOmAgentTask子任务失败,则需要登录到失败节点,确认om_agent进程是否存在。
ps ux | grep om_agent|grep -v grep
若不存在,说明进程没有正常拉起,此时需要联系华为技术支持,进一步分析om_agent进程未拉起原因。
步骤 3 升级任务流失败。
查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败在UpgradeJob节点的WaitUpgradeResultTask子任务之前,可先重试任务流,若重试之后问题未解决,则表明任务流存在问题,需要联系华为技术支持进一步分析。

步骤 4 升级数据库内核失败。
1. 查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败的为UpgradeJob节点的WaitUpgradeResultTask子任务,则是内核升级失败。
2. 从失败任务流中找到下发节点,登录该节点,进入到日志目录,然后查看gs_upgradectl-YYYY-MM-DD_HHmmss.log日志。
cd $GAUSSLOG/om
grep "ERROR" gs_upgradectl-YYYY-MM-DD_HHmmss.log
3. 若发现有与本次升级相近时间点的报错信息,则获取报错信息,联系华为技术支持。
----结束
- 点赞
- 收藏
- 关注作者
评论(0)