- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

云数据库 GaussDB 故障案例库-2

GaussDB 数据库发表于 2025/12/05 15:20:47 2025/12/05

【摘要】目录1 实例创建失败2 参数更新后未生效3 数据库重启失败4 实例删除失败5 数据库密码重置失败6 创建前预检查资源及删除创建失败残留资源（BMS部署场景）7 实例备份失败8 设置备份策略失败9 恢复到新实例失败10 恢复到当前实例失败11 PITR可恢复时间停止推进12 恢复新实例过程中重置密码步骤失败13 业务数据库量过大时节点替换执行时间过长处理14 节点修复/替换失败15 升级失...

6 创建前预检查资源及删除创建失败残留资源（BMS部署场景）

13 业务数据库量过大时节点替换执行时间过长处理

1、实例创建失败

故障现象

GaussDB实例创建失败。

故障原因

可能原因有以下：

GaussDB Service服务不正常，或者IAAS服务不正常。

处理方法

步骤 1 使用浏览器，登录ManageOne运维面。

l 登录地址：https://ManageOne运维面主页的访问地址:31943。例如，https://oc.type.com:31943。

l 默认帐号：admin。默认密码可在《华为云Stack 帐户一览表》中“A类Portal”页签，产品名称为“ManageOne”，帐户登录界面名称为“ManageOne 运维面”获取。

注意：为了您的帐户安全，请定期修改密码。

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

步骤 3 登录DBS运维管理平台。

步骤 4 选择“实例运维 > 任务管理”，右上角筛选条件选择“实例ID”或“任务流ID”，输入框中输入获取的实例ID或工作流ID，执行搜索，查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 5 根据步骤4中任务执行结果，定位不同的故障场景操作。

l 场景一：创建服务器失败（CreateServersTaskV2执行失败），根据步骤4中展示的失败概览，分析失败原因。

− 如果步骤4的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。

修复方案：

i. 登录DBS运维管理平台，在“实例运维 > 配置管理 > 引擎资源管理”页面，引擎名称选择“GaussDB”，单击“查询”，查看对应内核版本的镜像ID是否为空，如下图所示：

查看对应内核版本的镜像ID是否为空，不同的实例对应不同的字段

x86环境：MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。

x86环境的BMS，ARM环境MCS及BMS对应“引擎资源管理”页面的“扩展镜像ID”列。

ii. 镜像ID为空，则单击对应版本所在行“编辑”，按照已有格式关联需要的镜像ID，镜像ID可通过Service OM平台的“服务列表 > 镜像资源 > 镜像列表”中查询获取，如下图所示。

图1-1 查询镜像ID

图1-2 编辑镜像ID

iii. 如镜像ID不为空，但在Service OM平台的镜像资源中查询不到该镜像ID，可能存在两种情况：

□ 该镜像未注册，此种情况需要注册镜像，请联系技术支持。

□ 镜像已在service om中注册，但配置错误，此种情况需要点击对应版本“编辑”，按照已有格式更新对应版本的镜像ID，参见图1-2。

iv. 镜像ID不为空，且与ServiceOM的镜像ID一致，则需要排查镜像文件是否存在于OBS桶中，如不存在，则需要重新注册镜像，如OBS桶中镜像存在，则执行步骤6。

l 场景二：创建服务器失败（WaitCreateServersTask执行失败），根据步骤4中展示的失败概览，分析失败原因。

− 如果步骤4的失败原因中包含“not enough hosts”，则说明服务器资源不足。

修复方案：联系IaaS对计算资源扩容，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新创建新实例。

− 如果步骤4的失败原因中包含“PlacementDiskFilter”，说明没有满足的磁盘资源。

修复方案：联系IaaS对磁盘进行扩容，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新创建新实例。

− 如果步骤4的失败原因中包含“No more IP addresses available”，则说明IP资源不足。

修复方案：在Console页面服务列表下，选择“网络 > 虚拟私有云”服务，释放实例所在子网下的空闲ip，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新创建新实例。

须知：

如果创建服务器失败，可能存在底层返回信息不完整无法删除残留资源的场景，需要在实例运维 > 租户管理 > 残留资源统计页面，单击对应用户名名称，批量删除残留资源。

l 场景三：Agent执行失败（SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败），根据步骤4中展示的失败概览，分析失败原因。

如果步骤4的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”，则可能是网络不通。

修复方案：联系运维排查网络故障原因，确认网络恢复正常后，重新创建实例。

l 场景四：报送审计服务失败（NotifyToCTSTask失败）。

报送审计失败，对实例无影响，但是需要检查审计服务是否正常。

修复方案：在“树表”页面，单击NotifyToCTSTask的下拉按钮，选择跳过任务，跳过NotifyToCTSTask，等待任务执行成功。审计是对事件进行记录，跳过审计步骤对实例无影响，跳过后需要对审计服务进行检查。

若失败原因不在上述场景，请执行步骤6。

步骤 6 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

2、参数更新后未生效

故障现象

用户在参数修改页面更改了默认的GaussDB参数，但没有生效。分为两种情况：

l 更新完参数点“保存”，显示“更新参数失败”。

l 更新完参数点“保存”，显示“更新参数成功”，但没有生效。

故障原因

可能原因有以下：

l 部分参数更新后需要重启，用户没有重启数据库。

l 部分参数需要重新打开会话，用户没有关闭当前连接。

l 参数修改不合理，导致GaussDB故障。

l 部分参数不能写进配置文件，会自动还原。

l 实例故障。

处理方法

步骤 1 登录DBS运维管理平台。

步骤 2 选择“实例运维 > 实例管理”，筛选条件选择“实例ID”或“实例名称”，输入框中输入获取的实例ID或实例名称，执行搜索。

l 如果实例状态值为正常，且进入实例详情页面后，各节点状态值显示为正常，则实例正常，再进行下面的步骤3排查。

l 如果实例状态值异常，则实例故障，执行步骤5。

步骤 3 在上述页面重启数据库实例，当实例状态从“重启中”转为“正常”时，表明重启成功。重启完成后检查参数设置是否成功。

步骤 4 如上述步骤未成功，可能是参数值设置不正确，请查看《云数据库 GaussDB xxx 用户指南》中的“用户指南 > 实例管理 > 查看和修改参数”，了解参数值的正确设置方法后重新配置。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

3、数据库重启失败

故障现象

数据库重启失败。

故障原因

可能原因有以下：

管理面与节点网络不通。

处理方法

根据不同的故障场景修复故障实例。

步骤 1 使用浏览器，通过地址“https://ManageOne运维面主页的访问地址:31943”，登录ManageOne运维面，或通过地址“https://ManageOne主门户的访问地址”，登录ManageOne主门户，选择“运维中心（OC）”，进入ManageOne运维面。

l 密码方式：输入帐号和密码。

− 默认帐号：bss_admin

说明：

如果是升级场景，默认帐号为admin。

− 默认密码：参见《华为云Stack 8.3.0 帐户一览表》的“A类（Portal）”页签中，“ManageOne运维面”帐户对应的默认密码。

l USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

步骤 3 选择“实例运维 > 任务管理”，右上角筛选条件选择“实例ID”或“任务流ID”，输入框中输入获取的实例ID或工作流ID，执行搜索，查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 4 根据task执行结果，执行如下操作。

检查GaussDB Service是否可通过SSH连接到实例

1. 通过Service OM页面，点击“服务列表 > 计算资源”，登入到计算资源管理平台，搜索虚拟机，根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP。

2. 登录DBS运维管理平台，选择“实例运维 > 实例列表”，输入实例名称，执行搜索。

3. 单击步骤4.2中查询的实例名称，进入实例详情，在实例详情中查找“管理虚拟ip”，即GaussDB实例的管理VIP。

4. 在查询到的管理节点，执行ping命令，确认步骤4.3中GaussDB实例的管理VIP的网络是否正常。

− 若无法ping通，说明GaussDB Service到实例网络不通，请联系网络管理员首先排查网络故障。

− 若可ping通，说明GaussDB Service到实例网络可以连通。在Console页面，单击“重启”尝试再次重启数据库。若重启仍然失败，请联系技术人员解决。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

4、实例删除失败

故障现象

GaussDB实例删除失败。

故障原因

可能原因有以下：

GaussDB Service服务不正常，或者IAAS服务不正常，回收站备份失败。

处理方法

l 密码方式：输入帐号和密码。

− 默认帐号：bss_admin

说明：

如果是升级场景，默认帐号为admin。

− 默认密码：参见《华为云Stack 8.3.0 帐户一览表》的“A类（Portal）”页签中，“ManageOne运维面”帐户对应的默认密码。

l USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 4 根据task执行结果，定位不同的故障场景操作。

l 场景一：删除备份策略（Gaussdbv5BackupPolicyDeletionTask）执行失败。

按以下方法重启备份管理服务，排除备份管理服务故障后通过Service OM重做失败Task。

a. 以opsadmin用户名登入节点。

b. 执行以下指令，切换到root用户。

sudo su - root

c. 执行以下指令，切换到service用户。

su -  service

d. 执行如下命令，重启tomcat进程。

cd /opt/cloud/GaussDB-backupmanager/bin/

./shutdown.sh

./startup.sh

e. 在步骤步骤3的“树表”页面，单击Gaussdbv5BackupPolicyDeletionTask的下拉按钮，选择“重做”任务。

l 场景二：Iass删除资源失败（Gaussdbv5DeleteDBInstanceTask或下一个Task Gaussdbv5CheckVMDeletionResultTask执行失败），根据步骤3中展示的失败概览，分析失败原因。

− 如失败概览中有类似“network”“ping”的错误信息，表示网络不通，联系运维排查网络故障原因，解决网络问题后在步骤步骤3的“树表”页面，单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTask”task的下拉按钮，选择“重做”任务。

− 如失败概览中有类似“iaas”“ecs”的错误信息，表明是IASS服务异常，删除资源失败，联系运维排查IAAS故障原因，修复问题后在步骤步骤3的“树表”页面，单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTask”task的下拉按钮，选择“重做”任务。

l 场景三：回收站备份失败（Gaussdbv5RecycleBackupTask或下一个Gaussdbv5CheckRecycleBackupTask执行失败），查看子任务流并根据步骤3中展示的失败概览，分析失败原因。

− 如RdsExportDbStatusCheckTask执行失败，表示备份导出失败，检查环境到OBS的网络是否异常，联系运维排查备份失败原因，解决备份失败问题后在步骤3的“树表”页面，单击上述执行失败的“RdsExportDbInitTask”task的下拉按钮，选择“重做”任务。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

5、数据库密码重置失败

故障现象

数据库密码重置失败。

故障原因

可能原因有以下：

l GaussDBService无法通过SSH连接到实例。

l 密码重置发生在备份之后，执行恢复的时候，恢复成旧密码。

处理方法

步骤 1 通过Service OM页面，点击“服务列表 > 计算资源”，登入到计算资源管理平台。

步骤 2 可用分区选择“manage-az”，根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP。

步骤 3 登录DBS运维管理平台，选择“实例运维 > 实例管理”，筛选条件选择“实例ID”或“实例名称”，输入框中输入获取的实例ID或实例名称，执行搜索。

l 如果实例状态值为正常，则实例正常，再进行下面的步骤4排查。

l 如果实例状态值异常，则实例故障，执行步骤7。

步骤 4 单击步骤2中查询的实例名称，进入实例详情，在实例详情中查找“管理虚拟ip”，即GaussDB实例的管理VIP。

步骤 5 在步骤2查询到的管理节点，执行ping命令，确认步骤4中GaussDB实例的管理VIP的网络是否正常。

l 若无法ping通，说明管理节点到实例网络不通，请先排查网络故障。

l 若可以ping通，说明管理节点到实例网络可以连通，请执行步骤6。

步骤 6 在Console页面，重新执行“重置密码”。

步骤 7 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

6、创建前预检查资源及删除创建失败残留资源（BMS部署场景）

故障现象

创建BMS实例失败，在DBS运维管理平台树表中查询失败原因，失败原因中包含“No valid host was found。”字样，表示因为服务器资源不足，创建失败。

故障原因

可能的原因有以下：

l 底层BMS服务器资源不足。

l BMS未提供感知底层环境多少资源的接口，无法做precheck与预占。

处理方法

步骤 1 登录DBS运维管理平台。

步骤 2 根据实例ID筛选实例。

步骤 3 单击实例名称进入实例详情页。在详情页中查询实例所用的规格码。

如图所示，规格码为： gaussdb.opengauss.ee.bms.8xlarge.x868.ha

步骤 4 在“配置管理 > 规格管理 > 规格码”中输入步骤3中查询到的规格码。

步骤 5 单击操作列中的“更多 > 查看属性”。查看“flavor”的值，得到BMS规格码。

如图所示，得到BMS规格码：physical.opengauss.v3.32u.4

步骤 6 如果创建时报“No valid host”这个错误，需要登入运营面对该实例进行删除，释放资源。

步骤 7 登录Service OM。

步骤 8 选择“服务列表 > 裸金属服务器 > 规格”，找到BMS规格码：physical.opengauss.v3.32u.4 的使用情况。

如图所示，可以得到底层环境的使用情况：BMS对外提供physical.opengauss.v3.32u.4 规格的服务器有16台，已经使用15台。

步骤 9 在删除实例操作下发后之后，相应的资源将会被清理。

步骤 10 等待清理完成，确定每个AZ是否有足够资源。

例如创建混合部署（4副本），需要在 az10.dc2 az6.dc2 中有四台处于可部署状态， az8.dc2有一台处于可部署状态，即可创建。

步骤 11 如果每个AZ的资源都足够，直接在运营面登入帐号、密码登入，创建实例即可。

----结束

7、实例备份失败

故障现象

GaussDB实例备份失败。

故障原因

可能原因有以下：

l AK、SK不对或者AK、SK权限不够。

l 到OBS的网络异常。

l 实例虚拟机的时间与正常时间相差10分钟以上。

l 备份中进行了版本升级等等。

处理方法

l 密码方式：输入帐号和密码。

− 默认帐号：bss_admin

说明：

如果是升级场景，默认帐号为admin。

− 默认密码：参见《华为云Stack 8.3.0 帐户一览表》的“A类（Portal）”页签中，“ManageOne运维面”帐户对应的默认密码。

l USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 4 根据task执行结果，在不同故障场景下执行恢复备份操作。

l 场景一：备份文件导出失败（RdsExportDbStatusCheckTask执行失败），如果是此任务失败，因为可能原因众多，建议直接参考步骤5联系技术人员定位。

l 场景二：备份上报计量失败（RdsMeteringReportTask执行失败）。

修复方案：重试RdsMeteringReportTask，等待重试结果。如果仍然上报失败，请参考步骤5联系技术人员定位。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

8、设置备份策略失败

故障现象

GaussDB设置备份策略失败。

故障原因

可能原因有以下：

GaussDB 备份服务异常。

处理方法

步骤 1 登录DBS-GaussDB节点，使用以下命令查看GaussDB backup服务进程。

ps -ef | grep java | grep backup

步骤 2 如上述命令有结果返回，则服务进程正常,请重试设置备份策略操作。

步骤 3 若不存在，在service用户下输入如下命令启动进程。

su - service

cd /opt/cloud/<服务目录>/bin/

./startup.sh

步骤 4 再次执行“ps -aux |grep tomcat”查看tomcat进程是否存在。

步骤 5 如果依然无法启动进程，请联系技术人员进行处理。

----结束

9、恢复到新实例失败

故障现象

GaussDB恢复到新实例失败。

故障原因

可能原因有以下：

l 参数不合法，拒绝恢复新实例。

l 工作流异常，提交工作流失败。

l 创建虚拟机失败，或者资源管理服务报错。

l 虚拟机上初始化节点失败。

l 备份策略等信息错误导致的失败。

处理方法

l 密码方式：输入帐号和密码。

− 默认帐号：bss_admin

说明：

如果是升级场景，默认帐号为admin。

− 默认密码：参见《华为云Stack 8.3.0 帐户一览表》的“A类（Portal）”页签中，“ManageOne运维面”帐户对应的默认密码。

l USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 4 根据步骤3中任务执行结果，定位不同的故障场景操作。

l 场景一：创建服务器失败（CreateServersTaskV2执行失败），根据步骤3中展示的失败概览，分析失败原因。

− 如果步骤3的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。

修复方案：

说明：

查看对应内核版本的镜像ID是否为空，不同的实例对应不同的字段

x86环境：MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。

x86环境的BMS，ARM环境MCS及BMS对应“引擎资源管理”页面的“扩展镜像ID”列。

ii. 镜像ID为空，则单击对应版本所在行“编辑”，按照已有格式关联需要的镜像ID，镜像ID可通过Service OM平台的“服务列表 > 镜像资源”中查询获取，如下图所示。

图9-1 查询镜像ID

图9-2 编辑镜像ID

iii. 如镜像ID不为空，但在Service OM平台的镜像资源中查询不到该镜像ID，可能存在两种情况：

□ 该镜像未注册，此种情况需要注册镜像

□ 镜像已在service om中注册，但配置错误，此种情况需要点击对应版本“编辑”，按照已有格式更新对应版本的镜像ID，参见图9-2。

iv. 镜像ID不为空，且与service om的镜像ID一致，则需要排查镜像文件是否存在于obs桶中，如不存在，则需要重新注册镜像，如obs桶中镜像存在，则执行步骤5。

l 场景二：创建服务器失败（WaitCreateServersTask执行失败），根据步骤3中展示的失败概览，分析失败原因。

− 如果步骤3的失败原因中包含“not enough hosts”，则说明服务器资源不足。

修复方案：联系IaaS对计算资源扩容，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新下发恢复新实例。

− 如果步骤3的失败原因中包含“PlacementDiskFilter”，说明没有满足的磁盘资源。

修复方案：联系IaaS对磁盘进行扩容，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新下发恢复新实例。

− 如果步骤3的失败原因中包含“No more IP addresses available”，则说明IP资源不足。

修复方案：在虚拟私有云服务页面下释放实例所在子网下的空闲ip，然后在Console实例管理页面上，等待该实例状态显示为“创建失败”，删除实例，并重新下发恢复新实例。

l 场景三：校验网络连通性失败(VerifyCommunicationChannelTask失败），说明管控面网络与实例网络连通性存在问题，请联系网络技术人员，排查网络问题,确认网络恢复正常后，删除原有实例，重新下发恢复新实例。

l 场景四：Agent执行失败（SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败），根据步骤3中展示的失败概览，分析失败原因。

如果步骤3的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”，则可能是网络不通。

修复方案：联系运维排查网络故障原因，确认网络恢复正常后，然后，确认网络恢复正常后，删除原有实例，重新下发恢复新实例。

若失败原因不在上述场景，请执行步骤5。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

10、恢复到当前实例失败

故障现象

GaussDB恢复到当前实例失败。

故障原因

可能原因有以下：

l 工作流异常，提交工作流失败。

l 备份服务异常。

l Agent报错。

处理方法

l 密码方式：输入帐号和密码。

− 默认帐号：bss_admin

说明：

如果是升级场景，默认帐号为admin。

− 默认密码：参见《华为云Stack 8.3.0 帐户一览表》的“A类（Portal）”页签中，“ManageOne运维面”帐户对应的默认密码。

l USB Key方式：插入已预置用户证书的USB Key，选择设备和用户证书，并输入PIN码

步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警，并处理告警信息，获取告警中的实例ID（instance_id）或者工作ID。

“失败原因”列输出了失败时的程序错误日志。单击“树表”，则可以查看任务失败具体的环节。

步骤 4 根据task执行结果，在不同故障场景下执行恢复备份操作。

根据步骤3中展示的失败概览，分析失败原因。

l 场景一：备份文件导出失败（GaussDbv5ImportDbStatusCheckTask执行失败）。

修复方案：重试GaussDbV5ImportDbStatusCheckTask，等待重试结果。如果仍然导出失败，请联系运维处理。

l 场景二：上传备份文件失败恢复后关键全备失败（RdsBackupFileTask执行失败）。

修复方案：重试RdsBackupFileTask，等待重试结果。如果仍然备份失败，请联系运维处理。

l 场景三：恢复完成后释放HA锁失败（RdsInstanceHaStatusChangeGoodTask执行失败）。

修复方案：重试RdsInstanceHaStatusChangeGoodTask，等待重试结果。如果仍然备份失败，请联系运维处理。

步骤 5 若以上步骤仍不能解决问题，收集日志和告警信息，联系技术支持进行处理。

需要下载的日志信息有：

管理侧：

l DBS-GaussDB-backupmanager组件下的日志。

l DBS-GaussDB-instancemanager组件下的日志。

租户侧：

agent组件下的：

l /home/Ruby/log/agent.log

l /home/Ruby/log/asyncJobResult.dat

l /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的：/var/lib/log/Ruby

----结束

11、PITR可恢复时间停止推进

故障现象

GaussDB PITR的可恢复时间与当前时间差30分钟以上。

故障原因

可能原因有以下：

l OBS的网络异常。

l 归档速度慢于日志产生速度。

l 备份中进行了版本升级。

处理方法

步骤 1 登录集群第一个正常的CN节点。

查找第一个正常CN的步骤如下：

1. 登录任意一个正常节点。

2. 执行如下命令，导入环境变量。

source /home/Ruby/gauss_env_file

3. 执行如下指令查询集群状态。

cm_ctl query -Cvid

如图所示，查看状态正常的首个CN对应的IP，根据IP在DBS运维管理平台获取首个正常CN的节点ID。

步骤 2 执行如下命令，导入环境变量。

source /home/Ruby/gauss_env_file

步骤 3 执行如下指令，进入日志目录.

cd $GAUSSLOG/pg_log/cn_xxx

步骤 4 执行如下指令，根据时间戳，查看最新的日志。

vim postgresql-20xx-xx-xx_xxx.log

存在wait_status<xxx>字段，且app_name为<BarrierArch>时，说明归档日志慢导致的最大可恢复时间不推进，则需要降低或停止业务压力，等待归档日志推进到最新可恢复时间。

----结束

12、恢复新实例过程中重置密码步骤失败

故障现象

1.0.13版本老实例恢复到新实例，在重置密码步骤失败。

重置密码出现如下错误：

Usage: cmd_sender.py [options] cmd_sender.py: error: Command not specified.

由于1.0.13版本默认没有root用户，用户如果自己进行定义，不支持从管控进行重置，恢复到新实例时会出现reset password失败情形。

故障原因

可能原因有以下：

由于1.0.13版本默认没有root用户，用户如果自己进行定义，不支持从管控进行重置，恢复到新实例时会出现reset password失败情形。

故障恢复

步骤 1 对于恢复新实例重置密码失败，直接跳过该步骤即可，如需要进行重置密码操作，参考步骤2-步骤6处理。

步骤 2 登录实例节点。

步骤 3 使用root用户通过gsql连接数据库。

gsql -d database -p port -U username -W password -r

例如：分布式实例登录含有CN的节点后，使用gsql -d postgres -p 8000 -U root -W xxx -r 登录到数据库。

步骤 4 连接数据库后执行重置密码SQL。

alter user root identified by [new password] replace [old password];

例如：alter user root identified by "Gauss_xxxxx" replace "Gauss_xxx";

步骤 5 退出数据库。

步骤 6 使用root用户和新设置的密码，通过gsql连接数据库进行验证。

gsql -d database -p port -U root -W password -r

----结束

13、业务数据库量过大时节点替换执行时间过长处理

故障现象

数据库MCS部署形态的实例，在数据量过大时，节点替换时间过长。

故障原因

可能原因有以下：

内存被缓存占用过多，影响数据处理速度。

处理方法

步骤 1 登录Service OM。

步骤 2 进入“服务列表 > 计算资源 > 虚拟机”。

根据实例名称搜索对应虚拟机所在的主机

步骤 3 获取MCS主机的IP。

步骤 4 登录到MCS计算主机。

IP为步骤3获取的IP，账号和密码参考账户一览表获取。

步骤 5 查看vm_drop_cache.sh脚本。

ll /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh

步骤 6 执行如下命令，增加定时任务。

echo "*/5 * * * * root /bin/bash /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh  >/dev/null 2>&1" >> /etc/crontab

步骤 7 数据库build数据传输完成后，执行如下命令，关闭清理缓存任务。

sed -i "/vm_drop_cache/d" /etc/crontab

----结束

14、节点修复/替换失败

故障现象

管控面节点修复/替换任务流失败或手动执行gs_replace失败。

故障原因

可能原因有以下：

l 不满足节点修复/替换条件。

l 替换节点与当前集群内其他节点网络不通，端口不可用，磁盘异常，所有节点MTU值不一致。

说明：

节点修复不涉及。

l om_agent不存在或报错时间点om_agent进程没启动导致pssh/pscp不可用。

l 文件权限不足或二进制文件缺失。

处理方法

步骤 1 登录DBS运维管理平台，查看节点替换任务流，找到失败步骤以及任务流下发节点。

步骤 2 登录任务下发节点。

步骤 3 查看/home/Ruby/log/adaptor_log/om_adaptor.log日志中任务流开始时间点后，查找相关报错。

可搜索关键字ERROR,failed,Failed,GAUSS-等关键字快速检索，记录报错时间，如果没找到也可直接跳到下一步。

步骤 4 查看/home/Ruby/log/om_agent/agent.log日志，搜索任务流开始到结束时间点是否有报错日志，看报错日志中是否有关键信息。

步骤 5 查看GAUSSLOG/om/gs_replace_xxx.log，如果是最后一次执行节点修复失败，可直接在日志最后查看报错信息。此时报错信息中如果有某个节点执行失败，执行下一步。

步骤 6 登录报错节点，查看$GAUSSLOG/om/gs_local_xxx.log，到文件最后查看关键信息。

步骤 7 联系华为技术支持。

----结束

15、升级失败

故障现象

在下发升级命令后，升级任务返回失败，或者内核升级日志报错，或者升级任务卡死不结束。

故障原因

可能原因有以下：

l 升级om_agent失败。

l 升级任务流失败。

l 数据库内核升级失败。

处理方法

步骤 1 排查确认对业务是否有影响。

查询状态是否正常，是否出现磁盘满、网络不通等问题，若存在，根据CN故障处理，DN故障处理解决故障。

步骤 2 如果升级om_agent失败。

1. 根据变更记录或者告警信息，找到升级失败的实例，在DBS运维管理平台，找到升级任务流，若失败的任务流为GaussDBV5UpgradeOmAgent则说明升级om_agent失败。

2. 排查当前实例磁盘是否出现系统盘或数据盘满等问题，解决后重试任务流。

3. 查看任务流树表具体报错信息。

如果在WaitUpgradeOmAgentTask子任务之前失败，需要查看实例管理节点日志进行分析。

如果在WaitUpgradeOmAgentTask子任务失败，则需要登录到失败节点，确认om_agent进程是否存在。

ps ux | grep om_agent|grep -v grep

若不存在，说明进程没有正常拉起，此时需要联系华为技术支持，进一步分析om_agent进程未拉起原因。

步骤 3 升级任务流失败。

查看升级任务流，若失败的任务流为GaussDBV5UpgradeDatabase，点击树表进一步查看，若发现失败在UpgradeJob节点的WaitUpgradeResultTask子任务之前，可先重试任务流，若重试之后问题未解决，则表明任务流存在问题，需要联系华为技术支持进一步分析。

步骤 4 升级数据库内核失败。

1. 查看升级任务流，若失败的任务流为GaussDBV5UpgradeDatabase，点击树表进一步查看，若发现失败的为UpgradeJob节点的WaitUpgradeResultTask子任务，则是内核升级失败。

2. 从失败任务流中找到下发节点，登录该节点，进入到日志目录，然后查看gs_upgradectl-YYYY-MM-DD_HHmmss.log日志。

cd $GAUSSLOG/om

grep "ERROR" gs_upgradectl-YYYY-MM-DD_HHmmss.log

3. 若发现有与本次升级相近时间点的报错信息，则获取报错信息，联系华为技术支持。

----结束

16、备份失败

故障现象

l 云数据库 GaussDB 增量备份失败。

l 云数据库 GaussDB 手动全量备份失败。

l 云数据库 GaussDB 自动全量备份失败。

l 云数据库 GaussDB 自动差分备份失败。

故障原因

可能原因有以下：

l OBS问题：OBS网络不通， OBS负载异常等。

l 底层硬件问题：物理机重启等。

l 内核问题：大集群免密超时，业务压力大触发PITR逻辑复制槽强推。

l 误删文件导致全备持续失败。

l 备份期间集群状态不正常。

处理方法

步骤 1 登录DBS运维管理平台，实例管理页面，以实例ID搜索，找到备份失败实例。

步骤 2 进入实例明细，参考查看任务流，找到备份失败的任务流，进入树表，找到失败的步骤，点击操作，修改Context。

Gaussdbv5BackupDb表示全量备份，Gaussdbv5BackupDifference表示增量备份。

说明：

上图介绍步骤，非失败的任务流。

步骤 3 找到任务流下发节点，nodeid为下发节点。

如上图，804e2d36bf5b4c8ca124a24a4980001fno14为下发节点nodeid。

步骤 4 参考登录实例节点，登录下发节点。

步骤 5 查看adaptor日志，搜索Send backup request to node关键词。

cd /home/Ruby/log/adaptor_log

vim om_adaptor.log

Send backup request to node之后的ip表示该备份任务的master节点。

如上图，10.10.8.85为master节点。

步骤 6 登录master节点，进入到controller日志目录，搜索The backup node list is关键词，查找备份执行节点。

l 全量备份：

cd $GAUSSLOG/roach/controller

vim roach_controller-****-**-**_******.log

The backup node list is之后的ip表示备份执行节点。

如上图，10.10.8.85, 10.10.8.20为备份执行节点。

l 增量备份：

cd $GAUSSLOG/roach/controller_inc

步骤 7 登录各备份执行节点，节点列表为步骤6获取到的ip。

步骤 8 查看备份执行节点roach_agent日志。

l 全量备份：

cd $GAUSSLOG/roach/agent

l 增量备份：

cd $GAUSSLOG/roach/agent_inc

1. 搜索Started Roach process关键词，表示本节点开始执行本次备份。

如上图，Started Roach process表示本节点开始执行备份。

2. 搜索Roach Statistics start关键词，表示本节点执行本次备份结束。

如上图，Roach Statistics start汇总备份执行信息，当前节点备份执行结束。

以上步骤介绍如何查找下发节点、master节点，备份执行节点列表。

步骤 9 查看备份进度（本步骤可选）。

在备份master节点执行以下命令。

ps ux | grep roach  # 获取--metadata-destination

cd /var/chroot/var/lib/log/backup/metadata/roach/backup_key

cat .roach_task_progress.dat

步骤 10 针对不同报错，进行后续处理。

1. 增量备份，数据文件分批次超过范围问题。

agent节点roach_agent日志报错：error message is Provided partNumber within integer range。

原因：此问题为单次增量备份集过大，导致分10000批次，未能将备份集上传完，所以报错，此问题为bug。

临时规避办法：临时规避办法为手动创建一个全量备份，之后增量备份会成功。

最终解决办法：内核V500R002C10SPC630及以后版本修复。

2. OBS连接超时问题。

l agent节点roach_agent日志报错：ERROR:responseCompleteCallback error message is The server did not receive a complete request message within the time that it was prepared to wait. [adapter/roach_obs_interface.c:242]。

l 问题节点查看obs日志，搜索ERROR日志。

cd $GAUSSLOG/bin/gs_obs目录下的日志，报如下错误：

vim gs_obs_run.log

报错：WARN:Code: RequestTimeout

原因：备份执行节点到OBS网络不通。

临时规避办法：此问题无法临时规避，需排查及解决网络问题。

最终解决办法：排查及解决网络问题。

3. OBS负载异常问题。

备份执行节点roach_agent日志报错：[OBS] Error: ErrorUnknown [adapter/roach_obs_interface.c:692]。

查看对应节点obs日志，报错如下：

原因：OBS负载异常。

临时规避办法：此问题无法临时规避，需排查及解决OBS负载问题。

最终解决办法：排查及解决OBS负载问题。

4. 集群免密超时问题。

master节点om_agent日志报错：[ERROR] check_time_out(free_login_common:155) Failed to execute cmd。

原因：此问题为增备任务下发时，同时下发开启集群免密的命令，集群免密开启失败，从而导致增备执行失败。

临时规避办法：

a.确认备份master节点上，切换到Ruby用户，后台备份进程是否存在。

ps ux | grep roach

− 若备份进程存在，则需先停止备份任务流，然后继续2)。

− 若备份不存在，继续b。

b.执行以下命令，停止备份进程。

python3 /usr/local/tool/script/GaussRoach.py -t stop

c.修改备份master节点脚本。

sed -i '146s/retry_times < 5/retry_times < 2/' /dbs/om-agent/agent_92629/common/free_login_common.py

sed -i '150s/val = result.get(60)/val = result.get(250)/' /dbs/om-agent/agent_92629/common/free_login_common.py

d.重启om-agent。

ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep | awk '{print \$2}' | xargs kill -9

e.检查om-agent是否启动成功。

ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep

f.重试备份任务流，或者等自动执行增备即可。

最终解决办法：内核503.0.RC1及以后版本修复。

5. 集群状态异常问题。

master节点roach-controller日志报错：[ERROR]:cluster state is unavaliable, try to stop resume backup。

原因：集群状态unavaliable导致备份无法下发。

临时规避办法：此问题无法临时规避，需排查及修复集群后继续备份任务。

最终解决办法：排查及修复集群后继续备份任务。

----结束

17、OM_Agent安装失败

故障现象

安装OM_Agent，安装失败，上报错误信息。

故障原因

可能原因有以下：

l OM_Agent已安装，无法检测到相关进程。

l OM_Agent启动失败。

l 安装用户无crontab权限。

l 安装用户无文件目录权限。

处理方法

步骤 1 执行如下命令查看om_agent日志，确认失败原因。

vim /home/Ruby/log/om_agent/agent.log

常见原因如下：

l Failed to start om agent：OM_Agent进程启动失败，请执行步骤2处理。

l Failed to do crontab info：无crontab权限，请执行步骤3处理。

l permission denied：无文件目录权限，请执行步骤4处理。

l 其他原因，请联系华为技术支持。

步骤 2 （可选）OM_Agent进程启动失败处理：

l 检查/dbs/om-agent/agent_xxx/common/目录下是否存在public_cloud.conf文件：若存在，请执行#ZH-CN_TOPIC_0000001731205641/zh-cn_topic_0000001562637417_li124457233505。若不存在，则需要配置该文件，配置完成后重新安装OM_Agent。配置方法可以参考同目录下的public_cloud.conf.sample文件进行参考配置。

l 执行ps ax | grep agent命令查看是否存在agent进程：若存在，则可以正常使用OM_Agent，安装时检测不到agent进程不影响正常使用。若不存在，请执行python3 /dbs/om-agent/agent_xxx/om_agent.py命令手动启动OM_Agent。

步骤 3 （可选）使用root用户（若操作用户为非root用户，请执行su - root)，执行命令echo “Ruby” >> /etc/cron.allow，将Ruby用户添加至crontab命令名单中，完成操作后重新安装OM_Agent。

步骤 4 （可选）使用root用户（若操作用户为非root用户，请执行su - root)，执行如下命令创建文件夹、并修改属主和属组，完成后重新安装OM_Agent。

mkdir -p xxx
chown -R Ruby:Ruby xxx

----结束

18、数据库安装失败

故障现象

安装数据库集群，安装失败，上报错误信息。

故障原因

可能原因有以下：

l OM_Agent已安装，无法检测到相关进程。

l OM_Agent启动失败。

l 安装用户无crontab权限。

l 安装用户无文件目录权限。

处理方法

步骤 1 执行如下命令查看om_agent日志，确认失败原因。

vim /home/Ruby/log/om_agent/agent.log

常见原因如下：

l Failed to do decompress package Adaptor path is xxx：预安装解包失败，请执行步骤2处理。

l available_zone is incorrect：安装包部署方式与配置部署方式不一致，请执行步骤3处理。

l no route to host：防火墙或网络问题，请执行步骤4处理。

l The ssl_server_crt_files does not exist：SSL证书问题，

l 其他原因，请联系华为技术支持。

步骤 2 （可选）预安装解包失败处理：

l 检查om_agent安装路径下，默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中，adaptorDir配置项是否为正确adaptor路径。

l 检查om_agent安装路径下，默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中，pkgDir路径是否存在，且集群用户拥有权限可以进入。

l 检查json中配置的包路径以及包名是否正确。

l 查看安装包的压缩是否符合规范。使用tar --no-same-owner --strip-components 1 -xf“安装包”，应在当前目录生成GaussDB-Kernel_503.1.XXX_***_***_Distributed.tar.gz和GaussDB-Kernel_xxx_Om_xxx.tar.gz的压缩包。

步骤 3 （可选）确认部署方式：

l 检查安装包部署方式与安装配置文件中部署方式是否一致：若一致，请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1820100121114。若不一致，请修改后重新安装。

l 若此前安装过数据库，可能为环境变量问题导致，清除/home/Ruby/.bashrc，/home/Ruby/gauss_env_file中的GPHOME环境变量，并重新安装。

步骤 4 （可选）根据日志判断启动ETCD遇到的问题，进行相应处理。

若日志报错存在no route to host，则为网络通讯异常，可能为防火墙配置问题导致。使用iptables -L 和 systemctl status firewalld.service 命令查看防火墙状态，并检查配置，或关闭防火墙，完成后重新安装。

若日志报错存在context deadline exceeded，则可能为节点间时间不一致，导致ETCD安全认证失效无法连接，可以使用gs_ssh -c date命令查看集群各个节点的时间是否一致。若一致，请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1352912137141。若不一致，请修改一致后重新安装。

若出现其余状况，请联系华为技术支持。

步骤 5 （可选）在安装OM_Agent时，om_agent.conf配置文件中存在agent_ssl配置项，该项为agent_ssl证书存放路径，若该路径下无相关证书，则会导致ssl认证异常，无法安装。在相关路径下增添ssl文件，具体操作参考《安装指南》中“安装前准备 > 生成集群安装所需要的证书”章节进行操作。

----结束

19、升级失败

故障现象

在运维人员下发升级命令后，升级任务返回失败，或者内核升级日志报错。

原因分析

可能的原因如下：

l 升级的目标版本和当前的基线版本一致，禁止升级。

l 集群组件升级失败。

l 由于部分DN集群状态不正常，导致数据库升级失败。

l 系统表、系统视图或者系统函数升级失败。

处理方法

以下问题场景均以沙箱环境举例：

步骤 1 查看对应时间点的agent.log日志确认升级请求是否发送到内核。若包含关键词“upgrade command”，则执行步骤2；否则请联系华为技术支持。

cd /home/Ruby/log/om_agent  # 到agent.log日志目录
grep -rn "upgrade command" agent.log  # 根据对应下发升级请求时间，若查询到内容，说明升级请求已发送到内核

步骤 2 升级原因排查：

l 打开对应时间点的gs_upgradectl-*.log日志，查看目标版本是否正确。若正确，则执行步骤2.c；若不正确，请修改目标版本后重新进行升级操作。

l 日志中若包含如下信息，说明升级的目标版本和当前的基线版本一致，则禁止升级。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn “New cluster commitid cannot be same with old cluster commitid” gs_upgradectl-*.log

l 打开对应时间点的gs_upgradectl-*.log，日志中有"ERROR"或者"NOTICE: Failed to upgrade"或者"Failed to do inplace upgrade"关键词，根据步骤3-步骤5进一步确认并处理。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "NOTICE: Failed to upgrade" gs_upgradectl-*.log
grep -rn "Failed to do inplace upgrade" gs_upgradectl-*.log

步骤 3 （可选）确认是否由于集群状态不正常，导致升级失败，打开对应时间点的gs_upgradectl-*.log日志查看若包含如下内容，请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to roll switch all process by list" gs_upgradectl-*.log

步骤 4 （可选）打开对应时间点的gs_upgradectl-*.log日志，若包含如下关键词，说明DN故障，请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to get primary DN connection" gs_upgradectl-*.log

步骤 5 （可选）打开对应时间点的gs_upgradectl-*.log日志，若日志中有如下错误信息，说明系统表、系统视图或者系统函数升级失败，请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to execute update sql file" gs_upgradectl-*.log

步骤 6 问题解决后，打开对应时间点的gs_upgradectl-*.log日志，若日志中有如下信息，说明可重入升级，否则请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "NOTICE: Rollback succeeded" gs_upgradectl-*.log

----结束

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

云数据库 GaussDB 故障案例库-2

1、实例创建失败

2、参数更新后未生效

3、数据库重启失败

4、实例删除失败

5、数据库密码重置失败

6、创建前预检查资源及删除创建失败残留资源（BMS部署场景）

7、实例备份失败

8、设置备份策略失败

9、恢复到新实例失败

10、恢复到当前实例失败

11、PITR可恢复时间停止推进

13、业务数据库量过大时节点替换执行时间过长处理

14、节点修复/替换失败

15、升级失败

16、备份失败

17、OM_Agent安装失败

18、数据库安装失败

19、升级失败

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品