云数据库 GaussDB 故障案例库-2
1、实例创建失败
- 故障现象
GaussDB实例创建失败。
- 故障原因
可能原因有以下:
GaussDB Service服务不正常,或者IAAS服务不正常。
- 处理方法
步骤 1 使用浏览器,登录ManageOne运维面。
l 登录地址:https://ManageOne运维面主页的访问地址:31943。例如,https://oc.type.com:31943。
l 默认帐号:admin。默认密码可在《华为云Stack 帐户一览表》中“A类Portal”页签,产品名称为“ManageOne”,帐户登录界面名称为“ManageOne 运维面”获取。
注意:为了您的帐户安全,请定期修改密码。
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 登录DBS运维管理平台。
步骤 4 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 5 根据步骤4中任务执行结果,定位不同的故障场景操作。
l 场景一:创建服务器失败(CreateServersTaskV2执行失败),根据步骤4中展示的失败概览,分析失败原因。
− 如果步骤4的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。
修复方案:
i. 登录DBS运维管理平台,在“实例运维 > 配置管理 > 引擎资源管理”页面,引擎名称选择“GaussDB”,单击“查询”,查看对应内核版本的镜像ID是否为空,如下图所示:

查看对应内核版本的镜像ID是否为空,不同的实例对应不同的字段
x86环境:MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。
x86环境的BMS,ARM环境MCS及BMS对应“引擎资源管理”页面的“扩展镜像ID”列。
ii. 镜像ID为空,则单击对应版本所在行“编辑”,按照已有格式关联需要的镜像ID,镜像ID可通过Service OM平台的“服务列表 > 镜像资源 > 镜像列表”中查询获取,如下图所示。
图1-1 查询镜像ID
图1-2 编辑镜像ID
iii. 如镜像ID不为空,但在Service OM平台的镜像资源中查询不到该镜像ID,可能存在两种情况:
□ 该镜像未注册,此种情况需要注册镜像,请联系技术支持。
□ 镜像已在service om中注册,但配置错误,此种情况需要点击对应版本“编辑”,按照已有格式更新对应版本的镜像ID,参见图1-2。
iv. 镜像ID不为空,且与ServiceOM的镜像ID一致,则需要排查镜像文件是否存在于OBS桶中,如不存在,则需要重新注册镜像,如OBS桶中镜像存在,则执行步骤6。
l 场景二:创建服务器失败(WaitCreateServersTask执行失败),根据步骤4中展示的失败概览,分析失败原因。
− 如果步骤4的失败原因中包含“not enough hosts”,则说明服务器资源不足。
修复方案:联系IaaS对计算资源扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。
− 如果步骤4的失败原因中包含“PlacementDiskFilter”,说明没有满足的磁盘资源。
修复方案:联系IaaS对磁盘进行扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。
− 如果步骤4的失败原因中包含“No more IP addresses available”,则说明IP资源不足。
修复方案:在Console页面服务列表下,选择“网络 > 虚拟私有云”服务,释放实例所在子网下的空闲ip,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。
须知:
如果创建服务器失败,可能存在底层返回信息不完整无法删除残留资源的场景,需要在实例运维 > 租户管理 > 残留资源统计页面,单击对应用户名名称,批量删除残留资源。

l 场景三:Agent执行失败(SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败),根据步骤4中展示的失败概览,分析失败原因。
如果步骤4的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”,则可能是网络不通。
修复方案:联系运维排查网络故障原因,确认网络恢复正常后,重新创建实例。
l 场景四:报送审计服务失败(NotifyToCTSTask失败)。
报送审计失败,对实例无影响,但是需要检查审计服务是否正常。
修复方案:在“树表”页面,单击NotifyToCTSTask的下拉按钮,选择跳过任务,跳过NotifyToCTSTask,等待任务执行成功。审计是对事件进行记录,跳过审计步骤对实例无影响,跳过后需要对审计服务进行检查。
若失败原因不在上述场景,请执行步骤6。
步骤 6 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
2、参数更新后未生效
- 故障现象
用户在参数修改页面更改了默认的GaussDB参数,但没有生效。分为两种情况:
l 更新完参数点“保存”,显示“更新参数失败”。
l 更新完参数点“保存”,显示“更新参数成功”,但没有生效。
- 故障原因
可能原因有以下:
l 部分参数更新后需要重启,用户没有重启数据库。
l 部分参数需要重新打开会话,用户没有关闭当前连接。
l 参数修改不合理,导致GaussDB故障。
l 部分参数不能写进配置文件,会自动还原。
l 实例故障。
- 处理方法
步骤 1 登录DBS运维管理平台。
步骤 2 选择“实例运维 > 实例管理”,筛选条件选择“实例ID”或“实例名称”,输入框中输入获取的实例ID或实例名称,执行搜索。

l 如果实例状态值为正常,且进入实例详情页面后,各节点状态值显示为正常,则实例正常,再进行下面的步骤3排查。
l 如果实例状态值异常,则实例故障,执行步骤5。
步骤 3 在上述页面重启数据库实例,当实例状态从“重启中”转为“正常”时,表明重启成功。重启完成后检查参数设置是否成功。

步骤 4 如上述步骤未成功,可能是参数值设置不正确,请查看《云数据库 GaussDB xxx 用户指南》中的“用户指南 > 实例管理 > 查看和修改参数”,了解参数值的正确设置方法后重新配置。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
3、数据库重启失败
- 故障现象
数据库重启失败。
- 故障原因
可能原因有以下:
管理面与节点网络不通。
- 处理方法
根据不同的故障场景修复故障实例。
步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
l 密码方式:输入帐号和密码。
− 默认帐号:bss_admin
说明:
如果是升级场景,默认帐号为admin。
− 默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。
l USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 4 根据task执行结果,执行如下操作。
检查GaussDB Service是否可通过SSH连接到实例
1. 通过Service OM页面,点击“服务列表 > 计算资源”,登入到计算资源管理平台,搜索虚拟机,根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP。

2. 登录DBS运维管理平台,选择“实例运维 > 实例列表”, 输入实例名称,执行搜索。

3. 单击步骤4.2中查询的实例名称,进入实例详情,在实例详情中查找“管理虚拟ip”,即GaussDB实例的管理VIP。

4. 在查询到的管理节点,执行ping命令,确认步骤4.3中GaussDB实例的管理VIP的网络是否正常。
− 若无法ping通,说明GaussDB Service到实例网络不通,请联系网络管理员首先排查网络故障。
− 若可ping通,说明GaussDB Service到实例网络可以连通。在Console页面,单击“重启”尝试再次重启数据库。若重启仍然失败,请联系技术人员解决。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
4、实例删除失败
- 故障现象
GaussDB实例删除失败。
- 故障原因
可能原因有以下:
GaussDB Service服务不正常,或者IAAS服务不正常,回收站备份失败。
- 处理方法
步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
l 密码方式:输入帐号和密码。
− 默认帐号:bss_admin
说明:
如果是升级场景,默认帐号为admin。
− 默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。
l USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 4 根据task执行结果,定位不同的故障场景操作。
l 场景一:删除备份策略(Gaussdbv5BackupPolicyDeletionTask)执行失败。
按以下方法重启备份管理服务,排除备份管理服务故障后通过Service OM重做失败Task。
a. 以opsadmin用户名登入节点。
b. 执行以下指令,切换到root用户。
sudo su - root
c. 执行以下指令,切换到service用户。
su - service
d. 执行如下命令,重启tomcat进程。
cd /opt/cloud/GaussDB-backupmanager/bin/
./shutdown.sh
./startup.sh
e. 在步骤步骤3的“树表”页面,单击Gaussdbv5BackupPolicyDeletionTask的下拉按钮,选择“重做”任务。
l 场景二:Iass删除资源失败(Gaussdbv5DeleteDBInstanceTask或下一个Task Gaussdbv5CheckVMDeletionResultTask执行失败),根据步骤3中展示的失败概览,分析失败原因。
− 如失败概览中有类似“network”“ping”的错误信息,表示网络不通,联系运维排查网络故障原因,解决网络问题后在步骤步骤3的“树表”页面,单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTask”task的下拉按钮,选择“重做”任务。
− 如失败概览中有类似“iaas”“ecs”的错误信息,表明是IASS服务异常,删除资源失败,联系运维排查IAAS故障原因,修复问题后在步骤步骤3的“树表”页面,单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTask”task的下拉按钮,选择“重做”任务。
l 场景三:回收站备份失败(Gaussdbv5RecycleBackupTask或下一个Gaussdbv5CheckRecycleBackupTask执行失败),查看子任务流并根据步骤3中展示的失败概览,分析失败原因。
− 如RdsExportDbStatusCheckTask执行失败,表示备份导出失败,检查环境到OBS的网络是否异常,联系运维排查备份失败原因,解决备份失败问题后在步骤3的“树表”页面,单击上述执行失败的“RdsExportDbInitTask”task的下拉按钮,选择“重做”任务。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
5、数据库密码重置失败
- 故障现象
数据库密码重置失败。
- 故障原因
可能原因有以下:
l GaussDBService无法通过SSH连接到实例。
l 密码重置发生在备份之后,执行恢复的时候,恢复成旧密码。
- 处理方法
步骤 1 通过Service OM页面,点击“服务列表 > 计算资源”,登入到计算资源管理平台。
步骤 2 可用分区选择“manage-az”,根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP。

步骤 3 登录DBS运维管理平台,选择“实例运维 > 实例管理”,筛选条件选择“实例ID”或“实例名称”,输入框中输入获取的实例ID或实例名称,执行搜索。

l 如果实例状态值为正常,则实例正常,再进行下面的步骤4排查。
l 如果实例状态值异常,则实例故障,执行步骤7。
步骤 4 单击步骤2中查询的实例名称,进入实例详情,在实例详情中查找“管理虚拟ip”,即GaussDB实例的管理VIP。

步骤 5 在步骤2查询到的管理节点,执行ping命令,确认步骤4中GaussDB实例的管理VIP的网络是否正常。
l 若无法ping通,说明管理节点到实例网络不通,请先排查网络故障。
l 若可以ping通,说明管理节点到实例网络可以连通,请执行步骤6。
步骤 7 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
6、创建前预检查资源及删除创建失败残留资源(BMS部署场景)
- 故障现象
创建BMS实例失败,在DBS运维管理平台树表中查询失败原因,失败原因中包含“No valid host was found。”字样,表示因为服务器资源不足,创建失败。

- 故障原因
可能的原因有以下:
l 底层BMS服务器资源不足。
l BMS未提供感知底层环境多少资源的接口,无法做precheck与预占。
- 处理方法
步骤 1 登录DBS运维管理平台。
步骤 2 根据实例ID筛选实例。

步骤 3 单击实例名称进入实例详情页。在详情页中查询实例所用的规格码。

如图所示,规格码为: gaussdb.opengauss.ee.bms.8xlarge.x868.ha
步骤 4 在“配置管理 > 规格管理 > 规格码”中输入步骤3中查询到的规格码。

步骤 5 单击操作列中的“更多 > 查看属性”。查看“flavor”的值,得到BMS规格码。
如图所示,得到BMS规格码:physical.opengauss.v3.32u.4

步骤 6 如果创建时报“No valid host”这个错误,需要登入运营面对该实例进行删除,释放资源。
步骤 7 登录Service OM。
步骤 8 选择“服务列表 > 裸金属服务器 > 规格”,找到BMS规格码:physical.opengauss.v3.32u.4 的使用情况。
如图所示,可以得到底层环境的使用情况:BMS对外提供physical.opengauss.v3.32u.4 规格的服务器有16台,已经使用15台。

步骤 9 在删除实例操作下发后之后,相应的资源将会被清理。

步骤 10 等待清理完成,确定每个AZ是否有足够资源。
例如创建混合部署(4副本), 需要在 az10.dc2 az6.dc2 中有四台处于可部署状态, az8.dc2有一台处于可部署状态,即可创建 。
步骤 11 如果每个AZ的资源都足够,直接在运营面登入帐号、密码登入,创建实例即可。
----结束
7、实例备份失败
- 故障现象
GaussDB实例备份失败。
- 故障原因
可能原因有以下:
l AK、SK不对 或者AK、SK权限不够 。
l 到OBS的网络异常。
l 实例虚拟机的时间与正常时间相差10分钟以上。
l 备份中进行了版本升级等等。
- 处理方法
步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
l 密码方式:输入帐号和密码。
− 默认帐号:bss_admin
说明:
如果是升级场景,默认帐号为admin。
− 默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。
l USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 4 根据task执行结果,在不同故障场景下执行恢复备份操作。
l 场景一:备份文件导出失败(RdsExportDbStatusCheckTask执行失败),如果是此任务失败,因为可能原因众多,建议直接参考步骤5联系技术人员定位。
l 场景二:备份上报计量失败(RdsMeteringReportTask执行失败)。
修复方案:重试RdsMeteringReportTask,等待重试结果。如果仍然上报失败,请参考步骤5联系技术人员定位。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
8、设置备份策略失败
- 故障现象
GaussDB设置备份策略失败。
- 故障原因
可能原因有以下:
GaussDB 备份服务异常。
- 处理方法
步骤 1 登录DBS-GaussDB节点,使用以下命令查看GaussDB backup服务进程。
ps -ef | grep java | grep backup
步骤 2 如上述命令有结果返回,则服务进程正常,请重试设置备份策略操作。
步骤 3 若不存在,在service用户下输入如下命令启动进程。
su - service
cd /opt/cloud/<服务目录>/bin/
./startup.sh
步骤 4 再次执行“ps -aux |grep tomcat”查看tomcat进程是否存在。
步骤 5 如果依然无法启动进程,请联系技术人员进行处理。
----结束
9、恢复到新实例失败
- 故障现象
GaussDB恢复到新实例失败。
- 故障原因
可能原因有以下:
l 参数不合法,拒绝恢复新实例。
l 工作流异常,提交工作流失败。
l 创建虚拟机失败,或者资源管理服务报错。
l 虚拟机上初始化节点失败。
l 备份策略等信息错误导致的失败。
- 处理方法
步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
l 密码方式:输入帐号和密码。
− 默认帐号:bss_admin
说明:
如果是升级场景,默认帐号为admin。
− 默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。
l USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 4 根据步骤3中任务执行结果,定位不同的故障场景操作。
l 场景一:创建服务器失败(CreateServersTaskV2执行失败),根据步骤3中展示的失败概览,分析失败原因。
− 如果步骤3的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。
修复方案:
i. 登录DBS运维管理平台,在“实例运维 > 配置管理 > 引擎资源管理”页面,引擎名称选择“GaussDB”,单击“查询”,查看对应内核版本的镜像ID是否为空,如下图所示:

说明:
查看对应内核版本的镜像ID是否为空,不同的实例对应不同的字段
x86环境:MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。
x86环境的BMS,ARM环境MCS及BMS对应“引擎资源管理”页面的“扩展镜像ID”列。
ii. 镜像ID为空,则单击对应版本所在行“编辑”,按照已有格式关联需要的镜像ID,镜像ID可通过Service OM平台的“服务列表 > 镜像资源”中查询获取,如下图所示。
图9-1 查询镜像ID


iii. 如镜像ID不为空,但在Service OM平台的镜像资源中查询不到该镜像ID,可能存在两种情况:
□ 该镜像未注册,此种情况需要注册镜像
□ 镜像已在service om中注册,但配置错误,此种情况需要点击对应版本“编辑”,按照已有格式更新对应版本的镜像ID,参见图9-2。
iv. 镜像ID不为空,且与service om的镜像ID一致,则需要排查镜像文件是否存在于obs桶中,如不存在,则需要重新注册镜像,如obs桶中镜像存在,则执行步骤5。
l 场景二:创建服务器失败(WaitCreateServersTask执行失败),根据步骤3中展示的失败概览,分析失败原因。
− 如果步骤3的失败原因中包含“not enough hosts”,则说明服务器资源不足。
修复方案:联系IaaS对计算资源扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。
− 如果步骤3的失败原因中包含“PlacementDiskFilter”,说明没有满足的磁盘资源。
修复方案:联系IaaS对磁盘进行扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。
− 如果步骤3的失败原因中包含“No more IP addresses available”,则说明IP资源不足。
修复方案:在虚拟私有云服务页面下释放实例所在子网下的空闲ip,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。
l 场景三:校验网络连通性失败(VerifyCommunicationChannelTask失败),说明管控面网络与实例网络连通性存在问题,请联系网络技术人员,排查网络问题,确认网络恢复正常后,删除原有实例,重新下发恢复新实例。
l 场景四:Agent执行失败(SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败),根据步骤3中展示的失败概览,分析失败原因。
如果步骤3的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”,则可能是网络不通。
修复方案:联系运维排查网络故障原因,确认网络恢复正常后,然后,确认网络恢复正常后,删除原有实例,重新下发恢复新实例。
若失败原因不在上述场景,请执行步骤5。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
10、恢复到当前实例失败
- 故障现象
GaussDB恢复到当前实例失败。
- 故障原因
可能原因有以下:
l 工作流异常,提交工作流失败。
l 备份服务异常。
l Agent报错。
- 处理方法
步骤 1 使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。
l 密码方式:输入帐号和密码。
− 默认帐号:bss_admin
说明:
如果是升级场景,默认帐号为admin。
− 默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。
l USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN码
步骤 2 在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例ID(instance_id)或者工作ID。

步骤 3 选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

步骤 4 根据task执行结果,在不同故障场景下执行恢复备份操作。
根据步骤3中展示的失败概览,分析失败原因。
l 场景一:备份文件导出失败(GaussDbv5ImportDbStatusCheckTask执行失败)。
修复方案:重试GaussDbV5ImportDbStatusCheckTask,等待重试结果。如果仍然导出失败,请联系运维处理。
l 场景二:上传备份文件失败恢复后关键全备失败(RdsBackupFileTask执行失败)。
修复方案:重试RdsBackupFileTask,等待重试结果。如果仍然备份失败,请联系运维处理。
l 场景三:恢复完成后释放HA锁失败(RdsInstanceHaStatusChangeGoodTask执行失败)。
修复方案:重试RdsInstanceHaStatusChangeGoodTask,等待重试结果。如果仍然备份失败,请联系运维处理。
步骤 5 若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。
需要下载的日志信息有:
管理侧:
l DBS-GaussDB-backupmanager组件下的日志。
l DBS-GaussDB-instancemanager组件下的日志。
租户侧:
agent组件下的:
l /home/Ruby/log/agent.log
l /home/Ruby/log/asyncJobResult.dat
l /home/Ruby/log/om_agent/agent.log
GaussDB Kernel组件下的:/var/lib/log/Ruby
----结束
11、PITR可恢复时间停止推进
- 故障现象
GaussDB PITR的可恢复时间与当前时间差30分钟以上。
- 故障原因
可能原因有以下:
l OBS的网络异常。
l 归档速度慢于日志产生速度。
l 备份中进行了版本升级。
- 处理方法
步骤 1 登录集群第一个正常的CN节点。
查找第一个正常CN的步骤如下:
1. 登录任意一个正常节点。
2. 执行如下命令,导入环境变量。
source /home/Ruby/gauss_env_file
3. 执行如下指令查询集群状态。
cm_ctl query -Cvid

如图所示,查看状态正常的首个CN对应的IP,根据IP在DBS运维管理平台获取首个正常CN的节点ID。

步骤 2 执行如下命令,导入环境变量。
source /home/Ruby/gauss_env_file
步骤 3 执行如下指令,进入日志目录.
cd $GAUSSLOG/pg_log/cn_xxx
步骤 4 执行如下指令,根据时间戳,查看最新的日志。
vim postgresql-20xx-xx-xx_xxx.log

存在wait_status<xxx>字段,且app_name为<BarrierArch>时,说明归档日志慢导致的最大可恢复时间不推进,则需要降低或停止业务压力,等待归档日志推进到最新可恢复时间。
----结束
12、恢复新实例过程中重置密码步骤失败
-
故障现象
1.0.13版本老实例恢复到新实例,在重置密码步骤失败。
重置密码出现如下错误:
Usage: cmd_sender.py [options] cmd_sender.py: error: Command not specified.
由于1.0.13版本默认没有root用户,用户如果自己进行定义,不支持从管控进行重置,恢复到新实例时会出现reset password失败情形。
- 故障原因
可能原因有以下:
由于1.0.13版本默认没有root用户,用户如果自己进行定义,不支持从管控进行重置,恢复到新实例时会出现reset password失败情形。
- 故障恢复
步骤 1 对于恢复新实例重置密码失败,直接跳过该步骤即可,如需要进行重置密码操作,参考步骤2-步骤6处理。
步骤 3 使用root用户通过gsql连接数据库。
gsql -d database -p port -U username -W password -r
例如:分布式实例登录含有CN的节点后,使用gsql -d postgres -p 8000 -U root -W xxx -r 登录到数据库。
步骤 4 连接数据库后执行重置密码SQL。
alter user root identified by [new password] replace [old password];
例如:alter user root identified by "Gauss_xxxxx" replace "Gauss_xxx";
步骤 5 退出数据库。
\q
步骤 6 使用root用户和新设置的密码,通过gsql连接数据库进行验证。
gsql -d database -p port -U root -W password -r
----结束
13、业务数据库量过大时节点替换执行时间过长处理
- 故障现象
数据库MCS部署形态的实例,在数据量过大时,节点替换时间过长。
- 故障原因
可能原因有以下:
内存被缓存占用过多,影响数据处理速度。
- 处理方法
步骤 1 登录Service OM。
步骤 2 进入“服务列表 > 计算资源 > 虚拟机”。
根据实例名称搜索对应虚拟机所在的主机


步骤 4 登录到MCS计算主机。
IP为步骤3获取的IP,账号和密码参考账户一览表获取。
步骤 5 查看vm_drop_cache.sh脚本。
ll /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh

步骤 6 执行如下命令,增加定时任务。
echo "*/5 * * * * root /bin/bash /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh >/dev/null 2>&1" >> /etc/crontab
步骤 7 数据库build数据传输完成后,执行如下命令,关闭清理缓存任务。
sed -i "/vm_drop_cache/d" /etc/crontab

----结束
14、节点修复/替换失败
- 故障现象
管控面节点修复/替换任务流失败或手动执行gs_replace失败。
- 故障原因
可能原因有以下:
l 不满足节点修复/替换条件。
l 替换节点与当前集群内其他节点网络不通,端口不可用,磁盘异常,所有节点MTU值不一致。
说明:
节点修复不涉及。
l om_agent不存在或报错时间点om_agent进程没启动导致pssh/pscp不可用。
l 文件权限不足或二进制文件缺失。
- 处理方法
步骤 1 登录DBS运维管理平台,查看节点替换任务流,找到失败步骤以及任务流下发节点。
步骤 2 登录任务下发节点。
步骤 3 查看/home/Ruby/log/adaptor_log/om_adaptor.log日志中任务流开始时间点后,查找相关报错。
可搜索关键字ERROR,failed,Failed,GAUSS-等关键字快速检索,记录报错时间,如果没找到也可直接跳到下一步。
步骤 4 查看/home/Ruby/log/om_agent/agent.log日志,搜索任务流开始到结束时间点是否有报错日志,看报错日志中是否有关键信息。
步骤 5 查看GAUSSLOG/om/gs_replace_xxx.log,如果是最后一次执行节点修复失败,可直接在日志最后查看报错信息。此时报错信息中如果有某个节点执行失败,执行下一步。
步骤 6 登录报错节点,查看$GAUSSLOG/om/gs_local_xxx.log,到文件最后查看关键信息。
步骤 7 联系华为技术支持。
----结束
15、升级失败
- 故障现象
在下发升级命令后,升级任务返回失败,或者内核升级日志报错,或者升级任务卡死不结束。
- 故障原因
可能原因有以下:
l 升级om_agent失败。
l 升级任务流失败。
l 数据库内核升级失败。
- 处理方法
步骤 1 排查确认对业务是否有影响。
查询状态是否正常,是否出现磁盘满、网络不通等问题,若存在,根据CN故障处理,DN故障处理解决故障。
步骤 2 如果升级om_agent失败。
1. 根据变更记录或者告警信息,找到升级失败的实例,在DBS运维管理平台,找到升级任务流,若失败的任务流为GaussDBV5UpgradeOmAgent则说明升级om_agent失败。

2. 排查当前实例磁盘是否出现系统盘或数据盘满等问题,解决后重试任务流。
3. 查看任务流树表具体报错信息。
如果在WaitUpgradeOmAgentTask子任务之前失败,需要查看实例管理节点日志进行分析。
如果在WaitUpgradeOmAgentTask子任务失败,则需要登录到失败节点,确认om_agent进程是否存在。
ps ux | grep om_agent|grep -v grep
若不存在,说明进程没有正常拉起,此时需要联系华为技术支持,进一步分析om_agent进程未拉起原因。
步骤 3 升级任务流失败。
查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败在UpgradeJob节点的WaitUpgradeResultTask子任务之前,可先重试任务流,若重试之后问题未解决,则表明任务流存在问题,需要联系华为技术支持进一步分析。

步骤 4 升级数据库内核失败。
1. 查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败的为UpgradeJob节点的WaitUpgradeResultTask子任务,则是内核升级失败。
2. 从失败任务流中找到下发节点,登录该节点,进入到日志目录,然后查看gs_upgradectl-YYYY-MM-DD_HHmmss.log日志。
cd $GAUSSLOG/om
grep "ERROR" gs_upgradectl-YYYY-MM-DD_HHmmss.log
3. 若发现有与本次升级相近时间点的报错信息,则获取报错信息,联系华为技术支持。
----结束
16、备份失败
- 故障现象
l 云数据库 GaussDB 增量备份失败。
l 云数据库 GaussDB 手动全量备份失败。
l 云数据库 GaussDB 自动全量备份失败。
l 云数据库 GaussDB 自动差分备份失败。
- 故障原因
可能原因有以下:
l OBS问题:OBS网络不通, OBS负载异常等。
l 底层硬件问题: 物理机重启等。
l 内核问题:大集群免密超时,业务压力大触发PITR逻辑复制槽强推。
l 误删文件导致全备持续失败。
l 备份期间集群状态不正常。
- 处理方法
步骤 1 登录DBS运维管理平台,实例管理页面,以实例ID搜索,找到备份失败实例。
步骤 2 进入实例明细,参考查看任务流,找到备份失败的任务流,进入树表,找到失败的步骤,点击操作,修改Context。
Gaussdbv5BackupDb表示全量备份,Gaussdbv5BackupDifference表示增量备份。

说明:
上图介绍步骤,非失败的任务流。
步骤 3 找到任务流下发节点,nodeid为下发节点。

如上图,804e2d36bf5b4c8ca124a24a4980001fno14为下发节点nodeid。
步骤 4 参考登录实例节点,登录下发节点。
步骤 5 查看adaptor日志,搜索Send backup request to node关键词。
cd /home/Ruby/log/adaptor_log
vim om_adaptor.log
Send backup request to node之后的ip表示该备份任务的master节点。

如上图,10.10.8.85为master节点。
步骤 6 登录master节点,进入到controller日志目录,搜索The backup node list is关键词,查找备份执行节点。
l 全量备份:
cd $GAUSSLOG/roach/controller
vim roach_controller-****-**-**_******.log
The backup node list is之后的ip表示备份执行节点。

如上图,10.10.8.85, 10.10.8.20为备份执行节点。
l 增量备份:
cd $GAUSSLOG/roach/controller_inc
步骤 7 登录各备份执行节点,节点列表为步骤6获取到的ip。
步骤 8 查看备份执行节点roach_agent日志。
l 全量备份:
cd $GAUSSLOG/roach/agent
l 增量备份:
cd $GAUSSLOG/roach/agent_inc
1. 搜索Started Roach process关键词,表示本节点开始执行本次备份。

如上图,Started Roach process表示本节点开始执行备份。
2. 搜索Roach Statistics start关键词,表示本节点执行本次备份结束。

如上图,Roach Statistics start汇总备份执行信息,当前节点备份执行结束。
以上步骤介绍如何查找下发节点、master节点,备份执行节点列表。
步骤 9 查看备份进度(本步骤可选)。
在备份master节点执行以下命令。
ps ux | grep roach # 获取--metadata-destination
cd /var/chroot/var/lib/log/backup/metadata/roach/backup_key
cat .roach_task_progress.dat
步骤 10 针对不同报错,进行后续处理。
1. 增量备份,数据文件分批次超过范围问题。
agent节点roach_agent日志报错:error message is Provided partNumber within integer range。

原因:此问题为单次增量备份集过大,导致分10000批次,未能将备份集上传完,所以报错,此问题为bug。
临时规避办法:临时规避办法为手动创建一个全量备份,之后增量备份会成功。
最终解决办法:内核V500R002C10SPC630及以后版本修复。
2. OBS连接超时问题。
l agent节点roach_agent日志报错:ERROR:responseCompleteCallback error message is The server did not receive a complete request message within the time that it was prepared to wait. [adapter/roach_obs_interface.c:242]。
l 问题节点查看obs日志,搜索ERROR日志。
cd $GAUSSLOG/bin/gs_obs目录下的日志,报如下错误:
vim gs_obs_run.log
报错:WARN:Code: RequestTimeout

原因:备份执行节点到OBS网络不通。
临时规避办法:此问题无法临时规避,需排查及解决网络问题。
最终解决办法:排查及解决网络问题。
3. OBS负载异常问题。
备份执行节点roach_agent日志报错:[OBS] Error: ErrorUnknown [adapter/roach_obs_interface.c:692]。
查看对应节点obs日志,报错如下:

原因:OBS负载异常。
临时规避办法:此问题无法临时规避,需排查及解决OBS负载问题。
最终解决办法:排查及解决OBS负载问题。
4. 集群免密超时问题。
master节点om_agent日志报错:[ERROR] check_time_out(free_login_common:155) Failed to execute cmd。

原因:此问题为增备任务下发时,同时下发开启集群免密的命令,集群免密开启失败,从而导致增备执行失败。
临时规避办法:
a.确认备份master节点上,切换到Ruby用户,后台备份进程是否存在。
ps ux | grep roach
− 若备份进程存在,则需先停止备份任务流,然后继续2)。
− 若备份不存在,继续b。
b.执行以下命令,停止备份进程。
python3 /usr/local/tool/script/GaussRoach.py -t stop
c.修改备份master节点脚本。
sed -i '146s/retry_times < 5/retry_times < 2/' /dbs/om-agent/agent_92629/common/free_login_common.py
sed -i '150s/val = result.get(60)/val = result.get(250)/' /dbs/om-agent/agent_92629/common/free_login_common.py
d.重启om-agent。
ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep | awk '{print \$2}' | xargs kill -9
e.检查om-agent是否启动成功。
ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep
f.重试备份任务流,或者等自动执行增备即可。
最终解决办法:内核503.0.RC1及以后版本修复。
5. 集群状态异常问题。
master节点roach-controller日志报错:[ERROR]:cluster state is unavaliable, try to stop resume backup。
原因:集群状态unavaliable导致备份无法下发。
临时规避办法:此问题无法临时规避,需排查及修复集群后继续备份任务。
最终解决办法:排查及修复集群后继续备份任务。
----结束
17、OM_Agent安装失败
- 故障现象
安装OM_Agent,安装失败,上报错误信息。
- 故障原因
可能原因有以下:
l OM_Agent已安装,无法检测到相关进程。
l OM_Agent启动失败。
l 安装用户无crontab权限。
l 安装用户无文件目录权限。
- 处理方法
步骤 1 执行如下命令查看om_agent日志,确认失败原因。
vim /home/Ruby/log/om_agent/agent.log
常见原因如下:
l Failed to start om agent:OM_Agent进程启动失败,请执行步骤2处理。
l Failed to do crontab info:无crontab权限,请执行步骤3处理。
l permission denied:无文件目录权限,请执行步骤4处理。
l 其他原因,请联系华为技术支持。
l 检查/dbs/om-agent/agent_xxx/common/目录下是否存在public_cloud.conf文件:若存在,请执行#ZH-CN_TOPIC_0000001731205641/zh-cn_topic_0000001562637417_li124457233505。若不存在,则需要配置该文件,配置完成后重新安装OM_Agent。配置方法可以参考同目录下的public_cloud.conf.sample文件进行参考配置。
l 执行ps ax | grep agent命令查看是否存在agent进程:若存在,则可以正常使用OM_Agent,安装时检测不到agent进程不影响正常使用。若不存在,请执行python3 /dbs/om-agent/agent_xxx/om_agent.py命令手动启动OM_Agent。
步骤 3 (可选)使用root用户(若操作用户为非root用户,请执行su - root),执行命令echo “Ruby” >> /etc/cron.allow,将Ruby用户添加至crontab命令名单中,完成操作后重新安装OM_Agent。
步骤 4 (可选)使用root用户(若操作用户为非root用户,请执行su - root),执行如下命令创建文件夹、并修改属主和属组,完成后重新安装OM_Agent。
mkdir -p xxx
chown -R Ruby:Ruby xxx
----结束
18、数据库安装失败
- 故障现象
安装数据库集群,安装失败,上报错误信息。
- 故障原因
可能原因有以下:
l OM_Agent已安装,无法检测到相关进程。
l OM_Agent启动失败。
l 安装用户无crontab权限。
l 安装用户无文件目录权限。
- 处理方法
步骤 1 执行如下命令查看om_agent日志,确认失败原因。
vim /home/Ruby/log/om_agent/agent.log
常见原因如下:
l Failed to do decompress package Adaptor path is xxx:预安装解包失败,请执行步骤2处理。
l available_zone is incorrect:安装包部署方式与配置部署方式不一致,请执行步骤3处理。
l no route to host:防火墙或网络问题,请执行步骤4处理。
l The ssl_server_crt_files does not exist:SSL证书问题,
l 其他原因,请联系华为技术支持。
l 检查om_agent安装路径下,默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中,adaptorDir配置项是否为正确adaptor路径。
l 检查om_agent安装路径下,默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中,pkgDir路径是否存在,且集群用户拥有权限可以进入。
l 检查json中配置的包路径以及包名是否正确。
l 查看安装包的压缩是否符合规范。使用tar --no-same-owner --strip-components 1 -xf“安装包”,应在当前目录生成GaussDB-Kernel_503.1.XXX_***_***_Distributed.tar.gz和GaussDB-Kernel_xxx_Om_xxx.tar.gz的压缩包。
l 检查安装包部署方式与安装配置文件中部署方式是否一致:若一致,请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1820100121114。若不一致,请修改后重新安装。
l 若此前安装过数据库,可能为环境变量问题导致,清除/home/Ruby/.bashrc,/home/Ruby/gauss_env_file中的GPHOME环境变量,并重新安装。
步骤 4 (可选)根据日志判断启动ETCD遇到的问题,进行相应处理。
若日志报错存在no route to host,则为网络通讯异常,可能为防火墙配置问题导致。使用iptables -L 和 systemctl status firewalld.service 命令查看防火墙状态,并检查配置,或关闭防火墙,完成后重新安装。
若日志报错存在context deadline exceeded,则可能为节点间时间不一致,导致ETCD安全认证失效无法连接,可以使用gs_ssh -c date命令查看集群各个节点的时间是否一致。若一致,请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1352912137141。若不一致,请修改一致后重新安装。
若出现其余状况,请联系华为技术支持。
步骤 5 (可选)在安装OM_Agent时,om_agent.conf配置文件中存在agent_ssl配置项,该项为agent_ssl证书存放路径,若该路径下无相关证书,则会导致ssl认证异常,无法安装。在相关路径下增添ssl文件,具体操作参考《安装指南》中“安装前准备 > 生成集群安装所需要的证书”章节进行操作。
----结束
19、升级失败
- 故障现象
在运维人员下发升级命令后,升级任务返回失败,或者内核升级日志报错。
- 原因分析
可能的原因如下:
l 升级的目标版本和当前的基线版本一致,禁止升级。
l 集群组件升级失败。
l 由于部分DN集群状态不正常,导致数据库升级失败。
l 系统表、系统视图或者系统函数升级失败。
- 处理方法
以下问题场景均以沙箱环境举例:
步骤 1 查看对应时间点的agent.log日志确认升级请求是否发送到内核。若包含关键词“upgrade command”,则执行步骤2;否则请联系华为技术支持。
cd /home/Ruby/log/om_agent # 到agent.log日志目录
grep -rn "upgrade command" agent.log # 根据对应下发升级请求时间,若查询到内容,说明升级请求已发送到内核
l 打开对应时间点的gs_upgradectl-*.log日志,查看目标版本是否正确。若正确,则执行步骤2.c;若不正确,请修改目标版本后重新进行升级操作。
l 日志中若包含如下信息,说明升级的目标版本和当前的基线版本一致,则禁止升级。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn “New cluster commitid cannot be same with old cluster commitid” gs_upgradectl-*.log
l 打开对应时间点的gs_upgradectl-*.log,日志中有"ERROR"或者"NOTICE: Failed to upgrade"或者"Failed to do inplace upgrade"关键词,根据步骤3-步骤5进一步确认并处理。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn "NOTICE: Failed to upgrade" gs_upgradectl-*.log
grep -rn "Failed to do inplace upgrade" gs_upgradectl-*.log
步骤 3 (可选)确认是否由于集群状态不正常,导致升级失败,打开对应时间点的gs_upgradectl-*.log日志查看若包含如下内容,请联系华为技术支持。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn "Failed to roll switch all process by list" gs_upgradectl-*.log
步骤 4 (可选)打开对应时间点的gs_upgradectl-*.log日志,若包含如下关键词,说明DN故障,请联系华为技术支持。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn "Failed to get primary DN connection" gs_upgradectl-*.log
步骤 5 (可选)打开对应时间点的gs_upgradectl-*.log日志,若日志中有如下错误信息,说明系统表、系统视图或者系统函数升级失败,请联系华为技术支持。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn "Failed to execute update sql file" gs_upgradectl-*.log
步骤 6 问题解决后,打开对应时间点的gs_upgradectl-*.log日志,若日志中有如下信息,说明可重入升级,否则请联系华为技术支持。
source /home/Ruby/gauss_env_file # 加载环境变量
cd $GAUSSLOG/om # 进入OM日志文件夹
grep -rn "NOTICE: Rollback succeeded" gs_upgradectl-*.log
----结束
- 点赞
- 收藏
- 关注作者
评论(0)