云数据库 GaussDB 故障案例库-2

举报
GaussDB 数据库 发表于 2025/12/05 15:20:47 2025/12/05
【摘要】 目  录1 实例创建失败2 参数更新后未生效3 数据库重启失败4 实例删除失败5 数据库密码重置失败6 创建前预检查资源及删除创建失败残留资源(BMS部署场景)7 实例备份失败8 设置备份策略失败9 恢复到新实例失败10 恢复到当前实例失败11 PITR可恢复时间停止推进12 恢复新实例过程中重置密码步骤失败13 业务数据库量过大时节点替换执行时间过长处理14 节点修复/替换失败15 升级失...

1、实例创建失败

  • 故障现象

GaussDB实例创建失败。

  • 故障原因

可能原因有以下:

GaussDB Service服务不正常,或者IAAS服务不正常。

  • 处理方法

                                步骤 1     使用浏览器,登录ManageOne运维面。

l   登录地址:https://ManageOne运维面主页的访问地址:31943。例如,https://oc.type.com:31943

l   默认帐号:admin。默认密码可在《华为云Stack  帐户一览表》中“APortal”页签,产品名称为“ManageOne”,帐户登录界面名称为“ManageOne 运维面”获取。

注意:为了您的帐户安全,请定期修改密码。

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

12.png

                                步骤 3     登录DBS运维管理平台。

                                步骤 4     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

141.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

142.png

                                步骤 5     根据步骤4中任务执行结果,定位不同的故障场景操作。

l   场景一:创建服务器失败(CreateServersTaskV2执行失败),根据步骤4中展示的失败概览,分析失败原因。

           如果步骤4的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。

修复方案:

i.           登录DBS运维管理平台,在“实例运维 > 配置管理 > 引擎资源管理”页面,引擎名称选择“GaussDB”,单击“查询”,查看对应内核版本的镜像ID是否为空,如下图所示:

15.png

查看对应内核版本的镜像ID是否为空,不同的实例对应不同的字段

x86环境:MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。

x86环境的BMSARM环境MCSBMS对应“引擎资源管理”页面的“扩展镜像ID”列

ii.         镜像ID为空,则单击对应版本所在行“编辑”,按照已有格式关联需要的镜像ID,镜像ID可通过Service OM平台的“服务列表 > 镜像资源 > 镜像列表”中查询获取,如下图所示。

图1-1 查询镜像ID152.png

图1-2 编辑镜像ID153.png

iii.       如镜像ID不为空,但在Service OM平台的镜像资源中查询不到该镜像ID,可能存在两种情况:

   该镜像未注册,此种情况需要注册镜像,请联系技术支持。

   镜像已在service om中注册,但配置错误,此种情况需要点击对应版本“编辑”,按照已有格式更新对应版本的镜像ID,参见1-2

iv.       镜像ID不为空,且与ServiceOM的镜像ID一致,则需要排查镜像文件是否存在于OBS桶中,如不存在,则需要重新注册镜像,如OBS桶中镜像存在,则执行步骤6

l   场景二:创建服务器失败(WaitCreateServersTask执行失败),根据步骤4中展示的失败概览,分析失败原因。

    如果步骤4的失败原因中包含“not enough hosts”,则说明服务器资源不足。

修复方案:联系IaaS对计算资源扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。

     如果步骤4的失败原因中包含“PlacementDiskFilter”,说明没有满足的磁盘资源。

修复方案:联系IaaS对磁盘进行扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。

    如果步骤4的失败原因中包含“No more IP addresses available”,则说明IP资源不足。

修复方案:在Console页面服务列表下,选择“网络 > 虚拟私有云”服务,释放实例所在子网下的空闲ip,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新创建新实例。

须知:

如果创建服务器失败,可能存在底层返回信息不完整无法删除残留资源的场景,需要在实例运维 > 租户管理 > 残留资源统计页面,单击对应用户名名称,批量删除残留资源。

154.png

l   场景三:Agent执行失败(SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败),根据步骤4中展示的失败概览,分析失败原因。

如果步骤4的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”,则可能是网络不通。

修复方案:联系运维排查网络故障原因,确认网络恢复正常后,重新创建实例。

l   场景四:报送审计服务失败(NotifyToCTSTask失败)。

报送审计失败,对实例无影响,但是需要检查审计服务是否正常。

修复方案:在“树表”页面,单击NotifyToCTSTask的下拉按钮,选择跳过任务,跳过NotifyToCTSTask,等待任务执行成功。审计是对事件进行记录,跳过审计步骤对实例无影响,跳过后需要对审计服务进行检查。

若失败原因不在上述场景,请执行步骤6

                                步骤 6     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


2、参数更新后未生效

  • 故障现象

用户在参数修改页面更改了默认的GaussDB参数,但没有生效。分为两种情况:

l   更新完参数点“保存”,显示“更新参数失败”。

l   更新完参数点“保存”,显示“更新参数成功”,但没有生效。

  • 故障原因

可能原因有以下:

l   部分参数更新后需要重启,用户没有重启数据库。

l   部分参数需要重新打开会话,用户没有关闭当前连接。

l   参数修改不合理,导致GaussDB故障。

l   部分参数不能写进配置文件,会自动还原。

l   实例故障。

  • 处理方法

                                步骤 1     登录DBS运维管理平台。

                                步骤 2     选择“实例运维 > 实例管理”,筛选条件选择“实例ID”或“实例名称”,输入框中输入获取的实例ID或实例名称,执行搜索。

22.png

l   如果实例状态值为正常,且进入实例详情页面后,各节点状态值显示为正常,则实例正常,再进行下面的步骤3排查。

l   如果实例状态值异常,则实例故障,执行步骤5

                                步骤 3     在上述页面重启数据库实例,当实例状态从“重启中”转为“正常”时,表明重启成功。重启完成后检查参数设置是否成功。

23.png

                                步骤 4     如上述步骤未成功,可能是参数值设置不正确,请查看《云数据库 GaussDB xxx 用户指南》中的“用户指南 > 实例管理 > 查看和修改参数”,了解参数值的正确设置方法后重新配置。

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


3、数据库重启失败

  • 故障现象

数据库重启失败。

  • 故障原因

可能原因有以下:

管理面与节点网络不通。

  • 处理方法

根据不同的故障场景修复故障实例。

                                步骤 1     使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

l   密码方式:输入帐号和密码。

           默认帐号:bss_admin

说明:

如果是升级场景,默认帐号为admin

           默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。

l   USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

32.png

                                步骤 3     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

331.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

332.png

                                步骤 4     根据task执行结果,执行如下操作。

检查GaussDB Service是否可通过SSH连接到实例

1.         通过Service OM页面,点击“服务列表 > 计算资源”,登入到计算资源管理平台,搜索虚拟机,根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP

341.png

2.         登录DBS运维管理平台,选择“实例运维 > 实例列表”, 输入实例名称,执行搜索。

342.png

3.         单击步骤4.2中查询的实例名称,进入实例详情,在实例详情中查找“管理虚拟ip”,即GaussDB实例的管理VIP

343.png

4.         在查询到的管理节点,执行ping命令,确认步骤4.3GaussDB实例的管理VIP的网络是否正常。

    若无法ping通,说明GaussDB Service到实例网络不通,请联系网络管理员首先排查网络故障。

     若可ping通,说明GaussDB Service到实例网络可以连通。在Console页面,单击“重启”尝试再次重启数据库。若重启仍然失败,请联系技术人员解决。

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


4、实例删除失败

  • 故障现象

GaussDB实例删除失败。

  • 故障原因

可能原因有以下:

GaussDB Service服务不正常,或者IAAS服务不正常,回收站备份失败。

  • 处理方法

                                步骤 1     使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

l   密码方式:输入帐号和密码。

           默认帐号:bss_admin

说明:

如果是升级场景,默认帐号为admin

           默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。

l   USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

42.png

                                步骤 3     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

431.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

432.png

                                步骤 4     根据task执行结果,定位不同的故障场景操作。

l   场景一:删除备份策略(Gaussdbv5BackupPolicyDeletionTask)执行失败。

按以下方法重启备份管理服务,排除备份管理服务故障后通过Service OM重做失败Task

a.         opsadmin用户名登入节点。

b.         执行以下指令,切换到root用户。

sudo su - root

c.         执行以下指令,切换到service用户。

su -  service

d.         执行如下命令,重启tomcat进程。

cd /opt/cloud/GaussDB-backupmanager/bin/

./shutdown.sh

./startup.sh

e.         在步骤步骤3的“树表”页面,单击Gaussdbv5BackupPolicyDeletionTask的下拉按钮,选择“重做”任务。

l   场景二:Iass删除资源失败(Gaussdbv5DeleteDBInstanceTask或下一个Task Gaussdbv5CheckVMDeletionResultTask执行失败),根据步骤3中展示的失败概览,分析失败原因。

           如失败概览中有类似“network”“ping”的错误信息,表示网络不通,联系运维排查网络故障原因,解决网络问题后在步骤步骤3的“树表”页面,单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTasktask的下拉按钮,选择“重做”任务。

           如失败概览中有类似“iaas”“ecs”的错误信息,表明是IASS服务异常,删除资源失败,联系运维排查IAAS故障原因,修复问题后在步骤步骤3的“树表”页面,单击上述执行失败的“Gaussdbv5DeleteDBInstanceTask”或“Gaussdbv5CheckVMDeletionResultTasktask的下拉按钮,选择“重做”任务。

l   场景三:回收站备份失败(Gaussdbv5RecycleBackupTask或下一个Gaussdbv5CheckRecycleBackupTask执行失败),查看子任务流并根据步骤3中展示的失败概览,分析失败原因。

           RdsExportDbStatusCheckTask执行失败,表示备份导出失败,检查环境到OBS的网络是否异常,联系运维排查备份失败原因,解决备份失败问题后在步骤3的“树表”页面,单击上述执行失败的“RdsExportDbInitTasktask的下拉按钮,选择“重做”任务。

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


5、数据库密码重置失败

  • 故障现象

数据库密码重置失败。

  • 故障原因

可能原因有以下:

l   GaussDBService无法通过SSH连接到实例。

l   密码重置发生在备份之后,执行恢复的时候,恢复成旧密码。

  • 处理方法

                                步骤 1     通过Service OM页面,点击“服务列表 > 计算资源”,登入到计算资源管理平台。

                                步骤 2     可用分区选择“manage-az”,根据名称“DBS-GaussDB”查询GaussDB实例管理节点IP

52.png

                                步骤 3     登录DBS运维管理平台,选择“实例运维 > 实例管理”,筛选条件选择“实例ID”或“实例名称”,输入框中输入获取的实例ID或实例名称,执行搜索。

53.png

l   如果实例状态值为正常,则实例正常,再进行下面的步骤4排查。

l   如果实例状态值异常,则实例故障,执行步骤7

                                步骤 4     单击步骤2中查询的实例名称,进入实例详情,在实例详情中查找“管理虚拟ip”,即GaussDB实例的管理VIP

54.png

                                步骤 5     步骤2查询到的管理节点,执行ping命令,确认步骤4GaussDB实例的管理VIP的网络是否正常。

l   若无法ping通,说明管理节点到实例网络不通,请先排查网络故障。

l   若可以ping通,说明管理节点到实例网络可以连通,请执行步骤6

                                步骤 6     Console页面,重新执行“重置密码”。

                                步骤 7     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


6、创建前预检查资源及删除创建失败残留资源(BMS部署场景)

  • 故障现象

创建BMS实例失败,在DBS运维管理平台树表中查询失败原因,失败原因中包含“No valid host was found。”字样,表示因为服务器资源不足,创建失败。

60.png

  • 故障原因

可能的原因有以下:

l   底层BMS服务器资源不足。

l   BMS未提供感知底层环境多少资源的接口,无法做precheck与预占。

  • 处理方法

                                步骤 1     登录DBS运维管理平台。

                                步骤 2     根据实例ID筛选实例。

62.png

                                步骤 3     单击实例名称进入实例详情页。在详情页中查询实例所用的规格码。

63.png

如图所示,规格码为: gaussdb.opengauss.ee.bms.8xlarge.x868.ha

                                步骤 4     在“配置管理 > 规格管理 > 规格码”中输入步骤3中查询到的规格码。

64.png

                                步骤 5     单击操作列中的“更多 > 查看属性”。查看“flavor”的值,得到BMS规格码。

如图所示,得到BMS规格码:physical.opengauss.v3.32u.4

65.png

                                步骤 6     如果创建时报“No valid host”这个错误,需要登入运营面对该实例进行删除,释放资源。

                                步骤 7     登录Service OM

                                步骤 8     选择“服务列表 > 裸金属服务器 > 规格”,找到BMS规格码:physical.opengauss.v3.32u.4 的使用情况。

如图所示,可以得到底层环境的使用情况:BMS对外提供physical.opengauss.v3.32u.4 规格的服务器有16台,已经使用15台。

68.png


                                步骤 9     在删除实例操作下发后之后,相应的资源将会被清理。

69.png

                             步骤 10     等待清理完成,确定每个AZ是否有足够资源。

例如创建混合部署(4副本), 需要在 az10.dc2 az6.dc2 中有四台处于可部署状态, az8.dc2有一台处于可部署状态,即可创建

                             步骤 11     如果每个AZ的资源都足够,直接在运营面登入帐号、密码登入,创建实例即可。

----结束


7、实例备份失败

  • 故障现象

GaussDB实例备份失败。

  • 故障原因

可能原因有以下:

l   AKSK不对 或者AKSK权限不够

l   OBS的网络异常。

l   实例虚拟机的时间与正常时间相差10分钟以上。

l   备份中进行了版本升级等等。

  • 处理方法

                                步骤 1     使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

l   密码方式:输入帐号和密码。

           默认帐号:bss_admin

说明:

如果是升级场景,默认帐号为admin

           默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。

l   USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

72.png

                                步骤 3     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

73.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

732.png

                                步骤 4     根据task执行结果,在不同故障场景下执行恢复备份操作。

l   场景一:备份文件导出失败(RdsExportDbStatusCheckTask执行失败),如果是此任务失败,因为可能原因众多,建议直接参考步骤5联系技术人员定位。

l   场景二:备份上报计量失败(RdsMeteringReportTask执行失败)。

修复方案:重试RdsMeteringReportTask,等待重试结果。如果仍然上报失败,请参考步骤5联系技术人员定位。

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束

8、设置备份策略失败

  • 故障现象

GaussDB设置备份策略失败。

  • 故障原因

可能原因有以下:

GaussDB 备份服务异常。

  • 处理方法

                                步骤 1     登录DBS-GaussDB节点,使用以下命令查看GaussDB backup服务进程。

ps -ef | grep java | grep backup

                                步骤 2     如上述命令有结果返回,则服务进程正常,请重试设置备份策略操作。

                                步骤 3     若不存在,在service用户下输入如下命令启动进程。

su - service

cd /opt/cloud/<服务目录>/bin/

./startup.sh

                                步骤 4     再次执行“ps -aux |grep tomcat”查看tomcat进程是否存在。

                                步骤 5     如果依然无法启动进程,请联系技术人员进行处理。

----结束


9、恢复到新实例失败

  • 故障现象

GaussDB恢复到新实例失败。

  • 故障原因

可能原因有以下:

l   参数不合法,拒绝恢复新实例。

l   工作流异常,提交工作流失败。

l   创建虚拟机失败,或者资源管理服务报错。

l   虚拟机上初始化节点失败。

l   备份策略等信息错误导致的失败。

  • 处理方法

                                步骤 1     使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

l   密码方式:输入帐号和密码。

           默认帐号:bss_admin

说明:

如果是升级场景,默认帐号为admin

           默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。

l   USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

92.png

                                步骤 3     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

931.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

932.png

                                步骤 4     根据步骤3中任务执行结果,定位不同的故障场景操作。

l   场景一:创建服务器失败(CreateServersTaskV2执行失败),根据步骤3中展示的失败概览,分析失败原因。

           如果步骤3的失败原因中包含“image not exists”则说明创建服务器所需镜像在环境中不存在。

修复方案:

i.           登录DBS运维管理平台,在“实例运维 > 配置管理 > 引擎资源管理”页面,引擎名称选择“GaussDB”,单击“查询”,查看对应内核版本的镜像ID是否为空,如下图所示:

941.png

说明:

查看对应内核版本的镜像ID是否为空,不同的实例对应不同的字段

x86环境:MCS实例对应“引擎资源管理”页面的“容器镜像ID”列。

x86环境的BMSARM环境MCSBMS对应“引擎资源管理”页面的“扩展镜像ID”列

ii.         镜像ID为空,则单击对应版本所在行“编辑”,按照已有格式关联需要的镜像ID,镜像ID可通过Service OM平台的“服务列表 > 镜像资源”中查询获取,如下图所示。

图9-1 查询镜像ID

942.png

 图9-2 编辑镜像ID

943.png

iii.       如镜像ID不为空,但在Service OM平台的镜像资源中查询不到该镜像ID,可能存在两种情况:

   该镜像未注册,此种情况需要注册镜像

   镜像已在service om中注册,但配置错误,此种情况需要点击对应版本“编辑”,按照已有格式更新对应版本的镜像ID,参见9-2

iv.       镜像ID不为空,且与service om的镜像ID一致,则需要排查镜像文件是否存在于obs桶中,如不存在,则需要重新注册镜像,如obs桶中镜像存在,则执行步骤5

l   场景二:创建服务器失败(WaitCreateServersTask执行失败),根据步骤3中展示的失败概览,分析失败原因。

           如果步骤3的失败原因中包含“not enough hosts”,则说明服务器资源不足。

修复方案:联系IaaS对计算资源扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。

           如果步骤3的失败原因中包含“PlacementDiskFilter”,说明没有满足的磁盘资源。

修复方案:联系IaaS对磁盘进行扩容,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。

           如果步骤3的失败原因中包含“No more IP addresses available”,则说明IP资源不足。

修复方案:在虚拟私有云服务页面下释放实例所在子网下的空闲ip,然后在Console实例管理页面上,等待该实例状态显示为“创建失败”,删除实例,并重新下发恢复新实例。

l   场景三:校验网络连通性失败(VerifyCommunicationChannelTask失败),说明管控面网络与实例网络连通性存在问题,请联系网络技术人员,排查网络问题,确认网络恢复正常后,删除原有实例,重新下发恢复新实例。

l   场景四:Agent执行失败(SendInitAgentCmdTask或下一个任务 WaitAgentInitResulTask执行失败),根据步骤3中展示的失败概览,分析失败原因。

如果步骤3的失败原因中包含“RPCClient.RPCClientBuilder failed”或“Agent may not be ready to connect”,则可能是网络不通。

修复方案:联系运维排查网络故障原因,确认网络恢复正常后,然后,确认网络恢复正常后,删除原有实例,重新下发恢复新实例。

若失败原因不在上述场景,请执行步骤5

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


10、恢复到当前实例失败

  • 故障现象

GaussDB恢复到当前实例失败。

  • 故障原因

可能原因有以下:

l   工作流异常,提交工作流失败。

l   备份服务异常。

l   Agent报错。

  • 处理方法

                                步骤 1     使用浏览器,通过地址“https://ManageOne运维面主页的访问地址:31943”,登录ManageOne运维面,或通过地址“https://ManageOne主门户的访问地址”,登录ManageOne主门户,选择“运维中心(OC)”,进入ManageOne运维面。

l   密码方式:输入帐号和密码。

           默认帐号:bss_admin

说明:

如果是升级场景,默认帐号为admin

           默认密码:参见《华为云Stack 8.3.0 帐户一览表》的“A类(Portal)”页签中,“ManageOne运维面”帐户对应的默认密码。

l   USB Key方式:插入已预置用户证书的USB Key,选择设备和用户证书,并输入PIN

                                步骤 2     在“集中监控 > 告警管理 > 当前告警”中查看集中告警,并处理告警信息,获取告警中的实例IDinstance_id)或者工作ID

102.png

                                步骤 3     选择“实例运维 > 任务管理”,右上角筛选条件选择“实例ID”或“任务流ID”,输入框中输入获取的实例ID或工作流ID,执行搜索,查看“当前状态”为失败的任务。

1031.png

“失败原因”列输出了失败时的程序错误日志。单击“树表”,则可以查看任务失败具体的环节。

1032.png

                                步骤 4     根据task执行结果,在不同故障场景下执行恢复备份操作。

根据步骤3中展示的失败概览,分析失败原因。

l   场景一:备份文件导出失败(GaussDbv5ImportDbStatusCheckTask执行失败)。

修复方案:重试GaussDbV5ImportDbStatusCheckTask,等待重试结果。如果仍然导出失败,请联系运维处理。

l   场景二:上传备份文件失败恢复后关键全备失败(RdsBackupFileTask执行失败)。

修复方案:重试RdsBackupFileTask,等待重试结果。如果仍然备份失败,请联系运维处理。

l   场景三:恢复完成后释放HA锁失败(RdsInstanceHaStatusChangeGoodTask执行失败)。

修复方案:重试RdsInstanceHaStatusChangeGoodTask,等待重试结果。如果仍然备份失败,请联系运维处理。

                                步骤 5     若以上步骤仍不能解决问题,收集日志和告警信息,联系技术支持进行处理。

需要下载的日志信息有:

管理侧:

l   DBS-GaussDB-backupmanager组件下的日志。

l   DBS-GaussDB-instancemanager组件下的日志。

租户侧:

agent组件下的:

l   /home/Ruby/log/agent.log

l   /home/Ruby/log/asyncJobResult.dat

l   /home/Ruby/log/om_agent/agent.log

GaussDB Kernel组件下的:/var/lib/log/Ruby

----结束


11、PITR可恢复时间停止推进

  • 故障现象

GaussDB PITR的可恢复时间与当前时间差30分钟以上。

  • 故障原因

可能原因有以下:

l   OBS的网络异常。

l   归档速度慢于日志产生速度。

l   备份中进行了版本升级。

  • 处理方法

                                步骤 1     登录集群第一个正常的CN节点。

查找第一个正常CN的步骤如下:

1.         登录任意一个正常节点。

2.         执行如下命令,导入环境变量。

source /home/Ruby/gauss_env_file

3.         执行如下指令查询集群状态。

cm_ctl query -Cvid

1111.png

如图所示,查看状态正常的首个CN对应的IP,根据IPDBS运维管理平台获取首个正常CN的节点ID

1112.png

                                步骤 2     执行如下命令,导入环境变量。

source /home/Ruby/gauss_env_file

                                步骤 3     执行如下指令,进入日志目录.

cd $GAUSSLOG/pg_log/cn_xxx

                                步骤 4     执行如下指令,根据时间戳,查看最新的日志。

vim postgresql-20xx-xx-xx_xxx.log

114.png

存在wait_status<xxx>字段,且app_name<BarrierArch>时,说明归档日志慢导致的最大可恢复时间不推进,则需要降低或停止业务压力,等待归档日志推进到最新可恢复时间。

----结束

12、恢复新实例过程中重置密码步骤失败

  • 故障现象

1.0.13版本老实例恢复到新实例,在重置密码步骤失败。

重置密码出现如下错误:

Usage: cmd_sender.py [options] cmd_sender.py: error: Command not specified.

由于1.0.13版本默认没有root用户,用户如果自己进行定义,不支持从管控进行重置,恢复到新实例时会出现reset password失败情形。

  • 故障原因

可能原因有以下:

由于1.0.13版本默认没有root用户,用户如果自己进行定义,不支持从管控进行重置,恢复到新实例时会出现reset password失败情形。

  • 故障恢复

                                步骤 1     对于恢复新实例重置密码失败,直接跳过该步骤即可,如需要进行重置密码操作,参考步骤2-步骤6处理。

                                步骤 2     登录实例节点。

                                步骤 3     使用root用户通过gsql连接数据库。

gsql -d database -p port -U username -W password -r

例如:分布式实例登录含有CN的节点后,使用gsql -d postgres -p 8000 -U root -W xxx -r 登录到数据库。

                                步骤 4     连接数据库后执行重置密码SQL

alter user root identified by [new password] replace [old password];

例如:alter user root identified by "Gauss_xxxxx" replace "Gauss_xxx";

                                步骤 5     退出数据库。

\q

                                步骤 6     使用root用户和新设置的密码,通过gsql连接数据库进行验证。

gsql -d database -p port -U root -W password -r

----结束


13、业务数据库量过大时节点替换执行时间过长处理

  • 故障现象

数据库MCS部署形态的实例,在数据量过大时,节点替换时间过长。

  • 故障原因

可能原因有以下:

内存被缓存占用过多,影响数据处理速度。

  • 处理方法

                                步骤 1     登录Service OM

                                步骤 2     进入“服务列表 > 计算资源 > 虚拟机”。

根据实例名称搜索对应虚拟机所在的主机

132.png

                                步骤 3     获取MCS主机的IP

133.png

                                步骤 4     登录到MCS计算主机。

IP步骤3获取的IP,账号和密码参考账户一览表获取。

                                步骤 5     查看vm_drop_cache.sh脚本。

ll /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh

135.png

                                步骤 6     执行如下命令,增加定时任务。

echo "*/5 * * * * root /bin/bash /opt/cloud/services/mcs/venv/bin/vm_drop_cache.sh  >/dev/null 2>&1" >> /etc/crontab

                                步骤 7     数据库build数据传输完成后,执行如下命令,关闭清理缓存任务。

sed -i "/vm_drop_cache/d" /etc/crontab

137.png

----结束


14、节点修复/替换失败

  • 故障现象

管控面节点修复/替换任务流失败或手动执行gs_replace失败。

  • 故障原因

可能原因有以下:

l   不满足节点修复/替换条件。

l   替换节点与当前集群内其他节点网络不通,端口不可用,磁盘异常,所有节点MTU值不一致。

说明:

节点修复不涉及。

l   om_agent不存在或报错时间点om_agent进程没启动导致pssh/pscp不可用。

l   文件权限不足或二进制文件缺失。

  • 处理方法

                                步骤 1     登录DBS运维管理平台,查看节点替换任务流,找到失败步骤以及任务流下发节点。

                                步骤 2     登录任务下发节点。

                                步骤 3     查看/home/Ruby/log/adaptor_log/om_adaptor.log日志中任务流开始时间点后,查找相关报错。

可搜索关键字ERROR,failed,Failed,GAUSS-等关键字快速检索,记录报错时间,如果没找到也可直接跳到下一步。

                                步骤 4     查看/home/Ruby/log/om_agent/agent.log日志,搜索任务流开始到结束时间点是否有报错日志,看报错日志中是否有关键信息。

                                步骤 5     查看GAUSSLOG/om/gs_replace_xxx.log,如果是最后一次执行节点修复失败,可直接在日志最后查看报错信息。此时报错信息中如果有某个节点执行失败,执行下一步。

                                步骤 6     登录报错节点,查看$GAUSSLOG/om/gs_local_xxx.log,到文件最后查看关键信息。

                                步骤 7     联系华为技术支持。

----结束


15、升级失败

  • 故障现象

在下发升级命令后,升级任务返回失败,或者内核升级日志报错,或者升级任务卡死不结束。

  • 故障原因

可能原因有以下:

l   升级om_agent失败。

l   升级任务流失败。

l   数据库内核升级失败。

  • 处理方法

                                步骤 1     排查确认对业务是否有影响。

查询状态是否正常,是否出现磁盘满、网络不通等问题,若存在,根据CN故障处理,DN故障处理解决故障。

                                步骤 2     如果升级om_agent失败。

1.         根据变更记录或者告警信息,找到升级失败的实例,在DBS运维管理平台,找到升级任务流,若失败的任务流为GaussDBV5UpgradeOmAgent则说明升级om_agent失败。

1521.png

2.         排查当前实例磁盘是否出现系统盘或数据盘满等问题,解决后重试任务流。

3.         查看任务流树表具体报错信息。

如果在WaitUpgradeOmAgentTask子任务之前失败,需要查看实例管理节点日志进行分析。

如果在WaitUpgradeOmAgentTask子任务失败,则需要登录到失败节点,确认om_agent进程是否存在。

ps ux | grep om_agent|grep -v grep

若不存在,说明进程没有正常拉起,此时需要联系华为技术支持,进一步分析om_agent进程未拉起原因。

                                步骤 3     升级任务流失败。

查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败在UpgradeJob节点的WaitUpgradeResultTask子任务之前,可先重试任务流,若重试之后问题未解决,则表明任务流存在问题,需要联系华为技术支持进一步分析。

153.png

                                步骤 4     升级数据库内核失败。

1.         查看升级任务流,若失败的任务流为GaussDBV5UpgradeDatabase,点击树表进一步查看,若发现失败的为UpgradeJob节点的WaitUpgradeResultTask子任务,则是内核升级失败。

2.         从失败任务流中找到下发节点,登录该节点,进入到日志目录,然后查看gs_upgradectl-YYYY-MM-DD_HHmmss.log日志。

cd $GAUSSLOG/om

grep "ERROR" gs_upgradectl-YYYY-MM-DD_HHmmss.log

3.         若发现有与本次升级相近时间点的报错信息,则获取报错信息,联系华为技术支持。

----结束


16、备份失败

  • 故障现象

l   云数据库 GaussDB 增量备份失败。

l   云数据库 GaussDB 手动全量备份失败。

l   云数据库 GaussDB 自动全量备份失败。

l   云数据库 GaussDB 自动差分备份失败。

  • 故障原因

可能原因有以下:

l   OBS问题:OBS网络不通, OBS负载异常等。

l   底层硬件问题: 物理机重启等。

l   内核问题:大集群免密超时,业务压力大触发PITR逻辑复制槽强推。

l   误删文件导致全备持续失败。

l   备份期间集群状态不正常。

  • 处理方法

                                步骤 1     登录DBS运维管理平台,实例管理页面,以实例ID搜索,找到备份失败实例。

                                步骤 2     进入实例明细,参考查看任务流,找到备份失败的任务流,进入树表,找到失败的步骤,点击操作,修改Context

Gaussdbv5BackupDb表示全量备份,Gaussdbv5BackupDifference表示增量备份。

162.png

说明:

上图介绍步骤,非失败的任务流。

                                步骤 3     找到任务流下发节点,nodeid为下发节点。

163.png

如上图,804e2d36bf5b4c8ca124a24a4980001fno14为下发节点nodeid

                                步骤 4     参考登录实例节点,登录下发节点。

                                步骤 5     查看adaptor日志,搜索Send backup request to node关键词。

cd /home/Ruby/log/adaptor_log

vim om_adaptor.log

Send backup request to node之后的ip表示该备份任务的master节点。

165.png

如上图,10.10.8.85master节点。

                                步骤 6     登录master节点,进入到controller日志目录,搜索The backup node list is关键词,查找备份执行节点。

l   全量备份:

cd $GAUSSLOG/roach/controller

vim roach_controller-****-**-**_******.log

The backup node list is之后的ip表示备份执行节点。

166.png

如上图,10.10.8.85, 10.10.8.20为备份执行节点。

l   增量备份:

cd $GAUSSLOG/roach/controller_inc

                                步骤 7     登录各备份执行节点,节点列表为步骤6获取到的ip

                                步骤 8     查看备份执行节点roach_agent日志。

l   全量备份

cd $GAUSSLOG/roach/agent

l   增量备份

cd $GAUSSLOG/roach/agent_inc

1.         搜索Started Roach process关键词,表示本节点开始执行本次备份。

1681.png

如上图,Started Roach process表示本节点开始执行备份。

2.         搜索Roach Statistics start关键词,表示本节点执行本次备份结束。

1682.png

如上图,Roach Statistics start汇总备份执行信息,当前节点备份执行结束。

以上步骤介绍如何查找下发节点、master节点,备份执行节点列表

                                步骤 9     查看备份进度(本步骤可选)。

在备份master节点执行以下命令。

ps ux | grep roach  # 获取--metadata-destination

cd /var/chroot/var/lib/log/backup/metadata/roach/backup_key

cat .roach_task_progress.dat

                             步骤 10     针对不同报错,进行后续处理。

1.         增量备份,数据文件分批次超过范围问题。

agent节点roach_agent日志报错:error message is Provided partNumber within integer range

16101.png

原因:此问题为单次增量备份集过大,导致分10000批次,未能将备份集上传完,所以报错,此问题为bug

临时规避办法:临时规避办法为手动创建一个全量备份,之后增量备份会成功。

最终解决办法:内核V500R002C10SPC630及以后版本修复。

2.         OBS连接超时问题。

l   agent节点roach_agent日志报错:ERROR:responseCompleteCallback error message is The server did not receive a complete request message within the time that it was prepared to wait. [adapter/roach_obs_interface.c:242]

l   问题节点查看obs日志,搜索ERROR日志。

cd $GAUSSLOG/bin/gs_obs目录下的日志,报如下错误:

vim gs_obs_run.log

报错:WARN:Code: RequestTimeout

16802.png

原因:备份执行节点到OBS网络不通。

临时规避办法:此问题无法临时规避,需排查及解决网络问题。

最终解决办法:排查及解决网络问题。

3.         OBS负载异常问题。

备份执行节点roach_agent日志报错:[OBS] Error: ErrorUnknown [adapter/roach_obs_interface.c:692]

查看对应节点obs日志,报错如下:

16803.png

原因OBS负载异常。

临时规避办法:此问题无法临时规避,需排查及解决OBS负载问题。

最终解决办法:排查及解决OBS负载问题。

4.         集群免密超时问题。

master节点om_agent日志报错:[ERROR] check_time_out(free_login_common:155) Failed to execute cmd

16804.png

原因:此问题为增备任务下发时,同时下发开启集群免密的命令,集群免密开启失败,从而导致增备执行失败。

临时规避办法:

a.确认备份master节点上,切换到Ruby用户,后台备份进程是否存在。

ps ux | grep roach

           若备份进程存在,则需先停止备份任务流,然后继续2)

           若备份不存在,继续b

b.执行以下命令,停止备份进程。

python3 /usr/local/tool/script/GaussRoach.py -t stop

c.修改备份master节点脚本。

sed -i '146s/retry_times < 5/retry_times < 2/' /dbs/om-agent/agent_92629/common/free_login_common.py

sed -i '150s/val = result.get(60)/val = result.get(250)/' /dbs/om-agent/agent_92629/common/free_login_common.py

d.重启om-agent

ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep | awk '{print \$2}' | xargs kill -9

e.检查om-agent是否启动成功。

ps ux |grep om_agent.py |grep python |grep -v profile | grep -v grep

f.重试备份任务流,或者等自动执行增备即可。

最终解决办法:内核503.0.RC1及以后版本修复。

5.         集群状态异常问题。

master节点roach-controller日志报错:[ERROR]:cluster state is unavaliable, try to stop resume backup

原因:集群状态unavaliable导致备份无法下发。

临时规避办法:此问题无法临时规避,需排查及修复集群后继续备份任务。

最终解决办法:排查及修复集群后继续备份任务。

----结束


17、OM_Agent安装失败

  • 故障现象

安装OM_Agent,安装失败,上报错误信息。

  • 故障原因

可能原因有以下:

l   OM_Agent已安装,无法检测到相关进程。

l   OM_Agent启动失败。

l   安装用户无crontab权限。

l   安装用户无文件目录权限。

  • 处理方法

                                步骤 1     执行如下命令查看om_agent日志,确认失败原因。

vim /home/Ruby/log/om_agent/agent.log

常见原因如下:

l   Failed to start om agentOM_Agent进程启动失败,请执行步骤2处理。

l   Failed to do crontab info:无crontab权限,请执行步骤3处理。

l   permission denied:无文件目录权限,请执行步骤4处理。

l   其他原因,请联系华为技术支持。

                                步骤 2     (可选)OM_Agent进程启动失败处理:

l   检查/dbs/om-agent/agent_xxx/common/目录下是否存在public_cloud.conf文件:若存在,请执行#ZH-CN_TOPIC_0000001731205641/zh-cn_topic_0000001562637417_li124457233505。若不存在,则需要配置该文件,配置完成后重新安装OM_Agent。配置方法可以参考同目录下的public_cloud.conf.sample文件进行参考配置。

l   执行ps ax | grep agent命令查看是否存在agent进程:若存在,则可以正常使用OM_Agent,安装时检测不到agent进程不影响正常使用。若不存在,请执行python3 /dbs/om-agent/agent_xxx/om_agent.py命令手动启动OM_Agent

                                步骤 3     (可选)使用root用户(若操作用户为非root用户,请执行su - root),执行命令echo Ruby >> /etc/cron.allow,将Ruby用户添加至crontab命令名单中,完成操作后重新安装OM_Agent

                                步骤 4     (可选)使用root用户(若操作用户为非root用户,请执行su - root),执行如下命令创建文件夹、并修改属主和属组,完成后重新安装OM_Agent

mkdir -p xxx
chown -R Ruby:Ruby xxx

----结束


18、数据库安装失败

  • 故障现象

安装数据库集群,安装失败,上报错误信息。

  • 故障原因

可能原因有以下:

l   OM_Agent已安装,无法检测到相关进程。

l   OM_Agent启动失败。

l   安装用户无crontab权限。

l   安装用户无文件目录权限。

  • 处理方法

                                步骤 1     执行如下命令查看om_agent日志,确认失败原因。

vim /home/Ruby/log/om_agent/agent.log

常见原因如下:

l   Failed to do decompress package Adaptor path is xxx:预安装解包失败,请执行步骤2处理。

l   available_zone is incorrect:安装包部署方式与配置部署方式不一致,请执行步骤3处理。

l   no route to host:防火墙或网络问题,请执行步骤4处理。

l   The ssl_server_crt_files does not existSSL证书问题,

l   其他原因,请联系华为技术支持。

                                步骤 2     (可选)预安装解包失败处理:

l   检查om_agent安装路径下,默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中,adaptorDir配置项是否为正确adaptor路径。

l   检查om_agent安装路径下,默认为/dbs/om-agent/agent_xxx/common/public_cloud.conf中,pkgDir路径是否存在,且集群用户拥有权限可以进入。

l   检查json中配置的包路径以及包名是否正确。

l   查看安装包的压缩是否符合规范。使用tar --no-same-owner --strip-components 1 -xf“安装包”,应在当前目录生成GaussDB-Kernel_503.1.XXX_***_***_Distributed.tar.gzGaussDB-Kernel_xxx_Om_xxx.tar.gz的压缩包。

                                步骤 3     (可选)确认部署方式:

l   检查安装包部署方式与安装配置文件中部署方式是否一致:若一致,请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1820100121114。若不一致,请修改后重新安装。

l   若此前安装过数据库,可能为环境变量问题导致,清除/home/Ruby/.bashrc/home/Ruby/gauss_env_file中的GPHOME环境变量,并重新安装。

                                步骤 4     (可选)根据日志判断启动ETCD遇到的问题,进行相应处理。

若日志报错存在no route to host,则为网络通讯异常,可能为防火墙配置问题导致。使用iptables -L systemctl status firewalld.service 命令查看防火墙状态,并检查配置,或关闭防火墙,完成后重新安装。

若日志报错存在context deadline exceeded,则可能为节点间时间不一致,导致ETCD安全认证失效无法连接,可以使用gs_ssh -c date命令查看集群各个节点的时间是否一致。若一致,请执行#ZH-CN_TOPIC_0000001731205721/zh-cn_topic_0000001511677428_li1352912137141。若不一致,请修改一致后重新安装。

若出现其余状况,请联系华为技术支持。

                                步骤 5     (可选)在安装OM_Agent时,om_agent.conf配置文件中存在agent_ssl配置项,该项为agent_ssl证书存放路径,若该路径下无相关证书,则会导致ssl认证异常,无法安装。在相关路径下增添ssl文件,具体操作参考《安装指南》中“安装前准备 > 生成集群安装所需要的证书”章节进行操作。

----结束



19、升级失败

  • 故障现象

在运维人员下发升级命令后,升级任务返回失败,或者内核升级日志报错。

  • 原因分析

可能的原因如下:

l   升级的目标版本和当前的基线版本一致,禁止升级。

l   集群组件升级失败。

l   由于部分DN集群状态不正常,导致数据库升级失败。

l   系统表、系统视图或者系统函数升级失败。

  • 处理方法

以下问题场景均以沙箱环境举例:

                                步骤 1     查看对应时间点的agent.log日志确认升级请求是否发送到内核。若包含关键词“upgrade command”,则执行步骤2;否则请联系华为技术支持。

cd /home/Ruby/log/om_agent  # 到agent.log日志目录
grep -rn "upgrade command" agent.log  # 根据对应下发升级请求时间,若查询到内容,说明升级请求已发送到内核

                                步骤 2     升级原因排查:

l   打开对应时间点的gs_upgradectl-*.log日志,查看目标版本是否正确。若正确,则执行步骤2.c;若不正确,请修改目标版本后重新进行升级操作。

l   日志中若包含如下信息,说明升级的目标版本和当前的基线版本一致,则禁止升级。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn “New cluster commitid cannot be same with old cluster commitid” gs_upgradectl-*.log

l   打开对应时间点的gs_upgradectl-*.log,日志中有"ERROR"或者"NOTICE: Failed to upgrade"或者"Failed to do inplace upgrade"关键词,根据步骤3-步骤5进一步确认并处理。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "NOTICE: Failed to upgrade" gs_upgradectl-*.log
grep -rn "Failed to do inplace upgrade" gs_upgradectl-*.log

                                步骤 3     (可选)确认是否由于集群状态不正常,导致升级失败,打开对应时间点的gs_upgradectl-*.log日志查看若包含如下内容,请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to roll switch all process by list" gs_upgradectl-*.log

                                步骤 4     (可选)打开对应时间点的gs_upgradectl-*.log日志,若包含如下关键词,说明DN故障,请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to get primary DN connection" gs_upgradectl-*.log

                                步骤 5     (可选)打开对应时间点的gs_upgradectl-*.log日志,若日志中有如下错误信息,说明系统表、系统视图或者系统函数升级失败,请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "Failed to execute update sql file" gs_upgradectl-*.log

                                步骤 6     问题解决后,打开对应时间点的gs_upgradectl-*.log日志,若日志中有如下信息,说明可重入升级,否则请联系华为技术支持。

source /home/Ruby/gauss_env_file   # 加载环境变量
cd $GAUSSLOG/om  # 进入OM日志文件夹
grep -rn "NOTICE: Rollback succeeded" gs_upgradectl-*.log

----结束

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。