建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
093454tjmehwgqrskef4if.jpg 云数据库夏日特惠

华籍美人

发帖: 4粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020-6-12 15:28:04 303 7
直达本楼层的链接
楼主
显示全部楼层
[问题求助] GaussDB T 分布式数据库恢复之后不能启动

环境是:GaussDB T 1.0.1三节点分布式,架构如图:

az_state :      single_az
cluster_state : Normal
balanced :      true
----------------------------------------------------------------------AZ Status-----------------------------------------------------------------------
AZ:AZ1                ROLE:primary            STATUS:ONLINE
---------------------------------------------------------------------Host Status----------------------------------------------------------------------
HOST:cluster1         AZ:AZ1                  STATUS:ONLINE       IP:192.168.86.230
HOST:cluster2         AZ:AZ1                  STATUS:ONLINE       IP:192.168.86.231
HOST:cluster3         AZ:AZ1                  STATUS:ONLINE       IP:192.168.86.232
----------------------------------------------------------------Cluster Manager Status----------------------------------------------------------------
INSTANCE:CM1          ROLE:primary            STATUS:ONLINE       HOST:cluster1         ID:601
INSTANCE:CM2          ROLE:slave              STATUS:ONLINE       HOST:cluster2         ID:602
INSTANCE:CM3          ROLE:slave              STATUS:ONLINE       HOST:cluster3         ID:603
---------------------------------------------------------------------ETCD Status----------------------------------------------------------------------
INSTANCE:ETCD1        ROLE:follower           STATUS:ONLINE       HOST:cluster1         ID:701      PORT:2379         DataDir:/opt/huawei/gaussdb/data/data_etcd1
INSTANCE:ETCD2        ROLE:leader             STATUS:ONLINE       HOST:cluster2         ID:702      PORT:2379         DataDir:/opt/huawei/gaussdb/data/data_etcd1
INSTANCE:ETCD3        ROLE:follower           STATUS:ONLINE       HOST:cluster3         ID:703      PORT:2379         DataDir:/opt/huawei/gaussdb/data/data_etcd1
----------------------------------------------------------------------CN Status-----------------------------------------------------------------------
INSTANCE:cn_401       ROLE:no role            STATUS:ONLINE       HOST:cluster1         ID:401      PORT:8000         DataDir:/opt/huawei/gaussdb/data/data_cn
INSTANCE:cn_402       ROLE:no role            STATUS:ONLINE       HOST:cluster2         ID:402      PORT:8000         DataDir:/opt/huawei/gaussdb/data/data_cn
INSTANCE:cn_403       ROLE:no role            STATUS:ONLINE       HOST:cluster3         ID:403      PORT:8000         DataDir:/opt/huawei/gaussdb/data/data_cn
---------------------------------------------------------Instances Status in Group (group_1)----------------------------------------------------------
INSTANCE:DB1_1        ROLE:primary            STATUS:ONLINE       HOST:cluster1         ID:1        PORT:40000        DataDir:/opt/huawei/gaussdb/data/data_dn1
INSTANCE:DB1_2        ROLE:standby            STATUS:ONLINE       HOST:cluster2         ID:2        PORT:40042        DataDir:/opt/huawei/gaussdb/data/data_dn1
INSTANCE:DB1_3        ROLE:standby            STATUS:ONLINE       HOST:cluster3         ID:3        PORT:40021        DataDir:/opt/huawei/gaussdb/data/data_dn1
---------------------------------------------------------Instances Status in Group (group_2)----------------------------------------------------------
INSTANCE:DB2_5        ROLE:standby            STATUS:ONLINE       HOST:cluster1         ID:5        PORT:40021        DataDir:/opt/huawei/gaussdb/data/data_dn2
INSTANCE:DB2_4        ROLE:primary            STATUS:ONLINE       HOST:cluster2         ID:4        PORT:40000        DataDir:/opt/huawei/gaussdb/data/data_dn2
INSTANCE:DB2_6        ROLE:standby            STATUS:ONLINE       HOST:cluster3         ID:6        PORT:40042        DataDir:/opt/huawei/gaussdb/data/data_dn2
---------------------------------------------------------Instances Status in Group (group_3)----------------------------------------------------------
INSTANCE:DB3_8        ROLE:standby            STATUS:ONLINE       HOST:cluster1         ID:8        PORT:40042        DataDir:/opt/huawei/gaussdb/data/data_dn3
INSTANCE:DB3_9        ROLE:standby            STATUS:ONLINE       HOST:cluster2         ID:9        PORT:40021        DataDir:/opt/huawei/gaussdb/data/data_dn3
INSTANCE:DB3_7        ROLE:primary            STATUS:ONLINE       HOST:cluster3         ID:7        PORT:40000        DataDir:/opt/huawei/gaussdb/data/data_dn3

通过GaussRoach.py备份到NBU成功,从NBU恢复成功,最后启动的时候失败

启动指令:

python GaussRoach.py -t start --media-type NBU

打印了Configuring datanode以后就无限等待了。

查看roach-controll.log最后两行是:

[2020-06-12 00:12:06,552] [INFO]: build standby instance DB3_8. [ConfigStandbyDn.py:238]
[2020-06-12 00:12:06,552] [INFO]: build standby instance DB2_5. [ConfigStandbyDn.py:238]

同一时间,zengine.rlog打印了:

UTC-4 2020-06-12 00:12:06.589|ZENGINE|00000|31862|INFO>[BUILD] backup to remote start [knl_build.c:518]
UTC-4 2020-06-12 00:12:06.772|ZENGINE|00000|31867|WARN>GS-00751:[BACKUP] build failed, error:751, backup already running, can not start another process,backup already running, can not start another process [knl_build.c:454]
UTC-4 2020-06-12 00:12:06.772|ZENGINE|00000|7953747406003141755|ERROR>GS-00751:Remote backup failed, thread exit,backup already running, can not start another process [srv_replica.c:485]
UTC-4 2020-06-12 00:12:06.774|ZENGINE|00000|31867|ERROR>GS-00751:[MAIN] epoll remove fd failed, session 54, os error 2,backup already running, can not start another process [srv_session.c:480]
UTC-4 2020-06-12 00:12:07.786|ZENGINE|00000|140655884008573|WARN>GS-00751:[BACKUP] build failed, error:751, backup already running, can not start another process,backup already running, can not start another process [knl_build.c:454]
UTC-4 2020-06-12 00:12:07.786|ZENGINE|00000|7953747406003141757|ERROR>GS-00751:Remote backup failed, thread exit,backup already running, can not start another process [srv_replica.c:485]
UTC-4 2020-06-12 00:12:07.786|ZENGINE|00000|31869|ERROR>GS-00751:[MAIN] epoll remove fd failed, session 54, os error 2,backup already running, can not start another process [srv_session.c:480]
UTC-4 2020-06-12 00:12:08.795|ZENGINE|00000|140655884008575|WARN>GS-00751:[BACKUP] build failed, error:751, backup already running, can not start another process,backup already running, can not start another process [knl_build.c:454]
UTC-4 2020-06-12 00:12:08.795|ZENGINE|00000|7953747406003141759|ERROR>GS-00751:Remote backup failed, thread exit,backup already running, can not start another process [srv_replica.c:485]
UTC-4 2020-06-12 00:12:08.795|ZENGINE|00000|31871|ERROR>GS-00751:[MAIN] epoll remove fd failed, session 54, os error 2,backup already running, can not start another process [srv_session.c:480]
UTC-4 2020-06-12 00:12:09.802|ZENGINE|00000|140655884008577|WARN>GS-00751:[BACKUP] build failed, error:751, backup already running, can not start another process,backup already running, can not start another process [knl_build.c:454]
UTC-4 2020-06-12 00:12:09.802|ZENGINE|00000|7953747406003141761|ERROR>GS-00751:Remote backup failed, thread exit,backup already running, can not start another process [srv_replica.c:485]
UTC-4 2020-06-12 00:12:09.802|ZENGINE|00000|31873|ERROR>GS-00751:[MAIN] epoll remove fd failed, session 54, os error 2,backup already running, can not start another process [srv_session.c:480]
UTC-4 2020-06-12 00:12:10.806|ZENGINE|00000|140655884008579|WARN>GS-00751:[BACKUP] build failed, error:751, backup already running, can not start another process,backup already running, can not start another process [knl_build.c:454]
......

错误码:GS-00751,请协助调查原因,附件为节点1的日志打包。(节点23的报错地方是一样的)

举报
分享

分享文章到朋友圈

分享文章到微博

华籍美人

发帖: 4粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020-6-12 15:28:54
直达本楼层的链接
沙发
显示全部楼层

日志

log.zip 772.26 KB,下载次数:1

点赞 评论 引用 举报

社会主义的一块砖

发帖: 77粉丝: 13

级别 : 版主

发消息 + 关注

发表于2020-6-12 15:50:18
直达本楼层的链接
板凳
显示全部楼层

从错误码的解释来看,是因为并发执行备份恢复了。必须要串行执行。

评论
华籍美人 2020-6-12 16:10 评论

嗯手册也是这么说,但是解释的不太具体,具体是并发还是串行我这边也控制不了。

... 查看全部
华籍美人 2020-6-12 16:12 评论

简单看了下脚本,貌似是两个线程同时build standby instance导致冲突

... 查看全部
点赞 评论 引用 举报

Gauss_666

发帖: 0粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020-6-18 16:07:22
直达本楼层的链接
地板
显示全部楼层

datanode日志里的错误打印是CM下发的build命令。

build发往两个备机,但是对于主机来讲,还是串行的,先build完一个,再build下一个。

先开始的能先build,后开始的日志里面就会打印这个日志,直到第一个build结束。

这个日志打印应该不影响,最后可以启动成功的。

评论
华籍美人 2020-6-19 09:51 评论

你好,我是等了十几个小时都没启动成功,备DN的zengine.rlog停在了remote backup, standby connect to primary 192.168...,主DN的zengine.rlog依然在循环打印GS-00751。

... 查看全部
点赞 评论 引用 举报

风起云涌1

发帖: 138粉丝: 5

级别 : 外部版主

发消息 + 关注

发表于2020-6-18 16:14:27
直达本楼层的链接
5#
显示全部楼层

学习一下

点赞 评论 引用 举报

华籍美人

发帖: 4粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020-6-19 10:03:54
直达本楼层的链接
6#
显示全部楼层

恢复数据后手动重建一个备DN也是卡在了remote backup, standby connect to primary,主备部署没有这种情况。我应该留意哪个日志文件能找到原因?

点赞 评论 引用 举报

Gauss_666

发帖: 0粉丝: 0

级别 : 新手上路

发消息 + 关注

发表于2020-6-19 11:07:03
直达本楼层的链接
7#
显示全部楼层

问题看起来是两个备机build都是在等待,但是DB3_8是正常在发送redo日志数据。请在两个问题datanode备机上,检查一下dv_ha_sync_info中连接到的主机,是否是期望的主机。如果有问题的话,请检查一下ARCHIVE_DEST_2是否配置正确。

点赞 评论 引用 举报

风起云涌1

发帖: 138粉丝: 5

级别 : 外部版主

发消息 + 关注

发表于7 天前
直达本楼层的链接
8#
显示全部楼层

来学习

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册