Kafka网络中断和网络分区场景分析

举报
中间件小哥 发表于 2022/07/07 17:33:51 2022/07/07
【摘要】 Kafka网络中断和网络分区场景分析

Kafka 2.7.1版本为例,依赖zk方式部署

3broker分布在3az3zk(和broker合部),单分区3副本


1.    单个broker节点和leader节点网络中断

网络中断前:

broker-1broker-0leader)间的网络中断后,单边中断,zk可用zk-1leaderzk-0zk-2followerzk-0会不可用,但zk集群可用,过程中可能会引起原本连在zk-0上的broker节点会先和zk断开,再重新连接其他zk节点,进而引起controller切换、leader选举等,此次分析暂不考虑这种情况)leaderisrcontroller都不变


az2内的客户端无法生产消费(metadata指明leaderbroker-0,而az2连不上broker-0),az1/3内的客户端可以生产消费,若acks=-1retries=1,则生产消息会失败,error_code=7REQUEST_TIMED_OUT)(因为broker-1isr中,但无法同步数据),且会发两次(因为retries=1),broker-0broker-2中会各有两条重复的消息,而broker-1中没有;由于broker-0没有同步数据,因此会从isr中被剔除,controller同步metadataleaderAndIsrisr更新为[2,0]


网络恢复后,数据同步,更新isr

2.    单个broker节点和controller节点网络中断

brokercontroller断连,不影响生产消费,也不会出现数据不一致的情况


而当发生leaderisr变化时,controller无法将leaderisr的变化更新给broker,导致元数据不一致


broker-0故障时,controllerbroker-2)感知,并根据replicas选举新的leaderbroker-1,但因为和broker-1网络中断,无法同步给broker-1broker-1缓存的leader依然是broker-0isr[1,2,0];当客户端进行生产消费时,如果从broker-2拿到metadata,认为leader1,访问broker-1会返回NOT_LEADER_OR_FOLLOWER;如果从broker-1拿到metadata,认为leader0,访问broker-0失败,都会导致生产消费失败

 

3.    非controller节点所在az被隔离(分区)


zk-0zk-1zk-2不通,少于半数,az1zk不可用,broker-0无法访问zk,不会发生controller选举,controller还是在broker-1

网络恢复后,broker-0加入集群,并同步数据

3.1 三副本partitionreplicas:[1,0,2]),原leaderbroker-1(或broker-2


az1内:

broker-0无法访问zk,感知不到节点变化,metadata不更新(leader1isr[1,0,2]),依然认为自己是followerleader1az1内的客户端无法生产消费

az2/3内:

zk可用,感知到broker-0下线,metadata更新,且不发生leader切换(isr[1,0,2] -> [1,2]leader1);az2az3内的客户端可正常生产消费

3.2 三副本partitionreplicas:[0,1,2]),原leaderbroker-0


az1内:

zk-0zk-1zk-2连接中断,少于一半,az1zk集群不可用,Broker-0连不上zk,无法感知节点变化,且无法更新isrmetadata不变,leaderisr都不变;az1内客户端可以继续向broker-0生产消费

az2/3内:

zk-1zk-2连通,zk可用,集群感知到broker-0下线,触发leader切换,broker-1成为新的leader(时间取决于 zookeeper.session.timeout.ms),并更新israz2/3内的客户端可以向broker-1生产消费

 

此时,该分区出现了双主现象,replica-0replica-1均为leader,均可以进行生产消费

若两个隔离域内的客户端都生产了消息,就会出现数据不一致的情况

示例:(假设网络隔离前有两条消息,leaderEpoch=0

网络隔离前:


az1隔离后,分区双主,az1内的客户端写入3条消息:cdeaz2/3内的客户端写入2条消息:fg


这里leaderEpoch增加2,是因为有两次增加leaderEpoch的操作:一次是PartitionStateMachinehandleStateChanges to OnlinePartition时的leader选举,一次是ReplicationStateMachine handleStateChanges to OfflineReplica 时的removeReplicasFromIsr

网络恢复后:


由于controllerbroker-2,缓存和zk中的leader都是broker-1controller会告知broker-0 makerFollowerbroker-0随即add fetcher,会先从leaderbroker-1)获取leaderEpoch对应的endOffset(通过OFFSET_FOR_LEADER_EPOCH),根据返回的结果进行truncate,然后开始FETCH消息,并根据消息中的leaderEpoch进行assign,以此和leader保持一致


待数据同步后,加入isr,并更新isr[1,2,0]。之后在触发preferredLeaderElection时,broker-0再次成为leader,并增加leaderEpoch3

 

在网络隔离时,若az1内的客户端acks=-1retries=3,会发现生产消息失败,而数据目录中有消息,且为生产消息数的4倍(每条消息重复4次)


有前面所述可知,网络恢复后,offset2-13的消息会被覆盖,但因为这些消息在生产时,acks=-1,给客户端返回的是生产失败的,因此也不算消息丢失

因此,考虑此种情况,建议客户端acks=-1

 

4.    Controller节点所在az被隔离(分区)

4.1 Leader节点未被隔离


网络中断后,az3zk不可用,broker-2(原controller)从zk集群断开,broker-0broker-1重新竞选controller


最终broker-0选举为controller,而broker-2也认为自己是controller,出现controller双主,同时因连不上zkmetadata无法更新,az3内的客户端无法生产消费,az1/2内的客户端可以正常生产消费


故障恢复后,broker-2感知到zk连接状态发生变化,会先resign,再尝试竞选controller,发现broker-0已经是controller了,放弃竞选controller,同时,broker-0会感知到broker-2上线,会同步LeaderAndIsrmetadatabroker-2,并在broker-2同步数据后加入isr


 

4.2 Leader节点和controller为同一节点,一起被隔离

隔离前,controllerleader都在broker-0


隔离后,az1网络隔离,zk不可用,broker-2竞选为controller,出现controller双主,同时replica-2成为leader,分区也出现双主


此时的场景和3.2类似,此时生产消息,可能出现数据不一致


网络恢复后的情况,也和3.2类似,broker-2controllerleaderbroker-0根据leaderEpoch进行truncate,从broker-2同步数据


加入isr,然后通过preferredLeaderElection再次成为leaderleaderEpoch1

 

5.    补充:故障场景引起数据不一致

5.1 数据同步瞬间故障

初始时,broker-0leaderbroker-1follower,各有两条消息ab


leader写入一条消息c,还没来得及同步到follower,两个broker都故障了(如下电):


之后broker-1先启动,成为leader01都在isr中,无论unclean.leader.election.enable是否为true,都能升主),并递增leaderEpoch


然后broker-0启动,此时为follower,通过OFFSET_FOR_LEADER_EPOCHbroker-1获取leaderEpoch=0endOffset


broker-0根据leader epoch endOffset进行truncate


之后正常生产消息和副本同步:


该过程,如果acks=-1,则生产消息c时,返回客户端的是生产失败,不算消息丢失;如果acks=01,则消息c丢失

5.2 unclean.leader.election.enable=true引起的数据丢失

还是这个例子,broker-0leaderbroker-1follower,各有两条消息ab,此时broker-1宕机,isr=[0]


broker-1故障期间,生产消息c,因为broker-1已经不在isr中了,所以即使acks=-1,也能生产成功


然后broker-0也宕机,leader=-1isr=[0]


此时broker-1先拉起,若 unclean.leader.election.enable=true,那么即使broker-1不在isr中,因为broker-1是唯一活着的节点,因此broker-1会选举为leader,并更新leaderEpoch2


这时,broker-0再拉起,会先通过 OFFSET_FOR_LEADER_EPOCH,从broker-1获取epoch信息,并进行数据截断


再进行生产消息和副本同步


消息c丢失

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。