Kafka使用最佳实践-Kafka集群操作规范

举报
FI小粉丝 发表于 2021/05/25 17:05:58 2021/05/25
【摘要】 Kafka集群在使用过程中会出现各种各样的操作场景,修改配置参数、集群异常等各种重启场景等,操作过程中需要注意一些注意事项。 离线重启kafka集群如果需要修改kafka服务端的配置,点击保存配置后,不要勾选“重新启动受影响的服务或实例”。重启kafka进程前,需要停止生产端的业务,否则很容易出现kafka由于数据不同步导致的无法启动或者启动缓慢。停止生产端业务后,等待1~2分钟,停止kaf...

Kafka集群在使用过程中会出现各种各样的操作场景,修改配置参数、集群异常等各种重启场景等,操作过程中需要注意一些注意事项。

离线重启kafka集群

  1. 如果需要修改kafka服务端的配置,点击保存配置后,不要勾选“重新启动受影响的服务或实例”。

  2. 重启kafka进程前,需要停止生产端的业务,否则很容易出现kafka由于数据不同步导致的无法启动或者启动缓慢。

  3. 停止生产端业务后,等待1~2分钟,停止kafka集群,等待集群完全停止后再启动kafka集群。

  4. 等待集群中所有的实例状态变为“良好”后,执行./kafka-topics.sh --describe –zookeeper zkip:24002/kafka 查看是否存在leader:-1或者leader:none的分区。如果没有启动生产业务即可。

滚动重启kafka集群

重启前准备

  1. 安装kafka的客户端,见产品文档:前提条件。
  2. 操作过程请选择在集群业务数据量低峰期操作。
  3. 如果集群中有使用sparkStreaming的业务需要,关闭对应topic的unclean参数,见《Spark2x中使用SparkStreaming消费kafka数据常见的问题》。
    操作步骤:
  1. 使用客户端执行命令:
    ./kafka-topics.sh –zookeeper zookeeperip:24002/kafka --describe --under-replicated-partitions

检查结果是否为空,如果为空则执行第下一步。如果不为空则需要按照《副本同步线程异常下线排查和解决办法》修复,直到上述命令执行为空(注意:修复并且重启过的节点在后面的滚动重启步骤中可以跳过)。为空则执行下一步。
2) 进入kafka实例列表,对kafka的一个实例进行手动重启。

  1. 重启完成并且节点状态变为良好后,进入kafka后台客户端再次查询未完全同步的分区,持续执行,直到查询结果为空为止。

  2. 执行leader均衡操作:
    ./kafka-preferred-replica-election.sh --zookeeper zookeeperIP:24002/kafka
    得到以下结果后表示执行完成:

  3. 执行步骤2)指导集群中所有的实例重启结束。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。