小菜鸟

kafka分区

发表于 2020-10-09 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 4.2k 阅读时长 ≈ 4 分钟

Kafka 分区操作详解：Leader 平衡与分区迁移

Kafka 分区是实现高可用和高吞吐的核心单元，分区的 Leader 副本负责处理读写请求，而副本分布直接影响集群负载均衡。当集群发生节点故障、扩容或缩容时，需通过分区操作（如 Leader 平衡、分区迁移）确保集群稳定高效。本文将详细介绍分区 Leader 平衡和分区迁移的操作方法、原理及实践场景。

分区 Leader 平衡

Kafka 主题的每个分区包含多个副本，其中Leader 副本负责处理读写请求，Follower 副本仅同步数据。理想情况下，Leader 副本应均匀分布在集群节点上，避免单个节点负载过高。当节点故障恢复后，原 Leader 可能未自动复位，导致负载不均衡，此时需通过Leader 平衡重新分配。

自动平衡

通过配置参数启用自动平衡，Kafka 控制器会定期检测并调整 Leader 分布。

（1）核心配置

auto.leader.rebalance.enable：是否启用自动 Leader 平衡（默认 true）。
leader.imbalance.check.interval.seconds：检查间隔（默认 300 秒，即 5 分钟）。
leader.imbalance.per.broker.percentage：触发平衡的不均衡阈值（默认 10%，即某节点 Leader 占比超过平均 10% 时触发）。

（2）原理

控制器定期检查各节点的 Leader 数量，计算不均衡比例。
当比例超过阈值时，将优先副本（Preferred Replica） 选举为新 Leader（优先副本是创建分区时指定的第一个副本，通常分布均衡）。

手动平衡

自动平衡可能因阈值或间隔设置导致响应不及时，此时需手动触发平衡，使用 kafka-preferred-replica-election.sh 脚本。

（1）操作步骤

① 定义需平衡的分区

创建 JSON 文件（如 preferred-replica.json），指定目标主题和分区：

{
  "partitions": [
    {"topic": "test-kafka-cluster", "partition": 0},
    {"topic": "test-kafka-cluster", "partition": 1},
    {"topic": "test-kafka-cluster", "partition": 2}
  ]
}

若需平衡所有分区，可省略 partition 字段（不推荐，可能影响集群性能）。

② 执行手动平衡

# Linux/Mac
./kafka-preferred-replica-election.sh \
  --bootstrap-server localhost:9092,localhost:9093 \
  --path-to-json-file preferred-replica.json

# Windows
kafka-preferred-replica-election.bat ^
  --bootstrap-server localhost:9092,localhost:9093 ^
  --path-to-json-file preferred-replica.json

（2）适用场景

集群刚重启，所有 Leader 集中在单个节点。
自动平衡未触发（如阈值未达），但负载已明显不均衡。

分区迁移

分区迁移用于调整副本的节点分布，适用于集群扩容（将旧节点分区迁移到新节点）、节点下线（将待下线节点的分区迁移到其他节点）或增加副本数（提升可靠性）。通过 kafka-reassign-partitions.sh 脚本实现。

核心流程

分区迁移分为三步：生成迁移方案 → 执行迁移 → 验证结果，核心是通过 JSON 文件定义迁移规则。

节点下线场景

若需下线 Broker ID=2 的节点，需先将其负责的分区迁移到其他节点（如 0 和 1）。

（1）生成迁移方案

① 定义待迁移主题

创建 JSON 文件（如 topics-to-move.json），指定目标主题：

{
  "topics": [{"topic": "test-replication"}],
  "version": 1
}

② 生成分区分配方案

./kafka-reassign-partitions.sh \
  --zookeeper localhost:2181 \
  --topics-to-move-json-file topics-to-move.json \
  --broker-list "0,1"  # 允许迁移的目标节点
  --generate

输出示例：

# 当前分配方案（可备份，用于回滚）
Current partition replica assignment
{"version":1,"partitions":[{"topic":"test-replication","partition":0,"replicas":[2,0],...}]}

# 建议的新分配方案（无节点2）
Proposed partition reassignment configuration
{"version":1,"partitions":[{"topic":"test-replication","partition":0,"replicas":[0,1],...}]}

（2）执行迁移

将建议的方案保存为 reassignment.json，执行迁移：

./kafka-reassign-partitions.sh \
  --zookeeper localhost:2181 \
  --reassignment-json-file reassignment.json \
  --execute

原理：目标节点创建分区目录 → 复制原分区数据 → 同步完成后切换 Leader → 删除原节点数据。

（3）验证迁移进度

./kafka-reassign-partitions.sh \
  --zookeeper localhost:2181 \
  --reassignment-json-file reassignment.json \
  --verify

输出 Status of partition reassignment: Completed 表示迁移完成。

集群扩容场景

新增节点后，旧主题的分区不会自动迁移到新节点，需手动触发迁移，步骤与节点下线类似，但 --broker-list 需包含新节点 ID。

示例：新增节点 ID=3，将部分分区迁移到 3：

# reassignment.json（示例）
{
  "version": 1,
  "partitions": [
    {"topic": "test-replication", "partition": 0, "replicas": [3, 0]},
    {"topic": "test-replication", "partition": 1, "replicas": [3, 1]}
  ]
}

增加副本数

通过迁移可增加分区的副本数（如从 2 副本增至 3 副本），需在 reassignment.json 中指定新增的副本节点。

示例：为分区 0 增加副本至节点 2：

{
  "version": 1,
  "partitions": [
    {"topic": "test-replication", "partition": 0, "replicas": [0, 1, 2]}  # 原2副本→3副本
  ]
}

迁移限流

迁移过程可能占用大量网络带宽，需限制复制速率，避免影响集群服务。

（1）通过脚本参数限流

./kafka-reassign-partitions.sh \
  --zookeeper localhost:2181 \
  --reassignment-json-file reassignment.json \
  --execute \
  --throttle 1048576  # 限制为 1MB/s（1024*1024 字节）

（2）通过动态配置限流

# 限制主题的 Leader 和 Follower 复制速率
./kafka-configs.sh \
  --zookeeper localhost:2181 \
  --entity-type topics \
  --entity-name test-replication \
  --alter \
  --add-config leader.replication.throttled.rate=1048576,follower.replication.throttled.rate=1048576

最佳实践

Leader 平衡：
- 生产环境建议启用自动平衡，同时监控 Leader 分布（通过 kafka-topics --describe）。
- 手动平衡仅在紧急情况下使用（如集群重启后）。
分区迁移：
- 迁移应在业务低峰期执行，避免影响读写性能。
- 迁移前备份当前分配方案，以便回滚。
- 限流值根据集群带宽调整（如 10-50MB/s），避免过度限制导致迁移耗时过长。
副本分布：
- 新增主题时确保副本均匀分布在所有节点（通过 --replication-factor 和分区数控制）。
- 节点下线前务必完成分区迁移，避免数据丢失

kafka配置

发表于 2020-10-09 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 4k 阅读时长 ≈ 4 分钟

Kafka 配置管理详解：kafka-configs 脚本与配置管理机制

Kafka 提供了 kafka-configs 脚本用于集中管理集群中的各类配置，支持对主题（topics）、代理（brokers）、客户端（clients）和用户（users）的配置进行新增、修改、删除和查询。这些配置存储在 ZooKeeper 中，通过统一的节点路径进行管理，确保集群配置的一致性和可追溯性。本文将详细介绍配置管理的核心概念、操作命令及底层存储机制。

配置管理核心概念

配置实体类型（entity-type）

Kafka 支持对四类实体进行配置管理，对应不同的业务场景：

实体类型（entity-type）	描述	配置用途
`topics`	主题级配置	覆盖主题的默认参数（如消息保留时间、最大消息大小）。
`brokers`	代理级配置	控制 Broker 行为（如副本同步速率限制）。
`clients`	客户端级配置	限制特定客户端的流量（如生产者 / 消费者每秒字节数）。
`users`	用户级配置	对特定用户进行权限和流量控制（结合 Kafka 安全机制）。

配置存储机制

所有配置均存储在 ZooKeeper 的指定节点路径中，结构如下：

配置节点：
1
/config/<entity-type>/<entity-name>
- 例如：主题 test-topic 的配置存储在 /config/topics/test-topic。
变更记录：配置修改后，会在 /config/changes 下生成变更记录（如 config_change_0000000001），用于追踪配置历史。

配置优先级

Kafka 配置遵循 “层级覆盖” 原则：

阅读全文 »

kafka消费者

发表于 2020-10-09 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 6.1k 阅读时长 ≈ 6 分钟

Kafka 消费者详解：从命令行到源码实现

Kafka 消费者是消息处理的终端，负责从 Kafka 集群拉取（pull）消息并进行业务处理。与生产者的推（push）模式不同，消费者采用拉取模式主动获取消息，且通过消费者组（Consumer Group） 机制实现消息的负载均衡与重复消费控制。本文将从命令行工具、核心配置、工作原理到源码实现，全面解析 Kafka 消费者。

消费者核心概念

消费者组：多个消费者组成一个组，共同消费一个或多个主题。同一组内的消费者分工合作，每个分区只能被组内一个消费者消费（避免重复消费）。
消息拉取：消费者主动从 Broker 的分区拉取消息，而非 Broker 推送，灵活控制消费速度。
偏移量（Offset）：记录消费者已消费到的位置，确保重启后从断点继续消费。偏移量存储在 Kafka 内部主题 __consumer_offsets 中（0.9 版本后）。
单播与广播：
- 单播：同一条消息仅被同一消费者组的一个消费者消费（默认模式）。
- 广播：不同消费者组可消费同一条消息（通过多组订阅实现）。

命令行消费者工具：kafka-console-consumer

Kafka 提供 kafka-console-consumer.sh（Linux/Mac）或 kafka-console-consumer.bat（Windows）工具，用于快速测试消费消息。

基本使用

（1）消费最新消息

从主题的最新位置（latest）开始消费，仅接收新写入的消息：

# Linux/Mac
./kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test-topic

# Windows
kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic test-topic

（2）从开头消费所有消息

通过 --from-beginning 从主题的最早位置（earliest）开始消费历史消息：

阅读全文 »

kafka生产者

发表于 2020-10-09 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 5.2k 阅读时长 ≈ 5 分钟

Kafka 生产者深度解析：从命令行到源码实现

Kafka 生产者是消息流入 Kafka 集群的入口，负责将业务数据可靠、高效地发送到指定主题。无论是通过命令行工具快速发送消息，还是通过 KafkaProducer 客户端进行编程式集成，理解其工作机制、配置参数及底层流程都是优化性能和确保可靠性的关键。本文将从命令行工具、核心配置、性能测试到源码实现，全面解析 Kafka 生产者。

命令行生产者工具：kafka-console-producer

Kafka 提供 kafka-console-producer.sh（Linux/Mac）或 kafka-console-producer.bat（Windows）工具，用于快速通过命令行发送消息，适合测试和调试场景。

基本使用

（1）发送无 Key 消息

# Linux/Mac
./kafka-console-producer.sh --bootstrap-server localhost:9092 --topic test-topic

# Windows
kafka-console-producer.bat --bootstrap-server localhost:9092 --topic test-topic

输入消息并回车即可发送，每条输入会作为一条消息发送到 test-topic。

（2）发送带 Key 消息

通过 --property parse.key=true 启用 Key 解析，Key 与 Value 用Tab 键分隔：

# 发送带 Key 的消息（Key 为 "user1"，Value 为 "hello"）
./kafka-console-producer.sh --bootstrap-server localhost:9092 \
  --topic test-topic \
  --property parse.key=true \
  --property key.separator=$'\t'  # 指定分隔符为 Tab（默认）

输入 user1<Tab>hello 并回车，消息 Key 为 user1，Value 为 hello。

核心参数说明

参数	作用	默认值
`--bootstrap-server`	Kafka 集群地址（替代旧版 `--broker-list`）	无（必传）
`--topic`	目标主题名称	无（必传）
`--property`	自定义属性（如 `parse.key=true` 启用 Key 解析）	无
`--producer-property`	生产者配置（如 `acks=all`）	无
`--sync`	同步发送消息（默认异步）	`false`
`--compression-codec`	消息压缩算法（`none`/`gzip`/`snappy` 等）	`none`

生产者核心配置参数

Kafka 生产者的行为由一系列配置参数控制，可通过配置文件或代码指定。核心参数如下：

阅读全文 »

kafka主题

发表于 2020-10-09 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Kafka 主题（Topic）操作全解析：命令、源码与实践

Kafka 主题（Topic）是消息的逻辑容器，所有消息都需发送到指定主题。Kafka 提供了 kafka-topics.sh（或 .bat）脚本用于主题的创建、删除、查询和修改等操作。本文将详细介绍主题的核心操作命令、底层实现原理及最佳实践，帮助深入理解主题管理机制。

主题操作脚本与核心原理

脚本入口：kafka-topics

Kafka 主题操作的脚本是 kafka-topics.sh（Linux/Mac）或 kafka-topics.bat（Windows），其核心是调用 kafka.admin.TopicCommand 类执行操作：

1 2	# 脚本核心逻辑（kafka-topics.sh） exec $(dirname $0)/kafka-run-class.sh kafka.admin.TopicCommand "$@"

TopicCommand 类的 main 方法解析命令参数，根据操作类型（创建、删除等）调用对应逻辑，底层通过 ZooKeeper 或 Kafka Admin API 交互。

主题创建的底层流程

主题创建分为客户端发起和服务端处理两个阶段：

客户端阶段：
- 通过 kafka-topics 脚本发送创建请求，包含主题名、分区数、副本数等参数。
- 客户端将主题元数据（如分区 - 副本分配方案）写入 ZooKeeper 的 /brokers/topics/[topic] 节点。
服务端阶段：
- Kafka 控制器（Controller）监听 ZooKeeper 节点变化，发现新主题后触发创建流程。
- 控制器在指定 Broker 上创建分区目录（如 topic-0、topic-1），并初始化 Leader 和 Follower 副本。

核心主题操作命令

创建主题（—create）

创建主题需指定分区数、副本数和 Kafka 集群地址，核心参数：

阅读全文 »