小菜鸟

生产者如何保证不丢数据

发表于 2021-06-01 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 1.8k 阅读时长 ≈ 2 分钟

生产者如何保证不丢失数据：从机制到实践

Kafka 生产者确保数据不丢失的核心是通过确认机制（ACK）、副本同步策略和故障重试机制的协同作用，同时辅以幂等性和业务层去重解决潜在的数据重复问题。以下是具体实现方案：

核心机制：ACK 确认与副本同步

生产者数据不丢失的基础是 “消息必须被可靠写入并同步到足够多的副本”，这依赖于 ACK 确认级别和 ISR（同步副本集）的设计。

ISR（In-Sync Replica Set）：同步副本集的作用

定义：ISR 是与 Leader 副本保持实时同步的 Follower 副本集合（Leader 自身也包含在 ISR 中）。
同步判断：Follower 需在 replica.lag.time.max.ms（默认 30 秒）内成功从 Leader 拉取消息，否则会被踢出 ISR。
意义：ISR 确保了 “即使 Leader 故障，仍有其他副本持有最新数据”，新 Leader 会从 ISR 中选举，避免数据丢失。

ACK 确认级别：控制消息写入的可靠性

通过 acks 参数配置，决定生产者收到 Broker 确认的时机，直接影响数据可靠性：

ACK 级别	确认时机	可靠性	性能	数据丢失风险
`acks=0`	生产者不等待任何确认，直接发送下一条消息	最低	最高	极高（Broker 崩溃时，消息可能未写入磁盘）
`acks=1`（默认）	Leader 副本写入本地日志后立即确认	中等	中等	存在（Leader 写入后崩溃，Follower 未同步，则新 Leader 无此消息）
`acks=-1`（或 `acks=all`）	Leader 与所有 ISR 中的 Follower 均写入日志后确认	最高	最低	极低（只要 ISR 中至少 1 个副本存活，数据就不丢失）

阅读全文 »

消费者的分区分配策略

发表于 2021-06-01 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

Kafka 消费者的分区分配策略：从原理到实践

在 Kafka 中，当消费者组（Consumer Group）包含多个消费者时，如何将主题的分区（Partition）合理分配给消费者，直接影响消费效率和负载均衡。Kafka 提供了四种核心分区分配策略，每种策略适用于不同场景。本文将详细解析这些策略的原理、优缺点及适用场景。

分区分配的核心概念

消费者组（Consumer Group）：多个消费者组成的群体，共同消费一个或多个主题的消息，每个分区只能被组内一个消费者消费（避免重复消费）。
分配主体：分区分配由消费者组的协调者（Coordinator） 负责，通常是分区的 Leader 所在的 Broker。
触发时机：当消费者组发生以下变化时，会触发重新分配（Rebalance）：
- 消费者加入或离开组（如启动新消费者、消费者崩溃）。
- 主题的分区数量变化（如增加分区）。
- 消费者订阅的主题变化。

四种分区分配策略详解

1. RangeAssignor（范围分配，默认策略）

原理

按主题分组分配：先将消费者订阅的所有主题按名称排序，再为每个主题单独分配分区。
范围划分：对每个主题，将其分区按序号排序，然后平均分配给消费者。若分区数不能被消费者数整除，前几个消费者会多分配 1 个分区。

示例

场景：2 个消费者（C0、C1），1 个主题 T0（5 个分区：P0-P4）。
计算：5 个分区 ÷ 2 个消费者 = 2 个 / 人，余 1 个。
分配结果：
- C0：P0、P1、P2（多分配 1 个分区）
- C1：P3、P4

优缺点

优点：实现简单，保证每个主题的分区分配相对集中，减少跨消费者的分区分散。
缺点：当多个主题的分区数相同时，可能导致负载不均（前几个消费者分配更多分区）。
适用场景：消费者订阅相同的主题，且分区数较少的场景。

阅读全文 »

故障时保证数据一致性

发表于 2021-06-01 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 1.6k 阅读时长 ≈ 1 分钟

Kafka 故障时的数据一致性保障：LEO 与 HW 的核心作用

Kafka 中，数据一致性指的是分区的多个副本（Leader 与 Follower）之间数据的同步状态 —— 故障恢复后，所有副本应保持相同的数据内容。这一目标主要通过 LEO（Log End Offset） 和 HW（High Watermark） 两个核心指标，配合故障处理机制实现。

核心概念：LEO 与 HW

LEO（Log End Offset）

定义：每个副本（Leader 或 Follower）本地日志中 “下一条待写入消息的偏移量”，即当前日志中最后一条消息的偏移量 + 1。
举例：若副本日志中最后一条消息的偏移量是 5，则该副本的 LEO 为 6。
作用：标记副本当前的 “数据写入进度”，Leader 和 Follower 各自维护自己的 LEO。

HW（High Watermark，高水位）

定义：分区的 HW 是 ISR（同步副本集）中所有副本的 LEO 的最小值。
举例：若分区的 ISR 包含 Leader（LEO=10）和 Follower1（LEO=8）、Follower2（LEO=9），则该分区的 HW 为 8（三者 LEO 的最小值）。
核心意义：
- HW 是 “消费者可见的最大偏移量”，消费者只能读取到 HW 之前的消息（即偏移量 ≤ HW-1 的消息）。
- HW 之前的消息被认为是 “已提交的消息”（committed messages），确保所有 ISR 副本都已同步这些消息，即使发生故障也不会丢失。

故障处理：如何通过 LEO 和 HW 保证一致性

Follower 故障的恢复流程

Follower 故障后，需重新加入集群并与 Leader 同步数据，确保数据一致：

步骤 1：Follower 故障时，Kafka 会将其临时踢出 ISR（因无法在 replica.lag.time.max.ms 内同步数据）。
步骤 2：Follower 恢复后，首先读取本地磁盘记录的自身 HW，并截断日志中所有 offset ≥ HW 的消息（这些消息可能是故障前未同步完成的 “脏数据”）。
步骤 3：从自身 HW 开始，向 Leader 重新同步数据（拉取 Leader 中从该 HW 开始的消息）。
步骤 4：当 Follower 的 LEO 追上 Leader 的 LEO（或达到分区当前的 HW），证明其数据已与 Leader 一致，重新加入 ISR。

目的：通过截断未确认的消息并重新同步，确保 Follower 与 Leader 数据一致。

Leader 故障的恢复流程

Leader 故障后，需从 ISR 中选举新 Leader，并让其他副本与新 Leader 同步，保证数据一致：

阅读全文 »

windows进行端口映射

发表于 2021-06-01 更新于 2025-08-04 分类于 windows 阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

Windows 端口映射配置指南

在 Windows 系统中，可以通过netsh命令行工具的portproxy功能实现端口映射（端口转发），这在需要将外部网络请求转发到内网服务时非常有用（如远程访问内网服务器、游戏联机等场景）。

端口映射核心命令

1. 查询所有端口映射规则

查看当前系统中已配置的所有 IPv4 到 IPv4 的端口映射规则：

1	netsh interface portproxy show v4tov4

2. 筛选特定 IP 的映射规则

查询包含指定 IP 的所有端口映射（支持内网 IP 或外网 IP）：

1	netsh interface portproxy show v4tov4 \| find "目标IP"

示例：查询包含内网 IP 192.168.1.1 的映射规则

1	netsh interface portproxy show v4tov4 \| find "192.168.1.1"

3. 添加端口映射规则

将来自外网 IP: 外网端口的请求转发到内网 IP: 内网端口：

阅读全文 »

kafka数据存储机制

发表于 2021-06-01 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 3.7k 阅读时长 ≈ 3 分钟

Kafka 数据存储机制详解：从分区到日志文件的底层实现

Kafka 的高性能和高可靠性很大程度上依赖于其精巧的数据存储机制。从主题（Topic）的逻辑划分到分区（Partition）的物理存储，再到日志文件的分段与索引设计，每一层都经过优化以支持高吞吐、低延迟的消息读写。本文将以具体示例（3 个 Broker、3 个分区、2 个副本的主题）为切入点，深入解析 Kafka 数据存储的底层原理。

存储架构概览

Kafka 的数据存储遵循 “分层划分、分布式存储” 的原则，核心层次包括：

主题（Topic）：逻辑概念，用于分类消息（如 first 主题）。
分区（Partition）：物理概念，每个主题分为多个分区（如 3 个分区），是并行读写的基本单位。
副本（Replica）：每个分区有多个副本（如 2 个副本），实现高可用（Leader 副本处理读写，Follower 副本同步数据）。
日志段（LogSegment）：每个分区的日志文件被拆分为多个片段（.log 数据文件 + .index 索引文件），优化存储和查询效率。

以示例主题 first 为例（3 个 Broker、3 个分区、2 个副本），其存储架构如下：

Broker 分布：3 个 Broker（ID 为 0、1、2）。
分区副本分配：每个分区的 2 个副本分布在不同 Broker 上（如分区 0 的副本在 Broker 0 和 2 上）。
Leader 选举：每个分区的 Leader 副本分散在不同 Broker 上（如分区 0 的 Leader 在 Broker 2，分区 1 的 Leader 在 Broker 0），实现负载均衡。

分区：数据存储的基本单元

分区的核心作用

并行扩展：多个分区可分布在不同 Broker 上，支持并行读写（如 3 个分区可同时处理 3 倍于单分区的吞吐量）。
顺序写入：消息按顺序追加到分区的日志文件（磁盘顺序写性能接近内存）。
偏移量（Offset）：每个分区内的消息有唯一偏移量（从 0 开始递增），标记消息的位置（如分区 0 的第 1 条消息偏移量为 0，第 2 条为 1）。

分区的副本机制

以主题 first 为例，3 个分区的副本分配如下（信息存储在 ZooKeeper 的 /brokers/topics/first/partitions 节点）：

分区 ID	副本分布（Broker ID）	Leader 副本	ISR 列表（同步副本）
0	[2, 0]	2	[2, 0]
1	[0, 1]	0	[0, 1]
2	[1, 2]	1	[1, 2]

Leader 副本：处理所有读写请求（如分区 0 的 Leader 在 Broker 2）。
Follower 副本：从 Leader 同步数据（如分区 0 的 Follower 在 Broker 0），Leader 故障时可被选举为新 Leader。
ISR 列表：与 Leader 保持同步的副本（包括 Leader 自身），只有 ISR 中的副本可参与 Leader 选举。

ZooKeeper 中的分区元数据

Kafka 通过 ZooKeeper 存储分区的元数据（如 Leader 位置、ISR 列表），路径为 /brokers/topics/<topic>/partitions/<partition>/state。例如：

阅读全文 »