小菜鸟

kafka streams

发表于 2020-10-19 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 6.7k 阅读时长 ≈ 6 分钟

Kafka Streams 详解：实时流处理框架核心与实践

Kafka Streams 是 Apache Kafka 生态中用于构建实时流处理应用的 Java 库，它紧密集成 Kafka 消息系统，支持分布式、有状态的流处理，且具备容错性和水平扩展能力。与 Spark Streaming、Flink 等框架相比，Kafka Streams 更轻量（无需独立集群），并天然依托 Kafka 的分区机制实现高效并行处理。本文将深入解析其核心概念、关键特性及实践案例。

Kafka Streams 概述

核心定位

Kafka Streams 是一个客户端库（非独立服务），用于处理 Kafka 主题中的流式数据：

输入：一个或多个 Kafka 主题（作为数据源）。
处理：通过用户定义的逻辑（如过滤、转换、聚合、关联）实时处理数据。
输出：处理结果写入新的 Kafka 主题（或外部系统）。

其设计目标是简化实时流处理开发，同时保持高吞吐量、低延迟和容错性。

可解决的问题

实时处理：支持 “逐条处理”（而非微批处理），满足低延迟需求。
有状态操作：支持聚合（如计数）、关联（Join）等需要保存中间状态的操作。
乱序数据处理：通过时间窗口和事件时间（Event Time）机制处理乱序数据。
分布式与容错：基于 Kafka 分区实现水平扩展，自动恢复故障节点的状态。
数据重处理：依托 Kafka 消息的持久化特性，支持从历史数据重新处理。

核心概念

流（Stream）

流是 Kafka Streams 最基础的抽象，代表无限、有序、可重放的键值对序列：

阅读全文 »

kafka客户端流程分析

发表于 2020-10-19 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 4k 阅读时长 ≈ 4 分钟

Kafka 生产者内部工作原理详解

Kafka 生产者（Producer）的高效运作是其高吞吐量特性的核心保障。从初始化到消息发送，Kafka 设计了一套精巧的机制，包括异步 I/O、批量处理、元数据管理等。本文将深入解析生产者的初始化过程和消息发送的完整流程，结合核心源码片段揭示其内部工作机制。

生产者初始化流程

Kafka 生产者的初始化过程主要是创建核心组件（如 Sender、I/O 线程）并完成配置加载，为后续消息发送做好准备。

核心组件初始化

生产者初始化的关键是创建 Sender 对象和 I/O 线程，代码片段如下：

// 实例化Sender对象（负责消息发送逻辑）
this.sender = newSender(logContext, kafkaClient, this.metadata);

// 初始化I/O线程（执行Sender的run方法）
String ioThreadName = NETWORK_THREAD_PREFIX + " | " + clientId;
this.ioThread = new KafkaThread(ioThreadName, this.sender, true);
this.ioThread.start();

Sender：封装了消息发送的核心逻辑，包括从缓存中提取消息、创建请求、与 Broker 通信等。
KafkaThread：是 Thread 的子类，专门用于执行 Sender 的 run 方法（异步 I/O 操作），标记为守护线程（true），确保主线程退出时自动终止。

其他关键组件

初始化过程中还会创建以下核心组件：

RecordAccumulator：消息缓冲区，负责将消息按分区聚合为批次（ProducerBatch），优化网络传输效率。
Metadata：维护 Kafka 集群的元数据（如 Broker 地址、主题分区信息、Leader 副本位置等），为消息路由提供依据。
NetworkClient：基于 NIO 的网络客户端，封装了与 Broker 的通信细节（如 TCP 连接、请求发送、响应处理）。

消息发送完整流程

生产者发送消息的过程可分为 5 个核心步骤：拉取元数据 → 序列化消息 → 路由分区 → 写入缓存 → 发送到 Broker。

拉取元数据（Metadata）

消息发送前需确保客户端持有最新的集群元数据（如目标主题的分区分布、Leader 副本所在 Broker），否则无法确定消息应发送到哪个 Broker。

阅读全文 »

kafka自定义组件

发表于 2020-10-18 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 8.5k 阅读时长 ≈ 8 分钟

Kafka 自定义组件详解：分区器、序列化器与拦截器

Kafka 提供了灵活的扩展机制，允许用户通过自定义组件（如分区器、序列化器、拦截器）满足特定业务需求。这些组件可深度集成到消息生产流程中，实现消息路由、格式转换、内容增强等个性化功能。本文将详细介绍如何开发和使用这些自定义组件，并解析其执行顺序与应用场景。

自定义分区器（Partitioner）

Kafka 默认分区策略基于消息键（Key）的哈希值分配分区，但在复杂业务场景（如按地区、用户类型路由消息）中，需自定义分区逻辑。

核心接口与方法

自定义分区器需实现 org.apache.kafka.clients.producer.Partitioner 接口，核心方法：

方法	作用
`int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster)`	计算消息应发送到的分区编号，返回值为分区索引（从 0 开始）。
`void configure(Map<String, ?> configs)`	初始化配置（如从生产者配置中读取参数）。
`void close()`	资源清理（如关闭连接、释放内存）。

实现示例：按业务类型分区

假设需将包含 “order” 的消息发送到分区 0，包含 “log” 的消息发送到分区 1，其他消息按 Key 哈希分配：

阅读全文 »

下载spark

发表于 2020-10-15 更新于 2021-05-12 分类于 spark 阅读次数： Valine：
本文字数： 37 阅读时长 ≈ 1 分钟

mac上下载spark使用

1	brew install apache-spark

阅读全文 »

二进制数

发表于 2020-10-14 更新于 2025-08-02 分类于计算机基础阅读次数： Valine：
本文字数： 1.6k 阅读时长 ≈ 1 分钟

二进制数的表示与运算：原码、反码、补码与移码

二进制是计算机存储和运算的基础，带符号的二进制数通过特定编码方式（原码、反码、补码、移码）处理正负值，其中补码是计算机底层实际采用的存储形式。以下从编码规则、表示范围到存储原理展开详细说明：

二进制数的符号表示与基本概念

符号位

二进制数用最高位表示正负：0代表正数，1代表负数。
例如：4 位二进制中，0011表示+3，1011表示-3（最高位1为符号位）。

真值与机器数

真值：带符号位的二进制数对应的实际数值（如+3、-3）。
机器数：计算机中实际存储的带符号二进制数（如0011、1011）。

字长

指计算机一次可处理的二进制位数（如 32 位、64 位），决定了数值的表示范围。

四种编码方式的规则与示例

设字长为n位（含 1 位符号位），以n=4为例（符号位 1 位，数值位 3 位）：

原码

规则：
- 正数：符号位为0，数值位为真值的绝对值（如+3→0011）。
- 负数：符号位为1，数值位为真值的绝对值（如-3→1011）。
特殊值：
- +0原码为0000，-0原码为1000（存在两个 0 的表示）。
示例：

| 真值 | 原码 |
| —— | —— |
| +3 | 0011 |
| -3 | 1011 |
| +0 | 0000 |
| -0 | 1000 |

阅读全文 »