小菜鸟

spark streaming容错

发表于 2021-06-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.1k 阅读时长 ≈ 5 分钟

spark streaming容错机制详解：保障流处理的可靠性

在分布式系统中，节点故障、网络波动等问题难以避免。Spark Streaming 提供了完善的容错机制，通过检查点（Checkpoint） 实现状态恢复和驱动器容错，确保流处理作业在故障后可继续运行。本文将深入解析 Spark Streaming 的容错原理、检查点机制及驱动器恢复策略，帮助你构建高可靠的流处理系统。

Spark Streaming 容错的核心目标

流处理系统的容错需解决两大核心问题：

数据不丢失：确保从数据源接收的数据被正确处理，避免因故障导致数据丢失；
状态可恢复：在驱动器或工作节点故障后，能恢复流处理的中间状态和作业元数据；
作业连续性：故障恢复后，作业可从断点继续运行，无需从头重算。

检查点（Checkpoint）机制

检查点是 Spark Streaming 容错的核心，通过将关键信息持久化到可靠存储（如 HDFS），实现故障后的状态恢复。其核心作用包括：

检查点的两大目的

控制重算范围：将中间状态持久化，减少故障后需重算的数据量；
驱动器容错：保存 StreamingContext 的元数据，支持驱动器重启后恢复作业。

检查点的两种类型

检查点类型	存储内容	适用场景
元数据检查点	- `StreamingContext` 配置 - DStream 依赖关系 - 未完成的批次信息	驱动器故障恢复
数据检查点	- `updateStateByKey` 或窗口操作的中间状态 - 有状态转换的累计结果	状态恢复，避免重复计算

检查点存储介质

推荐：分布式文件系统（如 HDFS、S3），确保集群节点可访问；
不推荐：本地文件系统（仅限单机测试，集群环境下节点故障会导致数据丢失）。

阅读全文 »

垃圾回收

发表于 2021-06-17 更新于 2025-08-07 分类于 JVM 阅读次数： Valine：
本文字数： 4.4k 阅读时长 ≈ 4 分钟

JVM 垃圾回收（GC）：从标记到回收的完整机制

垃圾回收（Garbage Collection，GC）是 JVM 自动管理内存的核心机制，负责识别并回收不再被使用的对象，释放内存空间。GC 主要作用于堆内存和方法区，其设计直接影响程序的性能和稳定性。本文将全面解析 GC 的核心原理，包括对象存活判断、回收算法、垃圾回收器及实践配置，帮助深入理解 JVM 内存管理机制。

对象存活判断：如何识别 “垃圾”？

GC 的第一步是判断对象是否存活（即是否为 “垃圾”）。JVM 采用两种核心算法：引用计数法和可达性分析。

1. 引用计数法（Reference Counting）

原理：为每个对象维护一个 “引用计数器”，当对象被引用时计数器 + 1，引用失效时 - 1。若计数器为 0，则认为对象是垃圾。
优点：实现简单，判断效率高，回收无延迟。

缺点：

需额外存储计数器，增加内存开销；
无法解决循环引用问题（如两个对象互相引用，计数器永不为 0，导致无法回收）。

示例：

class A { B b; }
class B { A a; }
A a = new A();
B b = new B();
a.b = b; 
b.a = a; 
a = null; 
b = null; 
// 此时a和b互相引用，计数器均为1，引用计数法无法回收，导致内存泄漏

由于循环引用问题，Java 未采用此算法。

2. 可达性分析（Reachability Analysis）

原理：以 “根对象集合（GC Roots）” 为起点，通过引用链遍历对象。若对象无法通过任何引用链连接到 GC Roots，则被判定为 “不可达”（垃圾）。
解决循环引用：因 GC Roots 不包含堆内对象的引用，循环引用的对象若与 GC Roots 无连接，会被正确标记为垃圾。

（1）GC Roots 的类型

GC Roots 是不在堆中的引用，常见类型包括：

虚拟机栈中局部变量表的引用（如方法参数、局部变量）；
本地方法栈中 JNI（Native 方法）的引用；
方法区中类静态属性的引用（如 static Object obj）；
方法区中常量的引用（如字符串常量池的引用）；
被 synchronized 持有的对象引用；
JVM 内部引用（如基本类型的 Class 对象、系统类加载器）。

（2）对象的三种状态

通过可达性分析，对象会处于以下状态：

阅读全文 »

执行引擎

发表于 2021-06-16 更新于 2025-08-07 分类于 JVM 阅读次数： Valine：
本文字数： 1.8k 阅读时长 ≈ 2 分钟

JVM 执行引擎：连接字节码与机器指令的核心组件

执行引擎是 JVM 的 “心脏”，负责将字节码（.class 文件）翻译为操作系统可执行的机器指令。它是 JVM 实现 “一次编译，到处运行” 的关键环节，通过解释器与即时编译器（JIT）的协同工作，平衡启动速度与执行效率。本文将详细解析执行引擎的工作原理、核心组件及运行模式，揭示 Java 程序从字节码到机器指令的转换过程。

执行引擎的核心职责

执行引擎的核心任务是将字节码指令转换为目标平台的机器指令，并协调 JVM 各组件（如程序计数器、虚拟机栈、堆）完成指令执行。其工作流程可概括为：

从程序计数器获取下一条待执行的字节码指令；
解析字节码指令，获取操作数（如从局部变量表或常量池加载数据）；
将字节码指令翻译为机器指令，交由 CPU 执行；
更新程序计数器，指向后续指令，重复上述过程。

执行引擎的核心组件：解释器与 JIT 编译器

为平衡 “启动速度” 与 “执行效率”，现代 JVM（如 HotSpot）采用解释器 + 即时编译器（JIT） 的混合架构，两者协同工作：

解释器（Interpreter）

解释器是执行引擎的基础组件，采用逐行解释的方式执行字节码：

阅读全文 »

对象在JVM中的生活

发表于 2021-06-16 更新于 2025-08-07 分类于 JVM 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

对象在 JVM 中的生命周期：从创建到访问的完整历程

在 Java 中，“万物皆对象”，对象是程序运行的核心载体。从对象的创建、内存分配，到在 JVM 中的存储布局，再到如何被访问，每一步都遵循 JVM 的严格规范。本文将详细解析对象在 JVM 中的 “一生”，包括创建方式、JVM 处理流程、内存布局及访问定位机制。

对象的创建方式

Java 中创建对象的方式多样，不同方式对应不同的底层实现，核心区别在于是否依赖构造器、权限要求等：

创建方式	核心原理	特点与限制
`new` 关键字	直接调用类的构造器	最常用，可调用任意权限的构造器（public/protected/private）。
`Class.newInstance()`	反射调用无参构造器	仅支持无参构造器，且构造器必须为 `public`（JDK 9+ 后放宽限制，但仍需可访问）。
`Constructor.newInstance()`	反射调用指定构造器	支持任意参数的构造器，无权限限制（即使构造器为 `private`，也可通过反射访问）。
`clone()` 方法	复制已有对象的内存数据	需实现 `Cloneable` 接口（否则抛 `CloneNotSupportedException`），不调用构造器。
反序列化	从字节流恢复对象	需类实现 `Serializable` 接口，不调用构造器，通过输入流重建对象。

JVM 中对象的创建步骤

以最常见的 new TestObject() 为例，其在 JVM 中的创建过程可分为 6 个核心步骤，对应字节码指令如下：

阅读全文 »

字符串常量

发表于 2021-06-16 更新于 2025-08-07 分类于 JVM 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

Java 字符串常量与常量池：深度解析

String 作为 Java 中最常用的引用类型，其 “不可变性” 和 “字符串常量池” 机制是优化内存使用、提升性能的核心。本文将从字符串的不可变性出发，详细解析字符串常量池的结构、存储位置演变、字符串拼接规则及 intern() 方法的底层逻辑，帮助理解 String 类型的底层工作机制。

字符串的不可变性

String 被设计为不可变字符序列（Immutable），其不可变性体现在：一旦字符串对象被创建，其内部的字符序列（value 数组）就无法被修改。任何看似 “修改” 字符串的操作（如重新赋值、拼接、替换）都会创建新的字符串对象，而非修改原有对象。

不可变性的三种表现

重新赋值：原字符串对象不变，变量指向新的内存地址。

1 2	String s = "hello"; s = "world"; // "hello" 仍存在于常量池，s 指向新的 "world" 对象

字符串拼接：生成新的字符串对象，原对象不变。

1 2	String s1 = "a"; String s2 = s1 + "b"; // s1 仍为 "a"，s2 指向新的 "ab" 对象

replace() 方法：返回新的字符串，原对象内容不变。

1 2	String s = "abc"; String s2 = s.replace('a', 'x'); // s 仍为 "abc"，s2 为 "xbc"

不可变性的实现原理

String 类的核心是内部的 value 数组（存储字符），其被 private final 修饰：

阅读全文 »