小菜鸟

RDD持久化

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

RDD持久化：缓存与检查点的深度解析

在 Spark 中，RDD 本身不存储数据，每次行动算子触发时都会重新计算整个依赖链。当需要重复使用 RDD 或应对节点故障时，持久化机制成为提升性能和保障容错的核心手段。本文详细讲解 RDD 持久化的两种方式 —— 缓存（Cache）和检查点（Checkpoint），分析其原理、区别及最佳实践。

RDD 持久化的必要性

避免重复计算

默认情况下，每个行动算子（如 collect、count）都会触发从头计算 RDD 依赖链。例如，若对同一个 RDD 执行两次 count，则会重复计算所有转换算子，造成资源浪费：

1
2
3

val rdd = sc.textFile("large_file.txt").flatMap(_.split(" ")).map((_, 1))  
rdd.count()  // 首次计算：textFile → flatMap → map  
rdd.count()  // 重复计算：textFile → flatMap → map（无持久化时）

应对节点故障

当 Executor 崩溃导致 RDD 分区数据丢失时，若无持久化，Spark 需通过血缘关系（Lineage）重算整个依赖链，耗时较长。持久化可保存中间结果，减少重算成本。

缓存（Cache / Persist）：内存级快速复用

缓存是最常用的持久化方式，通过 cache 或 persist 方法将 RDD 数据暂存于内存或磁盘，供后续操作快速复用。

缓存 API 与存储级别

`cache()` 方法

简化版缓存，内部调用persist(StorageLevel.MEMORY_ONLY)，默认将数据以非序列化形式存储在内存中：

阅读全文 »

RDD依赖关系

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.5k 阅读时长 ≈ 3 分钟

RDD依赖关系与血缘机制：容错与调度的核心逻辑

RDD 的依赖关系（Dependencies）是 Spark 容错机制和任务调度的核心基础。当某个 RDD 分区数据丢失或计算失败时，Spark 能通过依赖关系追溯到父 RDD，仅重算丢失的分区数据，而非整个数据集。本文深入解析 RDD 依赖的类型、血缘关系的作用，以及它们如何支撑 Spark 的高效分布式计算。

依赖关系的本质与作用

依赖关系的定义

RDD 是不可变的分布式数据集，本身不存储数据，仅记录计算逻辑。当通过转换算子（如 map、reduceByKey）生成新 RDD 时，新 RDD 会保存与父 RDD 的依赖关系（Dependency），描述 “如何从父 RDD 计算得到当前 RDD”。

核心作用：

容错性：当 RDD 分区数据丢失时，通过依赖关系追溯到父 RDD，重算丢失的分区；
任务调度：Spark 根据依赖类型划分 Stage（阶段），决定 Task 的分配和执行顺序；
优化执行：基于依赖关系优化计算路径（如合并连续的窄依赖转换）。

依赖关系的查看方法

Spark 提供 API 直接查看 RDD 的依赖关系和完整血缘：

查看直接依赖（`dependencies` 方法）

返回当前 RDD 与父 RDD 的直接依赖列表：

阅读全文 »

RDD序列化

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

spark RDD序列化序列化详解与优化

在 Spark 分布式计算中，序列化是影响性能的关键因素之一。当数据在 Driver 与 Executor 之间传输，或需要持久化存储时，都需要进行序列化。本文深入分析 Spark 的序列化机制，对比 Java 与 Kryo 的差异，并提供优化实践指南。

序列化机制概述

序列化的作用

跨节点传输：将对象从 Driver 发送到 Executor，或在 Executor 之间交换数据；
持久化存储：将 RDD 缓存到内存或磁盘时，需要序列化对象；
任务闭包：Driver 端的变量和函数传递到 Executor 执行时，需序列化闭包。

Spark 支持的序列化方式

序列化方式	特点	性能	兼容性
Java 序列化	默认方式，支持所有实现 `Serializable` 的类，无需额外配置	低	高
Kryo 序列化	自定义二进制序列化，速度是 Java 的 10 倍，需注册类	高	中等
Avro/Protobuf	支持跨语言的结构化数据序列化，需依赖第三方库	高	高

Java 序列化与 Kryo 对比

Java 序列化

优点：无需额外配置，支持所有实现 java.io.Serializable 的类；
缺点：
- 序列化后的字节数大（通常是 Kryo 的 3~5 倍）；
- 序列化速度慢，影响网络传输和磁盘 I/O；
- 可能触发类加载问题（如版本不一致）。

示例：

阅读全文 »

源码分析之上下文构建

发表于 2021-05-17 更新于 2025-08-25 分类于 spring 阅读次数： Valine：
本文字数： 13k 阅读时长 ≈ 11 分钟

Spring 上下文构建源码深度解析：从 ClassPathXmlApplicationContext 到 IOC 容器就绪

Spring 上下文（ApplicationContext）是 IOC 容器的核心载体，负责配置加载、BeanDefinition 管理、Bean 实例化与初始化的全流程。以 ClassPathXmlApplicationContext 为例，其初始化过程围绕 refresh() 方法展开，这是 Spring 最核心的源码链路之一。从 “构造函数初始化→refresh() 全景流程→关键子流程拆解→核心设计思想” 四个维度，彻底讲透上下文构建的每一步。

上下文初始化入口：ClassPathXmlApplicationContext 构造函数

创建 ClassPathXmlApplicationContext 实例时，仅需一行代码，但背后触发了完整的初始化流程：

1	ApplicationContext context = new ClassPathXmlApplicationContext("spring-lifecycle.xml");

构造函数核心逻辑

构造函数的本质是 “初始化配置路径 + 触发上下文刷新”，源码如下（已简化关键逻辑）：

// ClassPathXmlApplicationContext 构造函数
public ClassPathXmlApplicationContext(String[] configLocations, boolean refresh, ApplicationContext parent) {
    super(parent); // 初始化父上下文（若有）
    setConfigLocations(configLocations); // 1. 保存配置文件路径（如 "spring-lifecycle.xml"）
    if (refresh) {
        refresh(); // 2. 核心：触发上下文刷新（IOC 容器初始化的入口）
    }
}

阅读全文 »

数据读取与保存

发表于 2021-05-16 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.4k 阅读时长 ≈ 5 分钟

spark数据读取与保存全解析

Spark 支持多种数据格式的读写操作，包括文本文件、JSON、CSV、SequenceFiles 等。不同格式有其特定的读写方式和优化策略，本文将详细介绍各格式的操作要点及最佳实践。

文本文件（TextFile）

文本文件是最基础的数据格式，Spark 通过 textFile 和 saveAsTextFile 方法进行读写。

核心 API

读取：sc.textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]
写入：rdd.saveAsTextFile(path: String)

示例代码

// 读取本地文本文件（每行作为一个元素）  
val textRDD = sc.textFile("file:///path/to/local/file.txt")  

// 读取 HDFS 文本文件  
val hdfsRDD = sc.textFile("hdfs://namenode:port/path/to/hdfs/file.txt")  

// 写入文本文件（输出为目录，包含多个 part-* 文件）  
textRDD.saveAsTextFile("hdfs:///output/text_result")

注意事项

分区控制：minPartitions 参数可指定最小分区数，但实际分区数可能受文件块大小影响（如 HDFS 默认 128MB / 块）；
写入格式：输出为目录，每个分区生成一个 part-* 文件，需使用文件系统命令合并（如 hdfs dfs -getmerge）；
编码问题：默认使用 UTF-8 编码，可通过 spark.io.encoding 配置修改。

JSON 格式

JSON 是半结构化数据的主流格式，Spark 支持通过自定义解析或 DataFrame API 处理。

手动解析 JSON（RDD 方式）

使用第三方库（如 Jackson、Gson）手动解析 JSON 字符串。

示例代码

阅读全文 »

RDD持久化：缓存与检查点的深度解析

RDD 持久化的必要性

避免重复计算

应对节点故障

缓存（Cache / Persist）：内存级快速复用

缓存 API 与存储级别

cache() 方法

RDD依赖关系与血缘机制：容错与调度的核心逻辑

依赖关系的本质与作用

依赖关系的定义

依赖关系的查看方法

查看直接依赖（dependencies 方法）

spark RDD序列化序列化详解与优化

序列化机制概述

序列化的作用

Spark 支持的序列化方式

Java 序列化与 Kryo 对比

Java 序列化

Spring 上下文构建源码深度解析：从 ClassPathXmlApplicationContext 到 IOC 容器就绪

上下文初始化入口：ClassPathXmlApplicationContext 构造函数

构造函数核心逻辑

spark数据读取与保存全解析

文本文件（TextFile）

核心 API

示例代码

注意事项

JSON 格式

手动解析 JSON（RDD 方式）

示例代码

`cache()` 方法

查看直接依赖（`dependencies` 方法）