小菜鸟

共享变量之累加器

发表于 2021-05-18 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

Spark累加器：分布式环境下的共享变量解析

在 Spark 分布式计算中，变量传递和数据聚合是常见的挑战。累加器（Accumulator）作为 Spark 提供的两种共享变量之一，能够高效地将 Executor 端的数据聚合到 Driver 端，解决了分布式环境下变量更新不可见的问题。本文将深入解析累加器的原理、用法及最佳实践。

累加器的核心概念与作用

为什么需要累加器？

在 Spark 中，当向 RDD 操作（如 map、foreach）传递函数时，函数中使用的变量会被复制到每个 Executor 节点，这些变量的更新不会反馈回 Driver 端。例如：

val rdd = sc.parallelize(1 to 100)  
var sum = 0  
rdd.foreach(x => sum += x)  // 每个 Executor 操作自己的 sum 副本  
println(sum)  // 输出结果为 0（Driver 端的 sum 未被更新）

问题本质：

闭包（Closure）中的变量会被序列化并复制到每个 Task；
Executor 对副本的修改不会影响 Driver 端的原始变量。

累加器的定义与特性

累加器是 Spark 提供的分布式只写共享变量，具有以下特性：

分布式：由 Driver 端创建，在 Executor 端被多个 Task 并行修改；
只写：Executor 只能累加（add）值，不能读取，只有 Driver 可以读取最终结果；
线程安全：Spark 保证累加器的更新操作是原子性的，避免多线程冲突。

累加器的类型与使用方法

Spark 内置累加器

Spark 提供了三种内置累加器类型：

阅读全文 »

scala闭包

发表于 2021-05-17 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 3.1k 阅读时长 ≈ 3 分钟

Scala 闭包与函数柯里化：函数式编程的高级特性

闭包（Closure）和函数柯里化（Currying）是 Scala 函数式编程中的两个核心概念。它们不仅增强了函数的灵活性，还为代码复用和模块化提供了强大支持。本文将深入解析闭包的本质、函数柯里化的实现及其应用场景。

闭包（Closure）：函数与环境的结合体

闭包是指一个函数与其引用的外部变量形成的整体。即使外部变量脱离了原有的作用域，只要闭包存在，这些变量就会被保留并供函数使用。

闭包的定义与示例

// 定义一个返回函数的高阶函数
def makeAdder(base: Int): Int => Int = {
  // 匿名函数引用了外部变量 base
  (x: Int) => base + x
}

// 创建闭包：base = 10 被保留在闭包中
val add10 = makeAdder(10)

// 调用闭包：使用保留的 base = 10
println(add10(5))  // 输出：15（10 + 5）
println(add10(3))  // 输出：13（10 + 3）

// 另一个闭包：base = 20 被保留
val add20 = makeAdder(20)
println(add20(5))  // 输出：25（20 + 5）

核心原理：

makeAdder 是一个高阶函数，返回一个匿名函数。
匿名函数 (x: Int) => base + x 引用了外部参数 base。
当 makeAdder(10) 被调用时，base 被固定为 10，与匿名函数绑定形成闭包 add10。
即使 makeAdder 执行结束，add10 仍能访问 base = 10，因为闭包保留了对该变量的引用。

闭包的本质

闭包本质上是一个携带状态的函数对象。在 Scala 中，闭包会被编译为 FunctionN 特质的实现类（如 Function1、Function2），外部变量会作为该对象的字段被保存。

阅读全文 »

RDD持久化

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

RDD持久化：缓存与检查点的深度解析

在 Spark 中，RDD 本身不存储数据，每次行动算子触发时都会重新计算整个依赖链。当需要重复使用 RDD 或应对节点故障时，持久化机制成为提升性能和保障容错的核心手段。本文详细讲解 RDD 持久化的两种方式 —— 缓存（Cache）和检查点（Checkpoint），分析其原理、区别及最佳实践。

RDD 持久化的必要性

避免重复计算

默认情况下，每个行动算子（如 collect、count）都会触发从头计算 RDD 依赖链。例如，若对同一个 RDD 执行两次 count，则会重复计算所有转换算子，造成资源浪费：

1
2
3

val rdd = sc.textFile("large_file.txt").flatMap(_.split(" ")).map((_, 1))  
rdd.count()  // 首次计算：textFile → flatMap → map  
rdd.count()  // 重复计算：textFile → flatMap → map（无持久化时）

应对节点故障

当 Executor 崩溃导致 RDD 分区数据丢失时，若无持久化，Spark 需通过血缘关系（Lineage）重算整个依赖链，耗时较长。持久化可保存中间结果，减少重算成本。

缓存（Cache / Persist）：内存级快速复用

缓存是最常用的持久化方式，通过 cache 或 persist 方法将 RDD 数据暂存于内存或磁盘，供后续操作快速复用。

缓存 API 与存储级别

`cache()` 方法

简化版缓存，内部调用persist(StorageLevel.MEMORY_ONLY)，默认将数据以非序列化形式存储在内存中：

阅读全文 »

RDD依赖关系

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.5k 阅读时长 ≈ 3 分钟

RDD依赖关系与血缘机制：容错与调度的核心逻辑

RDD 的依赖关系（Dependencies）是 Spark 容错机制和任务调度的核心基础。当某个 RDD 分区数据丢失或计算失败时，Spark 能通过依赖关系追溯到父 RDD，仅重算丢失的分区数据，而非整个数据集。本文深入解析 RDD 依赖的类型、血缘关系的作用，以及它们如何支撑 Spark 的高效分布式计算。

依赖关系的本质与作用

依赖关系的定义

RDD 是不可变的分布式数据集，本身不存储数据，仅记录计算逻辑。当通过转换算子（如 map、reduceByKey）生成新 RDD 时，新 RDD 会保存与父 RDD 的依赖关系（Dependency），描述 “如何从父 RDD 计算得到当前 RDD”。

核心作用：

容错性：当 RDD 分区数据丢失时，通过依赖关系追溯到父 RDD，重算丢失的分区；
任务调度：Spark 根据依赖类型划分 Stage（阶段），决定 Task 的分配和执行顺序；
优化执行：基于依赖关系优化计算路径（如合并连续的窄依赖转换）。

依赖关系的查看方法

Spark 提供 API 直接查看 RDD 的依赖关系和完整血缘：

查看直接依赖（`dependencies` 方法）

返回当前 RDD 与父 RDD 的直接依赖列表：

阅读全文 »

RDD序列化

发表于 2021-05-17 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 4.5k 阅读时长 ≈ 4 分钟

spark RDD序列化序列化详解与优化

在 Spark 分布式计算中，序列化是影响性能的关键因素之一。当数据在 Driver 与 Executor 之间传输，或需要持久化存储时，都需要进行序列化。本文深入分析 Spark 的序列化机制，对比 Java 与 Kryo 的差异，并提供优化实践指南。

序列化机制概述

序列化的作用

跨节点传输：将对象从 Driver 发送到 Executor，或在 Executor 之间交换数据；
持久化存储：将 RDD 缓存到内存或磁盘时，需要序列化对象；
任务闭包：Driver 端的变量和函数传递到 Executor 执行时，需序列化闭包。

Spark 支持的序列化方式

序列化方式	特点	性能	兼容性
Java 序列化	默认方式，支持所有实现 `Serializable` 的类，无需额外配置	低	高
Kryo 序列化	自定义二进制序列化，速度是 Java 的 10 倍，需注册类	高	中等
Avro/Protobuf	支持跨语言的结构化数据序列化，需依赖第三方库	高	高

Java 序列化与 Kryo 对比

Java 序列化

优点：无需额外配置，支持所有实现 java.io.Serializable 的类；
缺点：
- 序列化后的字节数大（通常是 Kryo 的 3~5 倍）；
- 序列化速度慢，影响网络传输和磁盘 I/O；
- 可能触发类加载问题（如版本不一致）。

示例：

阅读全文 »

Spark累加器：分布式环境下的共享变量解析

累加器的核心概念与作用

为什么需要累加器？

累加器的定义与特性

累加器的类型与使用方法

Spark 内置累加器

Scala 闭包与函数柯里化：函数式编程的高级特性

闭包（Closure）：函数与环境的结合体

闭包的定义与示例

闭包的本质

RDD持久化：缓存与检查点的深度解析

RDD 持久化的必要性

避免重复计算

应对节点故障

缓存（Cache / Persist）：内存级快速复用

缓存 API 与存储级别

cache() 方法

RDD依赖关系与血缘机制：容错与调度的核心逻辑

依赖关系的本质与作用

依赖关系的定义

依赖关系的查看方法

查看直接依赖（dependencies 方法）

spark RDD序列化序列化详解与优化

序列化机制概述

序列化的作用

Spark 支持的序列化方式

Java 序列化与 Kryo 对比

Java 序列化

`cache()` 方法

查看直接依赖（`dependencies` 方法）