小菜鸟

RDD编程

发表于 2021-05-15 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 10k 阅读时长 ≈ 9 分钟

Spark RDD 编程全指南：从创建到算子实战

RDD（弹性分布式数据集）是 Spark 分布式计算的核心抽象，其编程模型基于转换算子（Transformations） 和行动算子（Actions） 实现数据处理。本文系统讲解 RDD 的创建方式、分区控制及核心算子的使用场景与实战示例，帮助开发者掌握 RDD 编程的核心技巧。

RDD 的创建方式

RDD 的创建是 Spark 编程的第一步，根据数据源不同，可分为从集合（内存）创建和从外部存储（文件）创建两大类。

1. 从集合（内存）创建 RDD

适用于本地测试或小型数据集，通过 SparkContext 的 parallelize 或 makeRDD 方法将内存集合转换为 RDD。

核心方法

parallelize(seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]
makeRDD(seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]（内部调用 parallelize）

示例代码

import org.apache.spark.{SparkConf, SparkContext}  

object RDDCreate {  
  def main(args: Array[String]): Unit = {  
    // 初始化 Spark 配置与上下文  
    val conf = new SparkConf().setMaster("local[*]").setAppName("RDDCreate")  
    val sc = new SparkContext(conf)  

    // 定义内存集合  
    val list = List(1, 2, 3, 4, 5)  

    // 方式 1：parallelize 创建 RDD  
    val rdd1 = sc.parallelize(list)  
    // 方式 2：makeRDD 创建 RDD（推荐，语法更简洁）  
    val rdd2 = sc.makeRDD(list)  

    // 打印 RDD 内容（行动算子触发计算）  
    rdd2.collect().foreach(println)  

    // 关闭上下文  
    sc.stop()  
  }  
}

分区控制

numSlices 参数指定分区数，默认值为 Spark 配置的 spark.default.parallelism（未配置时为 CPU 核心数）。分区数决定并行计算的 Task 数量：

阅读全文 »

scala样例类

发表于 2021-05-14 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Scala 样例类（Case Class）：模式匹配的完美搭档

样例类（Case Class）是 Scala 中一种特殊的类，专门为模式匹配和不可变数据建模设计。它自动生成了一系列常用方法，大幅简化了数据封装和匹配的代码。本文将详细解析样例类的特性、用法及适用场景。

样例类的定义与基本特性

样例类通过 case class 关键字定义，与普通类相比，它具有以下默认特性：

// 定义样例类（无需 new 关键字即可创建实例）
case class Student(id: Int, name: String, age: Int)

// 创建实例（自动生成 apply 方法，无需 new）
val stu1 = Student(1, "Alice", 20)
val stu2 = Student(2, "Bob", 21)

自动生成的方法

样例类会自动生成以下方法，无需手动实现：

apply 方法：允许直接通过类名创建实例（如 Student(1, "Alice", 20)），无需 new 关键字。
unapply 方法：支持模式匹配（核心特性），可从实例中提取构造参数。
toString 方法：返回格式化的字符串（如 Student(1, Alice, 20)），便于调试。
equals 和 hashCode 方法：基于构造参数实现，支持值比较（而非引用比较）。
copy 方法：用于创建实例的副本，可修改部分参数（适合不可变数据）。

样例类的核心特性详解

不可变的构造参数

样例类的构造参数默认被 val 修饰（不可变），确保实例创建后无法修改：

case class Book(isbn: String, title: String)

val book = Book("978-0134685991", "Scala Programming")

// 编译错误：无法修改 val 变量
// book.title = "New Title"

阅读全文 »

scala视图

发表于 2021-05-14 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Scala 视图（View）：懒加载的集合操作机制

在 Scala 中，视图（View）是一种特殊的集合转换机制，它通过懒加载（Lazy Evaluation） 延迟执行集合操作，直到真正需要结果时才计算。这种特性可以显著提升处理大型集合或复杂操作时的性能，避免不必要的中间计算。本文将详细解析视图的工作原理、使用场景及优势。

视图的基本概念

视图本质上是对集合操作的延迟封装。当对集合应用 view 方法后，后续的转换操作（如 map、filter、flatMap 等）不会立即执行，而是被记录下来，直到调用触发计算的方法（如 toList、size、foreach 等）时，才会一次性执行所有操作。

核心特性：

延迟执行：转换操作仅在需要结果时才执行，而非立即计算。
避免中间集合：普通集合操作会产生多个中间集合（如 list.filter(...).map(...) 会先生成过滤后的集合，再生成映射后的集合），而视图不会创建中间集合，直接在最终计算时一次性完成所有操作。
适用于大型集合：对于数据量巨大或计算成本高的场景，视图能减少内存占用和计算开销。

视图的使用方法

创建视图

通过集合的 view 方法创建视图，后续操作将变为懒加载：

val numbers: List[Int] = List(1, 2, 3, 4, 5, 6)

// 创建视图，后续操作（filter）将延迟执行
val evenView = numbers.view.filter(_ % 2 == 0)

// 此时 filter 尚未执行，evenView 仅记录了操作
println(evenView)  // 输出：View(<not computed>)

触发计算

当调用需要实际结果的方法时，视图会执行所有延迟的操作：

阅读全文 »

spark核心数据结构之RDD

发表于 2021-05-14 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 4.3k 阅读时长 ≈ 4 分钟

spark核心数据结构：RDD 深度解析与原理剖析

RDD（Resilient Distributed Dataset，弹性分布式数据集）是 Spark 最核心的抽象，贯穿了 Spark 分布式计算的整个生命周期。它不仅是数据的载体，更是 Spark 实现高效并行计算、容错机制和灵活编程模型的基础。本文基于 Spark 源码注释，详细讲解 RDD 的五大核心属性、特性及底层实现原理，帮助开发者从根本上理解 Spark 数据处理的逻辑。

RDD 核心定义与本质

RDD 是 Spark 对分布式数据的抽象，可理解为一个不可变、可分区、可并行计算且具备容错机制的分布式元素集合。其核心定义在 Spark 源码中通过五大属性描述，这些属性决定了 RDD 的行为和功能：

/* Internally, each RDD is characterized by five main properties:
*  
*  - A list of partitions  
*  - A function for computing each split  
*  - A list of dependencies on other RDDs  
*  - Optionally, a Partitioner for key-value RDDs  
*  - Optionally, a list of preferred locations to compute each split on  
*/

RDD 五大核心属性详解

分区列表（Partitions）：并行计算的基础

定义

protected def getPartitions: Array[Partition]
RDD 由多个分区（Partition）组成，每个分区是 RDD 数据的一个子集，分布在集群的不同节点上。分区是 Spark 并行计算的最小单位，一个分区对应一个 Task 任务。

核心作用

并行计算：多个分区可被分配到不同 Executor 并行处理，充分利用集群算力；
数据本地化：分区数据存储在集群节点上，任务调度时优先在数据所在节点执行，减少网络传输；
规模扩展：通过调整分区数量，适配不同数据量（如 1TB 数据可分为 1000 个分区，每个分区约 1GB）。

示例

读取 HDFS 文件创建的 RDD，分区数默认与 HDFS 块数一致（默认 128MB / 块）；
通过 rdd.getNumPartitions 可获取分区数，通过 repartition(num) 可调整分区数。

分区计算函数（Compute）：数据处理的逻辑

定义

def compute(split: Partition, context: TaskContext): Iterator[T]
该函数定义了如何计算 RDD 中单个分区的数据，是 RDD 转换和行动操作的核心执行逻辑。

核心作用

惰性计算：compute 函数仅在 Action 操作触发时才会执行，避免不必要的中间计算；
分区独立计算：每个分区的计算逻辑独立，无需依赖其他分区的数据（除非有 Shuffle 依赖）；
迭代器优化：返回值为 Iterator（迭代器），支持流式处理，减少内存占用（无需一次性加载整个分区数据）。

示例

map 操作的 compute 函数：对分区迭代器中的每个元素应用映射逻辑；
filter 操作的 compute 函数：对分区迭代器中的元素进行过滤，保留符合条件的元素。

阅读全文 »

spark组件说明

发表于 2021-05-13 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

spark核心组件与调度机制全解析：从架构到任务执行

Spark 作为分布式计算引擎，其高效运行依赖于清晰的组件分工和优化的任务调度机制。本文详细讲解 Spark 核心组件（Driver、Executor、Cluster Manager）的角色与职责，并深入剖析任务从提交到执行的完整调度流程，帮助开发者理解 Spark 分布式计算的底层逻辑。

Spark 核心组件架构

Spark 采用 “Driver-Executor-Cluster Manager” 三层架构，各组件协同工作实现分布式任务的提交、调度与执行。其架构图如下：

Driver 驱动器：任务的 “大脑”

Driver 是 Spark 应用的主控节点，负责管理应用的生命周期和任务调度，是整个程序的 “大脑”。

核心职责

解析用户程序：将用户代码（如 Scala/Java/Python 程序）转换为逻辑执行计划（DAG 有向无环图）。
生成物理执行计划：将 DAG 拆分为多个 Stage（阶段），每个 Stage 包含一组可并行执行的 Task（任务）。
调度任务：向 Cluster Manager 申请资源（Executor），并将 Task 分配到 Executor 上执行。
监控任务执行：跟踪 Task 状态（成功 / 失败），处理任务失败重试，收集执行结果。
管理元数据：维护 RDD 血缘关系（Lineage）、广播变量、累加器等元数据信息。

运行位置

客户端模式（Client Mode）：Driver 运行在提交任务的客户端机器上（如开发者的笔记本），适合交互式场景（如 Spark Shell）。
集群模式（Cluster Mode）：Driver 运行在 Cluster Manager 管理的集群节点上，适合生产环境批量任务，避免客户端故障影响任务。

Executor 执行器：任务的 “工人”

Executor 是运行在 Worker 节点上的进程，负责实际执行 Task 并存储中间数据，是 Spark 任务的 “执行者”。

核心职责

执行 Task：接收 Driver 分配的 Task，运行具体计算逻辑（如 map、reduce 操作）。
存储数据：通过 Block Manager 缓存 RDD 数据（内存或磁盘），支持数据复用以减少重复计算。
与 Driver 通信：实时向 Driver 汇报 Task 执行状态（运行中 / 成功 / 失败），接收新任务分配。
Shuffle 处理：在需要数据交换的 Stage 间（如 groupByKey、join），负责 Shuffle 数据的读写（本地磁盘存储中间结果）。

资源特性

独占性：每个 Spark 应用拥有独立的 Executor 进程，应用间资源隔离，互不干扰。
资源配置：Executor 的数量、内存和核数可通过参数配置（如 --num-executors、--executor-memory）。

Cluster Manager 集群管理器：资源的 “管家”

Cluster Manager 是 Spark 的资源管理组件，负责为应用分配计算资源（CPU、内存），是连接 Spark 与底层集群的 “桥梁”。

阅读全文 »