小菜鸟

源码分析之上下文构建

发表于 2021-05-17 更新于 2025-08-25 分类于 spring 阅读次数： Valine：
本文字数： 13k 阅读时长 ≈ 11 分钟

Spring 上下文构建源码深度解析：从 ClassPathXmlApplicationContext 到 IOC 容器就绪

Spring 上下文（ApplicationContext）是 IOC 容器的核心载体，负责配置加载、BeanDefinition 管理、Bean 实例化与初始化的全流程。以 ClassPathXmlApplicationContext 为例，其初始化过程围绕 refresh() 方法展开，这是 Spring 最核心的源码链路之一。从 “构造函数初始化→refresh() 全景流程→关键子流程拆解→核心设计思想” 四个维度，彻底讲透上下文构建的每一步。

上下文初始化入口：ClassPathXmlApplicationContext 构造函数

创建 ClassPathXmlApplicationContext 实例时，仅需一行代码，但背后触发了完整的初始化流程：

1	ApplicationContext context = new ClassPathXmlApplicationContext("spring-lifecycle.xml");

构造函数核心逻辑

构造函数的本质是 “初始化配置路径 + 触发上下文刷新”，源码如下（已简化关键逻辑）：

// ClassPathXmlApplicationContext 构造函数
public ClassPathXmlApplicationContext(String[] configLocations, boolean refresh, ApplicationContext parent) {
    super(parent); // 初始化父上下文（若有）
    setConfigLocations(configLocations); // 1. 保存配置文件路径（如 "spring-lifecycle.xml"）
    if (refresh) {
        refresh(); // 2. 核心：触发上下文刷新（IOC 容器初始化的入口）
    }
}

阅读全文 »

数据读取与保存

发表于 2021-05-16 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.4k 阅读时长 ≈ 5 分钟

spark数据读取与保存全解析

Spark 支持多种数据格式的读写操作，包括文本文件、JSON、CSV、SequenceFiles 等。不同格式有其特定的读写方式和优化策略，本文将详细介绍各格式的操作要点及最佳实践。

文本文件（TextFile）

文本文件是最基础的数据格式，Spark 通过 textFile 和 saveAsTextFile 方法进行读写。

核心 API

读取：sc.textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String]
写入：rdd.saveAsTextFile(path: String)

示例代码

// 读取本地文本文件（每行作为一个元素）  
val textRDD = sc.textFile("file:///path/to/local/file.txt")  

// 读取 HDFS 文本文件  
val hdfsRDD = sc.textFile("hdfs://namenode:port/path/to/hdfs/file.txt")  

// 写入文本文件（输出为目录，包含多个 part-* 文件）  
textRDD.saveAsTextFile("hdfs:///output/text_result")

注意事项

分区控制：minPartitions 参数可指定最小分区数，但实际分区数可能受文件块大小影响（如 HDFS 默认 128MB / 块）；
写入格式：输出为目录，每个分区生成一个 part-* 文件，需使用文件系统命令合并（如 hdfs dfs -getmerge）；
编码问题：默认使用 UTF-8 编码，可通过 spark.io.encoding 配置修改。

JSON 格式

JSON 是半结构化数据的主流格式，Spark 支持通过自定义解析或 DataFrame API 处理。

手动解析 JSON（RDD 方式）

使用第三方库（如 Jackson、Gson）手动解析 JSON 字符串。

示例代码

阅读全文 »

RDD编程

发表于 2021-05-15 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 10k 阅读时长 ≈ 9 分钟

Spark RDD 编程全指南：从创建到算子实战

RDD（弹性分布式数据集）是 Spark 分布式计算的核心抽象，其编程模型基于转换算子（Transformations） 和行动算子（Actions） 实现数据处理。本文系统讲解 RDD 的创建方式、分区控制及核心算子的使用场景与实战示例，帮助开发者掌握 RDD 编程的核心技巧。

RDD 的创建方式

RDD 的创建是 Spark 编程的第一步，根据数据源不同，可分为从集合（内存）创建和从外部存储（文件）创建两大类。

1. 从集合（内存）创建 RDD

适用于本地测试或小型数据集，通过 SparkContext 的 parallelize 或 makeRDD 方法将内存集合转换为 RDD。

核心方法

parallelize(seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]
makeRDD(seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]（内部调用 parallelize）

示例代码

import org.apache.spark.{SparkConf, SparkContext}  

object RDDCreate {  
  def main(args: Array[String]): Unit = {  
    // 初始化 Spark 配置与上下文  
    val conf = new SparkConf().setMaster("local[*]").setAppName("RDDCreate")  
    val sc = new SparkContext(conf)  

    // 定义内存集合  
    val list = List(1, 2, 3, 4, 5)  

    // 方式 1：parallelize 创建 RDD  
    val rdd1 = sc.parallelize(list)  
    // 方式 2：makeRDD 创建 RDD（推荐，语法更简洁）  
    val rdd2 = sc.makeRDD(list)  

    // 打印 RDD 内容（行动算子触发计算）  
    rdd2.collect().foreach(println)  

    // 关闭上下文  
    sc.stop()  
  }  
}

分区控制

numSlices 参数指定分区数，默认值为 Spark 配置的 spark.default.parallelism（未配置时为 CPU 核心数）。分区数决定并行计算的 Task 数量：

阅读全文 »

scala样例类

发表于 2021-05-14 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Scala 样例类（Case Class）：模式匹配的完美搭档

样例类（Case Class）是 Scala 中一种特殊的类，专门为模式匹配和不可变数据建模设计。它自动生成了一系列常用方法，大幅简化了数据封装和匹配的代码。本文将详细解析样例类的特性、用法及适用场景。

样例类的定义与基本特性

样例类通过 case class 关键字定义，与普通类相比，它具有以下默认特性：

// 定义样例类（无需 new 关键字即可创建实例）
case class Student(id: Int, name: String, age: Int)

// 创建实例（自动生成 apply 方法，无需 new）
val stu1 = Student(1, "Alice", 20)
val stu2 = Student(2, "Bob", 21)

自动生成的方法

样例类会自动生成以下方法，无需手动实现：

apply 方法：允许直接通过类名创建实例（如 Student(1, "Alice", 20)），无需 new 关键字。
unapply 方法：支持模式匹配（核心特性），可从实例中提取构造参数。
toString 方法：返回格式化的字符串（如 Student(1, Alice, 20)），便于调试。
equals 和 hashCode 方法：基于构造参数实现，支持值比较（而非引用比较）。
copy 方法：用于创建实例的副本，可修改部分参数（适合不可变数据）。

样例类的核心特性详解

不可变的构造参数

样例类的构造参数默认被 val 修饰（不可变），确保实例创建后无法修改：

case class Book(isbn: String, title: String)

val book = Book("978-0134685991", "Scala Programming")

// 编译错误：无法修改 val 变量
// book.title = "New Title"

阅读全文 »

scala视图

发表于 2021-05-14 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Scala 视图（View）：懒加载的集合操作机制

在 Scala 中，视图（View）是一种特殊的集合转换机制，它通过懒加载（Lazy Evaluation） 延迟执行集合操作，直到真正需要结果时才计算。这种特性可以显著提升处理大型集合或复杂操作时的性能，避免不必要的中间计算。本文将详细解析视图的工作原理、使用场景及优势。

视图的基本概念

视图本质上是对集合操作的延迟封装。当对集合应用 view 方法后，后续的转换操作（如 map、filter、flatMap 等）不会立即执行，而是被记录下来，直到调用触发计算的方法（如 toList、size、foreach 等）时，才会一次性执行所有操作。

核心特性：

延迟执行：转换操作仅在需要结果时才执行，而非立即计算。
避免中间集合：普通集合操作会产生多个中间集合（如 list.filter(...).map(...) 会先生成过滤后的集合，再生成映射后的集合），而视图不会创建中间集合，直接在最终计算时一次性完成所有操作。
适用于大型集合：对于数据量巨大或计算成本高的场景，视图能减少内存占用和计算开销。

视图的使用方法

创建视图

通过集合的 view 方法创建视图，后续操作将变为懒加载：

val numbers: List[Int] = List(1, 2, 3, 4, 5, 6)

// 创建视图，后续操作（filter）将延迟执行
val evenView = numbers.view.filter(_ % 2 == 0)

// 此时 filter 尚未执行，evenView 仅记录了操作
println(evenView)  // 输出：View(<not computed>)

触发计算

当调用需要实际结果的方法时，视图会执行所有延迟的操作：

阅读全文 »