小菜鸟

spark核心数据结构之RDD

发表于 2021-05-14 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 4.3k 阅读时长 ≈ 4 分钟

spark核心数据结构：RDD 深度解析与原理剖析

RDD（Resilient Distributed Dataset，弹性分布式数据集）是 Spark 最核心的抽象，贯穿了 Spark 分布式计算的整个生命周期。它不仅是数据的载体，更是 Spark 实现高效并行计算、容错机制和灵活编程模型的基础。本文基于 Spark 源码注释，详细讲解 RDD 的五大核心属性、特性及底层实现原理，帮助开发者从根本上理解 Spark 数据处理的逻辑。

RDD 核心定义与本质

RDD 是 Spark 对分布式数据的抽象，可理解为一个不可变、可分区、可并行计算且具备容错机制的分布式元素集合。其核心定义在 Spark 源码中通过五大属性描述，这些属性决定了 RDD 的行为和功能：

/* Internally, each RDD is characterized by five main properties:
*  
*  - A list of partitions  
*  - A function for computing each split  
*  - A list of dependencies on other RDDs  
*  - Optionally, a Partitioner for key-value RDDs  
*  - Optionally, a list of preferred locations to compute each split on  
*/

RDD 五大核心属性详解

分区列表（Partitions）：并行计算的基础

定义

protected def getPartitions: Array[Partition]
RDD 由多个分区（Partition）组成，每个分区是 RDD 数据的一个子集，分布在集群的不同节点上。分区是 Spark 并行计算的最小单位，一个分区对应一个 Task 任务。

核心作用

并行计算：多个分区可被分配到不同 Executor 并行处理，充分利用集群算力；
数据本地化：分区数据存储在集群节点上，任务调度时优先在数据所在节点执行，减少网络传输；
规模扩展：通过调整分区数量，适配不同数据量（如 1TB 数据可分为 1000 个分区，每个分区约 1GB）。

示例

读取 HDFS 文件创建的 RDD，分区数默认与 HDFS 块数一致（默认 128MB / 块）；
通过 rdd.getNumPartitions 可获取分区数，通过 repartition(num) 可调整分区数。

分区计算函数（Compute）：数据处理的逻辑

定义

def compute(split: Partition, context: TaskContext): Iterator[T]
该函数定义了如何计算 RDD 中单个分区的数据，是 RDD 转换和行动操作的核心执行逻辑。

核心作用

惰性计算：compute 函数仅在 Action 操作触发时才会执行，避免不必要的中间计算；
分区独立计算：每个分区的计算逻辑独立，无需依赖其他分区的数据（除非有 Shuffle 依赖）；
迭代器优化：返回值为 Iterator（迭代器），支持流式处理，减少内存占用（无需一次性加载整个分区数据）。

示例

map 操作的 compute 函数：对分区迭代器中的每个元素应用映射逻辑；
filter 操作的 compute 函数：对分区迭代器中的元素进行过滤，保留符合条件的元素。

阅读全文 »

spark组件说明

发表于 2021-05-13 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

spark核心组件与调度机制全解析：从架构到任务执行

Spark 作为分布式计算引擎，其高效运行依赖于清晰的组件分工和优化的任务调度机制。本文详细讲解 Spark 核心组件（Driver、Executor、Cluster Manager）的角色与职责，并深入剖析任务从提交到执行的完整调度流程，帮助开发者理解 Spark 分布式计算的底层逻辑。

Spark 核心组件架构

Spark 采用 “Driver-Executor-Cluster Manager” 三层架构，各组件协同工作实现分布式任务的提交、调度与执行。其架构图如下：

Driver 驱动器：任务的 “大脑”

Driver 是 Spark 应用的主控节点，负责管理应用的生命周期和任务调度，是整个程序的 “大脑”。

核心职责

解析用户程序：将用户代码（如 Scala/Java/Python 程序）转换为逻辑执行计划（DAG 有向无环图）。
生成物理执行计划：将 DAG 拆分为多个 Stage（阶段），每个 Stage 包含一组可并行执行的 Task（任务）。
调度任务：向 Cluster Manager 申请资源（Executor），并将 Task 分配到 Executor 上执行。
监控任务执行：跟踪 Task 状态（成功 / 失败），处理任务失败重试，收集执行结果。
管理元数据：维护 RDD 血缘关系（Lineage）、广播变量、累加器等元数据信息。

运行位置

客户端模式（Client Mode）：Driver 运行在提交任务的客户端机器上（如开发者的笔记本），适合交互式场景（如 Spark Shell）。
集群模式（Cluster Mode）：Driver 运行在 Cluster Manager 管理的集群节点上，适合生产环境批量任务，避免客户端故障影响任务。

Executor 执行器：任务的 “工人”

Executor 是运行在 Worker 节点上的进程，负责实际执行 Task 并存储中间数据，是 Spark 任务的 “执行者”。

核心职责

执行 Task：接收 Driver 分配的 Task，运行具体计算逻辑（如 map、reduce 操作）。
存储数据：通过 Block Manager 缓存 RDD 数据（内存或磁盘），支持数据复用以减少重复计算。
与 Driver 通信：实时向 Driver 汇报 Task 执行状态（运行中 / 成功 / 失败），接收新任务分配。
Shuffle 处理：在需要数据交换的 Stage 间（如 groupByKey、join），负责 Shuffle 数据的读写（本地磁盘存储中间结果）。

资源特性

独占性：每个 Spark 应用拥有独立的 Executor 进程，应用间资源隔离，互不干扰。
资源配置：Executor 的数量、内存和核数可通过参数配置（如 --num-executors、--executor-memory）。

Cluster Manager 集群管理器：资源的 “管家”

Cluster Manager 是 Spark 的资源管理组件，负责为应用分配计算资源（CPU、内存），是连接 Spark 与底层集群的 “桥梁”。

阅读全文 »

spark历史服务器

发表于 2021-05-13 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

spark历史服务器配置指南：追踪任务全生命周期

Spark 应用运行时，可通过 4040 端口的 Web UI 实时监控任务状态，但应用停止后该界面会关闭。为了追溯已完成任务的执行详情（如 DAG、Stage、Task 指标），需配置 Spark 历史服务器（History Server），持久化存储任务日志并提供历史查询能力。本文详细讲解历史服务器的配置步骤、启动方法及日志管理，帮助开发者完整追踪任务生命周期。

历史服务器核心作用与原理

解决的核心问题

实时 UI 局限性：Spark 应用运行时的 4040 端口 UI 仅在应用存活时可用，应用停止后无法查看历史数据；
日志持久化需求：生产环境需留存任务日志用于问题排查、性能优化和审计；
集群监控补充：历史服务器可整合所有应用的历史数据，形成全局任务执行报表。

工作原理

日志收集：Spark 应用运行时，将事件日志（如任务启动、Stage 完成、数据 Shuffle 等）写入指定存储（HDFS 或本地文件系统）；
历史服务器读取：History Server 启动后，从指定存储目录加载历史日志，解析并生成可视化 UI；
Web 访问：用户通过 History Server 的 Web 界面（默认 18080 端口）查询历史任务详情。

历史服务器配置步骤

环境前置条件

已安装并配置 Spark 集群（本地模式、Standalone 或 YARN 模式均可）；
若使用 HDFS 存储日志，需确保 HDFS 集群正常运行，且 Spark 有权限读写 HDFS 目录。

配置事件日志存储（spark-defaults.conf）

Spark 事件日志的存储路径和开关通过 spark-defaults.conf 配置，步骤如下：

复制模板文件

阅读全文 »

spring事务失效场景

发表于 2021-05-13 更新于 2025-08-28 分类于 spring 阅读次数： Valine：
本文字数： 8.1k 阅读时长 ≈ 7 分钟

Spring 事务失效场景深度解析

Spring 事务基于 AOP 动态代理实现，事务失效的本质是：事务相关的 AOP 增强逻辑未被触发。本文从 “代理机制” 切入，逐一拆解 6 种常见失效场景的底层原因，并给出可落地的解决方案，尤其重点讲解 “this 调用失效” 这一难点。

事务失效的核心前提：理解 Spring 事务的 AOP 原理

在分析失效场景前，必须先明确 Spring 事务的执行流程（基于 CGLIB 代理，最常见场景）：

代理类生成：Spring 为标注 @Transactional 的目标 Bean（如 UserService）生成 CGLIB 代理类（继承自目标 Bean）；
外部调用触发增强：当外部代码调用代理类的方法时，代理类会先执行 事务增强逻辑（开启事务），再调用目标 Bean 的原始方法；
目标方法执行：目标 Bean 执行业务逻辑，若正常完成则代理类触发事务提交，若抛出异常则触发回滚；
内部调用绕过增强：若目标 Bean 内部通过 this 调用自身方法，this 指向目标 Bean 本身（非代理类），会直接执行原始方法，跳过代理类的增强逻辑 → 事务失效。

6 种事务失效场景与底层解析

1. 场景 1：事务方法非 public 修饰

底层原因

Spring AOP 动态代理（JDK/CGLIB）仅对 public 方法生效：

JDK 代理：基于接口实现，仅代理接口中的 public 方法；
CGLIB 代理：基于继承生成子类，非 public 方法（private/protected/default）无法被重写，代理类无法插入增强逻辑。

Spring 源码佐证（AbstractFallbackTransactionAttributeSource）：

protected TransactionAttribute computeTransactionAttribute(Method method, @Nullable Class<?> targetClass) {
    // 非 public 方法直接返回 null，无事务属性
    if (Modifier.isPublic(method.getModifiers()) == false) {
        return null;
    }
    // ... 后续逻辑
}

若方法非 public，Spring 会忽略其 @Transactional 注解，不生成事务增强。

阅读全文 »

spark环境配置

发表于 2021-05-13 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

spark环境配置全指南：从本地模式到 YARN 集群部署

Spark 支持多种运行模式，从本地开发调试到分布式集群部署，满足不同场景需求。本文详细讲解 Spark 三大核心模式（本地模式、Standalone 独立集群、YARN 集群）的环境配置步骤、验证方法及参数说明，帮助开发者快速搭建 Spark 运行环境。

环境准备：前置依赖与基础配置

在配置 Spark 前，需确保基础依赖已安装并正确配置，避免因环境缺失导致部署失败。

前置依赖

依赖	版本要求	作用
Java	JDK 8 或 11（推荐 8，兼容性更好）	Spark 运行的基础环境
Scala	2.12.x（配合 Spark 3.x）	Spark 源码基于 Scala 开发，部分 API 依赖 Scala 环境
Hadoop（可选）	3.x（如使用 HDFS 或 YARN）	提供分布式存储（HDFS）和资源管理（YARN）

Spark 安装包选择

Spark 安装包分为两种类型，根据需求选择：

spark-x.x.x-bin-hadoopx.x：内置 Hadoop 依赖，适合快速部署（无需单独配置 Hadoop）；
spark-x.x.x-bin-without-hadoop：不含 Hadoop 依赖，需手动关联本地 Hadoop 环境（本文以这种为例）。

下载地址：Spark 官方下载页

基础环境变量配置

在 ~/.bash_profile 或 ~/.zshrc 中添加环境变量：

阅读全文 »