小菜鸟

scala泛型

发表于 2021-05-19 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

Scala 泛型：类型安全与灵活性的平衡

泛型是 Scala 中实现类型抽象的核心机制，它允许在定义类、特质、方法时使用类型参数，从而编写与具体类型无关的通用代码。Scala 泛型不仅支持类似 Java 的上下界约束，还引入了协变、逆变等独特特性，进一步增强了类型系统的灵活性。本文将全面解析 Scala 泛型的用法与高级特性。

泛型基础：类型参数的定义与使用

Scala 泛型使用方括号 [] 定义类型参数，可用于类、特质、方法等，实现代码的复用与类型安全。

泛型类

在类定义中声明类型参数，使类能处理多种类型的数据：

// 定义泛型类 Box，类型参数为 T
class Box[T](val content: T) {
  // 方法返回值使用类型参数 T
  def getContent: T = content
}

// 创建不同类型的 Box 实例
val intBox = new Box[Int](10)
val strBox = new Box[String]("hello")

println(intBox.getContent)  // 输出：10（类型为 Int）
println(strBox.getContent)  // 输出：hello（类型为 String）

泛型方法

在方法中声明类型参数，使方法能独立于类的类型参数处理不同类型：

object GenericUtils {
  // 泛型方法：交换数组中两个位置的元素
  def swap[T](array: Array[T], i: Int, j: Int): Unit = {
    val temp = array(i)
    array(i) = array(j)
    array(j) = temp
  }
}

// 测试泛型方法
val intArray = Array(1, 2, 3)
GenericUtils.swap(intArray, 0, 2)
println(intArray.mkString(","))  // 输出：3,2,1

val strArray = Array("a", "b", "c")
GenericUtils.swap(strArray, 1, 2)
println(strArray.mkString(","))  // 输出：a,c,b

阅读全文 »

事务处理

发表于 2021-05-18 更新于 2025-08-08 分类于 javaweb 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

J2EE 分布式事务规范：JTA、JTS 与两阶段提交协议

在分布式系统中，保证跨多个资源（如数据库、消息队列）的事务一致性是核心挑战。J2EE 提供了两套规范支持分布式事务：JTA（Java Transaction API） 和 JTS（Java Transaction Service）。其中，JTA 定义了分布式事务的高层接口，JTS 则规定了事务管理器的实现标准，而两阶段提交协议（2PC） 是实现分布式事务强一致性的核心机制。本文将详细解析这些概念及其工作原理。

JTA 与 JTS：分布式事务的规范体系

J2EE 的分布式事务规范由 JTA 和 JTS 共同构成，二者分工明确，形成 “接口定义 - 实现规范” 的层级关系。

JTA：分布式事务的高层 API

JTA（javax.transaction 包）是一套与具体实现无关、与协议无关的高层接口规范，定义了分布式事务的核心操作（如开始、提交、回滚），供开发者与事务管理器交互。其核心目标是屏蔽底层资源（如数据库、消息队列）的差异，提供统一的事务编程模型。

JTA 主要包含以下接口：

接口	作用描述
`UserTransaction`	供应用程序直接使用的事务操作接口，提供 `begin()`、`commit()`、`rollback()` 等方法，控制事务生命周期。
`Status`	定义事务的状态常量（如 `STATUS_ACTIVE`、`STATUS_COMMITTED`、`STATUS_ROLLEDBACK` 等），用于表示事务当前状态。
`Synchronization`	允许应用程序在事务提交或回滚前后注册回调逻辑（`beforeCompletion()`、`afterCompletion()`），用于资源清理或日志记录。
`Transaction`	代表一个分布式事务对象，提供获取事务状态、注册同步器等方法，主要由事务管理器内部使用。
`TransactionManager`	由事务管理器实现，负责事务的创建、传播和管理，应用程序通常不直接使用，而是通过 `UserTransaction` 间接交互。

`UserTransaction` 核心方法示例：

阅读全文 »

共享变量之广播变量

发表于 2021-05-18 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

spark广播变量：高效分发大对象的分布式只读变量

在 Spark 分布式计算中，当需要在多个 Task 间共享大对象（如配置表、字典数据）时，默认的闭包传递机制会导致数据重复传输和内存浪费。广播变量（Broadcast Variable）作为 Spark 提供的第二种共享变量，通过优化数据分发策略，显著提升了大规模数据共享的效率。本文将详细解析广播变量的原理、用法及最佳实践。

广播变量的核心问题与解决思路

闭包数据分发的痛点

在 Spark 中，当 RDD 操作（如 map、join）的闭包中引用外部变量时，变量会被序列化并复制到每个 Task 中。若变量较大（如 1GB 的字典表），则会导致：

网络传输开销大：每个 Task 都需下载完整变量，集群网络压力剧增；
内存浪费：一个 Executor 上的多个 Task 持有相同变量的副本，占用大量内存；
任务启动慢：变量序列化和传输耗时，延长任务准备时间。

示例：无广播变量的低效分发

val largeMap = Map(/* 1GB 数据 */)  // 大对象  
val rdd = sc.parallelize(1 to 10000, 100)  // 100 个分区  

// 每个 Task 都会复制 largeMap，共 100 份  
val result = rdd.map(x => largeMap.getOrElse(x, 0))

广播变量的优化机制

广播变量通过以下方式解决上述问题：

每个节点仅存一份：大对象被广播到每个 Executor 节点，而非每个 Task；
共享访问：Executor 上的所有 Task 共享同一份变量副本；
高效分发协议：使用 BitTorrent 类似的分布式传输协议，避免 Driver 成为瓶颈。

广播变量的基本用法

广播变量的创建与使用

广播变量的使用流程分为三步：创建 → 访问 → 销毁（可选）。

阅读全文 »

共享变量之累加器

发表于 2021-05-18 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

Spark累加器：分布式环境下的共享变量解析

在 Spark 分布式计算中，变量传递和数据聚合是常见的挑战。累加器（Accumulator）作为 Spark 提供的两种共享变量之一，能够高效地将 Executor 端的数据聚合到 Driver 端，解决了分布式环境下变量更新不可见的问题。本文将深入解析累加器的原理、用法及最佳实践。

累加器的核心概念与作用

为什么需要累加器？

在 Spark 中，当向 RDD 操作（如 map、foreach）传递函数时，函数中使用的变量会被复制到每个 Executor 节点，这些变量的更新不会反馈回 Driver 端。例如：

val rdd = sc.parallelize(1 to 100)  
var sum = 0  
rdd.foreach(x => sum += x)  // 每个 Executor 操作自己的 sum 副本  
println(sum)  // 输出结果为 0（Driver 端的 sum 未被更新）

问题本质：

闭包（Closure）中的变量会被序列化并复制到每个 Task；
Executor 对副本的修改不会影响 Driver 端的原始变量。

累加器的定义与特性

累加器是 Spark 提供的分布式只写共享变量，具有以下特性：

分布式：由 Driver 端创建，在 Executor 端被多个 Task 并行修改；
只写：Executor 只能累加（add）值，不能读取，只有 Driver 可以读取最终结果；
线程安全：Spark 保证累加器的更新操作是原子性的，避免多线程冲突。

累加器的类型与使用方法

Spark 内置累加器

Spark 提供了三种内置累加器类型：

阅读全文 »

scala闭包

发表于 2021-05-17 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 3.1k 阅读时长 ≈ 3 分钟

Scala 闭包与函数柯里化：函数式编程的高级特性

闭包（Closure）和函数柯里化（Currying）是 Scala 函数式编程中的两个核心概念。它们不仅增强了函数的灵活性，还为代码复用和模块化提供了强大支持。本文将深入解析闭包的本质、函数柯里化的实现及其应用场景。

闭包（Closure）：函数与环境的结合体

闭包是指一个函数与其引用的外部变量形成的整体。即使外部变量脱离了原有的作用域，只要闭包存在，这些变量就会被保留并供函数使用。

闭包的定义与示例

// 定义一个返回函数的高阶函数
def makeAdder(base: Int): Int => Int = {
  // 匿名函数引用了外部变量 base
  (x: Int) => base + x
}

// 创建闭包：base = 10 被保留在闭包中
val add10 = makeAdder(10)

// 调用闭包：使用保留的 base = 10
println(add10(5))  // 输出：15（10 + 5）
println(add10(3))  // 输出：13（10 + 3）

// 另一个闭包：base = 20 被保留
val add20 = makeAdder(20)
println(add20(5))  // 输出：25（20 + 5）

核心原理：

makeAdder 是一个高阶函数，返回一个匿名函数。
匿名函数 (x: Int) => base + x 引用了外部参数 base。
当 makeAdder(10) 被调用时，base 被固定为 10，与匿名函数绑定形成闭包 add10。
即使 makeAdder 执行结束，add10 仍能访问 base = 10，因为闭包保留了对该变量的引用。

闭包的本质

闭包本质上是一个携带状态的函数对象。在 Scala 中，闭包会被编译为 FunctionN 特质的实现类（如 Function1、Function2），外部变量会作为该对象的字段被保存。

阅读全文 »

Scala 泛型：类型安全与灵活性的平衡

泛型基础：类型参数的定义与使用

泛型类

泛型方法

J2EE 分布式事务规范：JTA、JTS 与两阶段提交协议

JTA 与 JTS：分布式事务的规范体系

JTA：分布式事务的高层 API

UserTransaction 核心方法示例：

spark广播变量：高效分发大对象的分布式只读变量

广播变量的核心问题与解决思路

闭包数据分发的痛点

广播变量的优化机制

广播变量的基本用法

广播变量的创建与使用

Spark累加器：分布式环境下的共享变量解析

累加器的核心概念与作用

为什么需要累加器？

累加器的定义与特性

累加器的类型与使用方法

Spark 内置累加器

Scala 闭包与函数柯里化：函数式编程的高级特性

闭包（Closure）：函数与环境的结合体

闭包的定义与示例

闭包的本质

`UserTransaction` 核心方法示例：