小菜鸟

scala函数

发表于 2021-04-30 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

Scala 函数：灵活高效的代码块封装

在 Scala 中，函数是代码复用和逻辑封装的核心单位，其灵活性远超 Java 中的方法 —— 不仅可以独立定义，还能像变量一样赋值、传递，甚至作为参数或返回值。本文将深入解析 Scala 函数的定义、参数特性及使用技巧。

函数与方法的关系

Scala 中 “函数”（Function）和 “方法”（Method）概念相近，但存在细微区别：

方法：定义在类、对象或特质中的函数，依赖于宿主结构。
函数：可独立存在的代码块，本质是 FunctionN 特质的实例（如 Function2 对应两个参数的函数）。

日常使用中，两者常被混用，因为 Scala 会自动在方法和函数间转换（通过 “eta 展开”：方法名 _ 将方法转为函数）。

函数的基本定义

Scala 函数通过 def 关键字声明，语法灵活，支持多种返回值形式。

基本语法

def 函数名([参数名: 参数类型], ...)[[: 返回值类型] =] {
  函数体
  [return 返回值]
}

三种返回值形式

1. 显式指定返回值类型

通过 : 返回值类型 = 明确声明返回值类型，可使用 return 关键字。

阅读全文 »

HBase配置优化

发表于 2021-04-29 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

HBase配置优化全指南：性能调优与稳定性保障

HBase 的默认配置适用于基础场景，但在生产环境中需根据业务规模、数据量和访问模式进行针对性优化。本文整理了 HBase 核心配置项的优化方法，涵盖 HDFS 依赖配置、内存管理、I/O 性能、刷盘与合并策略等，帮助提升集群吞吐量和稳定性。

HDFS 依赖配置优化

HBase 数据最终存储在 HDFS 上，优化 HDFS 配置可提升 HBase 的读写效率和可靠性。

配置文件	参数名	优化值	作用说明
hdfs-site.xml	`dfs.support.append`	`true`	开启 HDFS 追加写功能，支持 HBase 的 WAL 日志实时追加，保障数据可靠性。
hdfs-site.xml	`dfs.datanode.max.transfer.threads`	`4096`	增加 DataNode 处理文件传输的线程数，适应 HBase 大量并发文件操作（如刷盘、合并）。
hdfs-site.xml	`dfs.image.transfer.timeout`	`60000`	延长 HDFS 镜像传输超时时间，避免大文件操作因延迟高导致超时失败。

MapReduce 配置优化（针对 HBase MR 任务）

若需通过 MapReduce 处理 HBase 数据（如批量导入 / 导出），需优化 MapReduce 压缩和任务效率。

配置文件	参数名	优化值	作用说明
mapred-site.xml	`mapreduce.map.output.compress`	`true`	开启 Map 输出数据压缩，减少网络传输和磁盘 IO 开销。
mapred-site.xml	`mapreduce.map.output.compress.codec`	`org.apache.hadoop.io.compress.GzipCodec`	指定压缩算法（可选 Snappy 等更快的算法），平衡压缩率和 CPU 消耗。

HBase 核心性能优化

1. RegionServer 处理能力优化

阅读全文 »

scala流程控制

发表于 2021-04-29 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Scala 流程控制：顺序、分支与循环的优雅实现

流程控制是编程语言的基础，用于控制代码的执行顺序。Scala 作为一门多范式语言，在流程控制上既保留了与 Java 相似的语法，又融入了函数式编程的特性，尤其在循环和中断处理上有独特设计。本文详细介绍 Scala 的三大流程控制语句。

顺序控制

顺序控制是最基础的流程模式，代码按照从上到下的顺序依次执行，没有跳转或分支。这是所有编程语言的默认执行方式，Scala 也不例外。

// 顺序执行示例
val a = 10
val b = 20
val sum = a + b
println(s"a + b = $sum")  // 先计算sum，再打印结果

特点：

无特殊关键字，代码自然流淌。
适用于简单的步骤化操作（如变量定义、计算、输出）。

分支控制（if…else）

Scala 的分支控制通过 if...else if...else 实现，与 Java 语法相似，但更灵活 ——if 表达式有返回值，可直接赋值给变量。

基本语法

阅读全文 »

HBase写数据过程

发表于 2021-04-28 更新于 2025-07-27 分类于 hbase 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

HBase写数据流程全解析：从请求到持久化

HBase 的写数据过程设计兼顾了 高吞吐 与 数据可靠性，通过 “预写日志 + 内存缓存 + 异步刷盘” 的机制，在保证数据不丢失的前提下最大化写入性能。以下详细拆解写流程的每个环节，包括核心步骤、优化机制及故障恢复逻辑。

写数据核心流程概述

HBase 写操作的核心目标是 快速接收数据并确保不丢失，整体流程可概括为 “客户端请求 → 预写日志 → 内存缓存 → 异步刷盘”，具体步骤如下：

客户端向目标 RegionServer 发送写请求；
RegionServer 先将数据写入预写日志（WAL/HLog），确保崩溃后可恢复；
数据写入内存缓存（MemStore），立即反馈客户端 “写成功”；
当 MemStore 达到阈值，异步刷写到磁盘（StoreFile），完成持久化；
定期合并小文件并拆分过大 Region，优化存储结构。

详细流程拆解

第一步：客户端定位目标 RegionServer

写操作前，客户端需先确定数据所属的 Region 及对应的 RegionServer，流程与读操作类似：

客户端通过 ZooKeeper 获取 hbase:meta 表位置；
查询 hbase:meta 表，根据 RowKey 定位目标 Region 所在的 RegionServer；
客户端直接向该 RegionServer 发送写请求（携带表名、RowKey、列族：列名、值等信息）。

第二步：写入预写日志（WAL/HLog）

为防止内存数据丢失，HBase 采用 “预写日志（Write-Ahead Log，WAL）” 机制，这是数据可靠性的核心保障。

RegionServer 操作：
1. 接收到写请求后，RegionServer 先将数据按固定格式（包含 RowKey、列信息、时间戳、操作类型等）写入本地 HLog 文件；
2. HLog 文件同步存储在 HDFS 上（多副本），确保即使 RegionServer 宕机，日志也不会丢失。
作用：HLog 是数据的 “安全网”，当 RegionServer 崩溃且 MemStore 数据未刷盘时，可通过 HLog 重建数据。

第三步：写入内存缓存（MemStore）

数据写入 HLog 后，RegionServer 将数据写入对应 Region 的 MemStore（内存缓存）：

阅读全文 »

FastDateFormat为什么线程安全

发表于 2021-04-28 更新于 2025-07-29 分类于工具类阅读次数： Valine：
本文字数： 6k 阅读时长 ≈ 5 分钟

FastDateFormat 线程安全的底层原理：从 SimpleDateFormat 的缺陷说起

在 Java 日期处理中，SimpleDateFormat 因线程不安全常导致诡异的并发问题，而 Apache Commons Lang 库的 FastDateFormat 则以线程安全为核心设计目标。本文将深入对比两者的实现差异，解析 FastDateFormat 如何通过设计规避线程安全问题，以及其缓存机制带来的性能优势。

SimpleDateFormat 的线程不安全根源

SimpleDateFormat 是 Java 原生的日期格式化工具，但在多线程环境下使用同一个实例会导致数据错乱，其根本原因在于共享的 Calendar 成员变量。

核心问题：共享状态的并发修改

SimpleDateFormat 内部维护了一个 Calendar 实例（成员变量），用于解析和格式化日期。在多线程场景下，多个线程会同时操作这个共享的 Calendar，导致以下问题：

// SimpleDateFormat 的关键成员变量  
protected Calendar calendar;  

// 格式化方法的核心逻辑（简化版）  
private StringBuffer format(Date date, StringBuffer toAppendTo) {  
    // 步骤1：将日期设置到共享的 calendar 中  
    calendar.setTime(date);  // 线程A执行到此处，尚未完成格式化  

    // 步骤2：基于 calendar 格式化字符串  
    // 若此时线程B调用 setTime 修改了 calendar，线程A的结果会被污染  
    // ... 格式化逻辑 ...  
}

并发冲突：线程 A 在执行 calendar.setTime(dateA) 后，尚未完成格式化，线程 B 调用 calendar.setTime(dateB) 覆盖了 calendar 的状态，导致线程 A 最终格式化的是 dateB 的值。
表现症状：格式化结果出现随机的日期错乱（如年份、月份错误），且难以复现（与线程调度时机相关）。

常见错误用法

开发者常将 SimpleDateFormat 定义为静态变量以复用，这会放大线程安全问题：

阅读全文 »