小菜鸟

序列化

发表于 2020-12-22 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 6.1k 阅读时长 ≈ 6 分钟

Hadoop 序列化机制：从 Writable 到 Avro

序列化是分布式计算框架的核心组件，负责将对象转换为字节流以便在网络传输或磁盘存储。Hadoop 生态系统提供了多种序列化方案，其中 Writable 接口 是最基础的实现，而 Avro、Protobuf 等则在兼容性和性能上进行了扩展。本文将深入解析 Hadoop 序列化机制的原理、应用场景及优化策略。

Writable 接口核心原理

接口定义与作用

Writable 是 Hadoop 自定义的序列化接口，所有可序列化的类必须实现该接口：

public interface Writable {  
    void write(DataOutput out) throws IOException;  // 对象转字节流  
    void readFields(DataInput in) throws IOException;  // 字节流转对象  
}

设计目标：轻量级、高效的序列化，减少网络和磁盘 I/O 开销；
应用场景：MapReduce 中 Key/Value 类型（如 IntWritable、Text）必须实现 Writable。

核心实现类分析：IntWritable

IntWritable 是 Hadoop 对 int 类型的封装，示例代码如下：

public class IntWritable implements Writable {  
    private int value;  

    public void set(int value) { this.value = value; }  
    public int get() { return value; }  

    @Override  
    public void write(DataOutput out) throws IOException {  
        out.writeInt(value);  // 写入4字节整数  
    }  

    @Override  
    public void readFields(DataInput in) throws IOException {  
        value = in.readInt();  // 读取4字节整数  
    }  
}

特性：

固定长度存储（4 字节），无需额外元数据；
读写操作直接映射为 JDK 的 DataOutput/DataInput，性能高效。

阅读全文 »

xml中的转义字符

发表于 2020-12-22 更新于 2025-08-03 分类于 xml 阅读次数： Valine：
本文字数： 1.9k 阅读时长 ≈ 2 分钟

XML 中的转义字符与 CDATA 区块

在 XML 文档中，某些字符具有特殊含义（如<和>用于标记元素边界），直接使用会导致解析错误。为了正确表示这些特殊字符，XML 提供了两种解决方案：转义字符和CDATA 区块。

XML 转义字符

XML 预定义了 5 个转义字符（实体引用），用于表示在 XML 中有特殊含义的字符：

转义字符	对应原字符	说明
`&`	`&`	表示和号（AND 符号）
`<`	`<`	表示小于号
`>`	`>`	表示大于号
`"`	`"`	表示双引号
`'`	`'`	表示单引号（撇号）

转义字符的使用场景

当文本中包含上述特殊字符时，必须使用转义字符替代，否则 XML 解析器会将其误认为 XML 语法的一部分，导致解析错误。

示例：

<?xml version="1.0"?>
<note>
  <description>
    比较结果：3 &lt; 5 &amp; 10 &gt; 7  <!-- 正确：使用转义字符表示<、&、> -->
  </description>
  <quote>
    他说：&quot;Hello World!&quot;    <!-- 正确：使用转义字符表示双引号 -->
  </quote>
</note>

阅读全文 »

OGNL

发表于 2020-12-22 更新于 2025-08-22 分类于 struts 阅读次数： Valine：
本文字数： 3.7k 阅读时长 ≈ 3 分钟

Struts2 中的 OGNL 与值栈（ValueStack）详解

OGNL（Object-Graph Navigation Language，对象图导航语言）是 Struts2 框架默认使用的表达式语言，主要用于在视图（如 JSP）中访问 Action 中的数据，而值栈（ValueStack）则是 OGNL 的核心操作对象，贯穿整个 Action 的生命周期。下面详细解析两者的工作机制与关联。

OGNL 概述

基本概念

OGNL 是一种功能强大的表达式语言，支持：

访问对象的属性（如user.name）；
调用对象的方法（如list.size()）；
操作集合（如list[0]）；
实现类型转换（如字符串转日期）；
访问静态方法和属性（需通过@类全名@方法名语法）。

在 Struts2 中，OGNL 主要应用于：

JSP 页面中通过<s:property value="表达式"/>获取数据；
struts.xml中配置动态参数（如<param name="id">${userId}</param>）；
输入校验的表达式配置。

OGNL 的上下文环境

OGNL 的求值依赖于上下文（Context），在 Struts2 中，上下文由ActionContext维护，包含以下核心对象：

阅读全文 »

result-types介绍

发表于 2020-12-22 更新于 2025-08-22 分类于 struts 阅读次数： Valine：
本文字数： 4.4k 阅读时长 ≈ 4 分钟

Struts2 Result Types 详解：结果类型与应用场景

在 Struts2 中，result元素用于定义 Action 执行后的跳转逻辑，而type属性则决定了跳转的方式（如转发、重定向等）。Struts2 内置了多种结果类型，适配不同的业务场景。本文基于struts-default.xml中的配置，详细介绍常用的 Result Type 及其使用方法。

Result Type 的核心概念

定义：Result Type 是 Struts2 中用于处理 Action 返回结果的组件，负责将请求转发或重定向到目标资源（页面、Action、文件等）。
配置位置：所有内置 Result Type 定义在struts-default.xml的<result-types>节点中，通过继承struts-default包即可使用。
核心属性：
- name：结果标识（如"success"、"error"），与 Action 方法返回的字符串匹配；
- type：结果类型（如dispatcher、redirect），决定跳转方式；
- location：目标资源路径（可省略，直接写在<result>标签体中）。

常用 Result Type 详解

阅读全文 »

MapReduce优化

发表于 2020-12-21 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 6.6k 阅读时长 ≈ 6 分钟

MapReduce优化指南：从瓶颈分析到全方位调优策略

MapReduce 作为分布式计算框架，其性能受限于服务器资源、数据分布和任务配置等多重因素。实际应用中，作业可能因数据倾斜、资源配置不合理或 I/O 瓶颈导致运行缓慢。本文将从 服务器性能、I/O 操作、数据处理流程 三个维度，系统解析 MapReduce 优化方法，覆盖数据输入、Map/Reduce 阶段、Shuffle 机制及参数调优等核心场景。

MapReduce 性能瓶颈分析

MapReduce 作业的性能瓶颈主要集中在两个层面，需针对性优化：

1. 服务器资源瓶颈

CPU 瓶颈：复杂计算逻辑（如自定义排序、加密）导致 CPU 利用率持续过高（>90%）；
内存瓶颈：Map/Reduce 任务内存不足导致频繁 GC 或 OOM（内存溢出）；
磁盘 I/O 瓶颈：大量溢写、合并操作导致磁盘读写频繁（I/O 利用率 >80%）；
网络瓶颈：Shuffle 阶段数据传输量大，网络带宽饱和（如节点间数据倾斜导致的不均衡传输）。

2. 任务流程瓶颈

数据倾斜：某类 Key 数据量远超其他 Key，导致单个 ReduceTask 耗时过长；
小文件过多：每个小文件对应一个 MapTask，任务调度开销大于计算开销；
Map/Reduce 数量不合理：任务数量过多导致资源竞争，过少导致并行度不足；
Shuffle 效率低：溢写 / 合并次数过多、缓冲区配置不合理导致 I/O 浪费；
冗余数据传输：未启用压缩或 Combiner，导致 Shuffle 阶段数据量过大。

数据输入阶段优化：减少无效 I/O

数据输入是 MapReduce 作业的起点，优化输入数据格式和分片策略可显著减少后续处理压力。

阅读全文 »