小菜鸟

JMS

发表于 2020-12-19 更新于 2025-08-12 分类于 JMS 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

JMS（Java 消息服务）详解：规范、模型与实践

JMS（Java Message Service，Java 消息服务）是 Sun 公司定义的一套面向消息中间件的 Java 规范，旨在为 Java 应用程序提供统一的消息通信接口。它类似于 JDBC（数据库访问规范），屏蔽了不同消息中间件（如 ActiveMQ、RabbitMQ）的实现差异，使开发者能通过统一的 API 进行跨平台、跨组件的异步通信。

JMS 核心概念与作用

核心目标

JMS 的核心是实现应用程序之间的异步、可靠通信，通过消息中间件作为中介，解除发送方与接收方的直接耦合：

发送方只需将消息发送到消息中间件，无需关心接收方是否在线或如何处理消息。
接收方可在合适时机从中间件获取消息，实现 “发送即忘” 的异步通信模式。

消息系统的优势

解耦：服务间无需直接依赖，通过消息间接通信，降低系统耦合度。
异步：发送方无需等待接收方处理完成，提高系统响应速度。
可靠：消息中间件确保消息不丢失、不重复，支持事务和持久化。
削峰填谷：应对突发流量（如秒杀场景），通过消息队列缓冲请求，避免系统过载。

JMS 编程模型：六大核心组件

JMS 定义了一套标准化的组件，所有 JMS 应用程序都基于这些组件构建，确保跨平台兼容性。

系统管理对象（Administered Objects）

由消息中间件管理员配置，客户端通过 JNDI（Java 命名和目录接口）获取，包括连接工厂和目标对象。

阅读全文 »

MapTask工作机制

发表于 2020-12-18 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

MapTask工作机制深度解析：从数据读取到中间结果输出

MapTask 是 MapReduce 框架中执行 Map 阶段计算的核心组件，负责将输入数据分片转换为中间键值对。其执行过程涉及数据读取、业务处理、结果收集与预处理等多个环节，每个阶段的优化都直接影响整个作业的性能。本文将详细拆解 MapTask 的工作流程、核心机制及优化策略。

MapTask 工作流程总览

MapTask 的执行过程可分为 5 个核心阶段，依次为：Read（读取）→ Map（计算）→ Collect（收集）→ Spill（溢写）→ Combine（合并）。整体流程如下：

flowchart TD  
    A[InputSplit 数据分片] -->|Read 阶段| B[RecordReader 解析为 ]  
    B -->|Map 阶段| C[用户自定义 map 函数处理为 ]  
    C -->|Collect 阶段| D[写入内存缓冲区]  
    D -->|Spill 阶段| E[分区 排序 溢写至磁盘]  
    E -->|Combine 阶段| F[局部聚合合并溢写文件]  
    F --> G[输出最终中间结果文件]

MapTask 各阶段详细解析

1. Read 阶段：数据读取与解析

Read 阶段是 MapTask 的起点，负责将 InputSplit（逻辑分片）转换为 Map 函数可处理的键值对。

阅读全文 »

idea生成UML

发表于 2020-12-18 更新于 2025-08-01 分类于 idea 阅读次数： Valine：
本文字数： 29 阅读时长 ≈ 1 分钟

使用idea直接生成UML类图

阅读全文 »

数据压缩

发表于 2020-12-17 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

MapReduce数据压缩详解：平衡 IO 与 CPU 的艺术

数据压缩是 MapReduce 性能优化的关键手段，通过减少数据传输量和磁盘 IO，可显著提升集群效率。然而，压缩会增加 CPU 运算负担，因此需根据作业类型（IO 密集型 / 运算密集型）合理选择压缩策略。本文将从压缩原理、格式对比到实战配置，全面解析 MapReduce 的数据压缩机制。

数据压缩的核心价值与适用场景

核心优势

减少磁盘 IO：压缩后的数据体积更小，降低 HDFS 读写的字节数；
节省网络带宽：Shuffle 阶段的中间数据压缩可减少节点间的数据传输量；
降低存储成本：压缩后的结果数据占用更少的磁盘空间，延长存储周期。

适用原则

压缩的本质是 用 CPU 时间换取 IO 效率，选择是否压缩需遵循以下原则：

IO 密集型作业（如日志分析、数据清洗）：优先启用压缩（IO 瓶颈更突出）；
运算密集型作业（如复杂统计、机器学习）：谨慎使用压缩（避免 CPU 成为新瓶颈）；
中间数据 / 结果数据：中间数据（Shuffle 阶段）和长期存储的结果数据建议压缩。

常用压缩格式对比与选型

阅读全文 »

Shuffle机制

发表于 2020-12-16 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

MapReduce Shuffle机制深度解析：从数据流转到性能优化

Shuffle 是 MapReduce 框架中最核心、最复杂的环节，负责将 Map 阶段的输出数据传输、处理并传递给 Reduce 阶段。它连接了 Map 和 Reduce 两个阶段，其性能直接决定了整个 MapReduce 作业的效率。本文将从 Shuffle 的数据流转、核心组件（分区、排序、分组）到自定义实现，全面解析 Shuffle 机制的工作原理与优化策略。

Shuffle 机制的核心作用与整体流程

核心职责

Shuffle 字面意为 “洗牌”，在 MapReduce 中特指 Map 输出到 Reduce 输入之间的所有数据处理流程，主要完成三项任务：

数据分区：将 Map 输出按 Key 分配到不同的 ReduceTask（确保相同 Key 进入同一 Reduce）；
数据排序：对每个分区内的 Key 进行排序，为 Reduce 阶段的分组做准备；
数据传输：将 Map 输出的中间结果从本地磁盘传输到 ReduceTask 所在节点。

整体流程概览

Shuffle 流程可分为 Map 端 Shuffle 和 Reduce 端 Shuffle 两部分，整体数据流转如下：

flowchart TD  
    subgraph Map端Shuffle
        A[Map 输出] --> B[内存缓冲区]  
        B --> C{达到溢写阈值?}  
        C -->|是| D[分区+排序+溢写磁盘]  
        C -->|否| B  
        D --> E[多个溢写文件]  
        E --> F[归并排序合并为一个文件]  
    end  
    subgraph Reduce端Shuffle  
        F --> G[Reduce 拉取数据]  
        G --> H[内存合并]  
        H --> I{内存不足?}  
        I -->|是| J[溢写磁盘]  
        I -->|否| K[最终归并排序]  
        J --> K  
        K --> L[按 Key 分组]  
    end  
    L --> M[Reduce 处理]

Map 端 Shuffle：数据输出与预处理

Map 端 Shuffle 的核心是将 MapTask 的输出数据进行 分区、排序和溢写，为 Reduce 端处理做准备。

内存缓冲区（Buffer）

Map 任务的输出首先写入 内存缓冲区，这是 Shuffle 性能优化的关键区域：

默认大小：100MB（通过 mapreduce.task.io.sort.mb 配置，建议根据内存调整）；
溢写阈值：当缓冲区数据达到 80%（默认，通过 mapreduce.map.sort.spill.percent 配置）时，触发溢写线程将数据写入磁盘；
并发处理：溢写线程与 Map 输出写入线程并行运行（双缓冲机制），不阻塞 Map 任务执行。

阅读全文 »