小菜鸟

数据清洗

发表于 2020-12-20 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 5.3k 阅读时长 ≈ 5 分钟

MapReduce 数据清洗（ETL）：从杂乱数据到可用信息

数据清洗是大数据处理的前置关键步骤，旨在去除无效、错误或冗余数据，为后续分析提供高质量输入。在 MapReduce 中，数据清洗通常只需通过 Mapper 程序实现，无需 Reduce 阶段，大幅提升效率。本文将详细解析数据清洗的原理、实现方式及实战案例。

数据清洗的核心目标与场景

核心目标

数据清洗（ETL 中的 “Extract-Transform” 环节）的核心是 “去伪存真”，具体包括：

去除无效数据：过滤格式错误、缺失关键字段或不符合业务规则的数据；
标准化格式：将数据转换为统一格式（如日期、数值格式统一）；
去除冗余数据：删除重复记录或无用字段；
数据补全：对缺失的非关键字段进行合理填充（如默认值）。

典型应用场景

日志清洗：从用户行为日志中过滤爬虫数据、格式错误的日志；
数据校验：验证订单数据中的金额、日期等字段合法性；
格式转换：将非结构化文本转换为结构化键值对；
重复数据删除：去除数据库同步过程中产生的重复记录。

MapReduce 数据清洗的实现原理

为何无需 Reduce 阶段？

数据清洗的核心是 过滤和转换，通常无需聚合操作，因此可省略 Reduce 阶段：

Mapper 负责清洗：读取原始数据，按规则过滤或转换后直接输出；
无 Shuffle 开销：不设置 ReduceTask（job.setNumReduceTasks(0)），避免中间数据传输和排序；
效率更高：数据直接从 Mapper 输出到 HDFS，减少磁盘 I/O 和 CPU 消耗。

阅读全文 »

ReduceTask工作机制

发表于 2020-12-19 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 3.7k 阅读时长 ≈ 3 分钟

ReduceTask工作机制深度解析：从数据聚合到最终结果

ReduceTask 是 MapReduce 框架中执行 Reduce 阶段计算的核心组件，负责将 Map 阶段输出的中间结果进行 聚合、排序和最终计算。其执行效率直接影响整个作业的完成速度。本文将详细拆解 ReduceTask 的工作流程、核心机制及优化策略。

ReduceTask 工作流程总览

ReduceTask 的执行过程可分为 4 个核心阶段，依次为：Copy（复制）→ Merge（合并）→ Sort（排序）→ Reduce（计算）。整体流程如下：

flowchart TD  
    A[Map 输出文件] -->|Copy 阶段| B[ReduceTask 拉取分区数据]  
    B -->|Merge 阶段| C[内存/磁盘合并数据]  
    C -->|Sort 阶段| D[按 Key 分组排序]  
    D -->|Reduce 阶段| E[执行 reduce 函数输出结果]  
    E --> F[写入 HDFS 最终结果]

ReduceTask 各阶段详细解析

1. Copy 阶段：数据复制与拉取

Copy 阶段是 ReduceTask 的起点，负责从多个 MapTask 所在节点 并行拉取 属于当前分区的中间结果数据。

阅读全文 »

JMS

发表于 2020-12-19 更新于 2025-08-12 分类于 JMS 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

JMS（Java 消息服务）详解：规范、模型与实践

JMS（Java Message Service，Java 消息服务）是 Sun 公司定义的一套面向消息中间件的 Java 规范，旨在为 Java 应用程序提供统一的消息通信接口。它类似于 JDBC（数据库访问规范），屏蔽了不同消息中间件（如 ActiveMQ、RabbitMQ）的实现差异，使开发者能通过统一的 API 进行跨平台、跨组件的异步通信。

JMS 核心概念与作用

核心目标

JMS 的核心是实现应用程序之间的异步、可靠通信，通过消息中间件作为中介，解除发送方与接收方的直接耦合：

发送方只需将消息发送到消息中间件，无需关心接收方是否在线或如何处理消息。
接收方可在合适时机从中间件获取消息，实现 “发送即忘” 的异步通信模式。

消息系统的优势

解耦：服务间无需直接依赖，通过消息间接通信，降低系统耦合度。
异步：发送方无需等待接收方处理完成，提高系统响应速度。
可靠：消息中间件确保消息不丢失、不重复，支持事务和持久化。
削峰填谷：应对突发流量（如秒杀场景），通过消息队列缓冲请求，避免系统过载。

JMS 编程模型：六大核心组件

JMS 定义了一套标准化的组件，所有 JMS 应用程序都基于这些组件构建，确保跨平台兼容性。

系统管理对象（Administered Objects）

由消息中间件管理员配置，客户端通过 JNDI（Java 命名和目录接口）获取，包括连接工厂和目标对象。

阅读全文 »

MapTask工作机制

发表于 2020-12-18 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

MapTask工作机制深度解析：从数据读取到中间结果输出

MapTask 是 MapReduce 框架中执行 Map 阶段计算的核心组件，负责将输入数据分片转换为中间键值对。其执行过程涉及数据读取、业务处理、结果收集与预处理等多个环节，每个阶段的优化都直接影响整个作业的性能。本文将详细拆解 MapTask 的工作流程、核心机制及优化策略。

MapTask 工作流程总览

MapTask 的执行过程可分为 5 个核心阶段，依次为：Read（读取）→ Map（计算）→ Collect（收集）→ Spill（溢写）→ Combine（合并）。整体流程如下：

flowchart TD  
    A[InputSplit 数据分片] -->|Read 阶段| B[RecordReader 解析为 ]  
    B -->|Map 阶段| C[用户自定义 map 函数处理为 ]  
    C -->|Collect 阶段| D[写入内存缓冲区]  
    D -->|Spill 阶段| E[分区 排序 溢写至磁盘]  
    E -->|Combine 阶段| F[局部聚合合并溢写文件]  
    F --> G[输出最终中间结果文件]

MapTask 各阶段详细解析

1. Read 阶段：数据读取与解析

Read 阶段是 MapTask 的起点，负责将 InputSplit（逻辑分片）转换为 Map 函数可处理的键值对。

阅读全文 »

idea生成UML

发表于 2020-12-18 更新于 2025-08-01 分类于 idea 阅读次数： Valine：
本文字数： 29 阅读时长 ≈ 1 分钟

使用idea直接生成UML类图

阅读全文 »