小菜鸟

数据压缩

发表于 2020-12-17 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

MapReduce数据压缩详解：平衡 IO 与 CPU 的艺术

数据压缩是 MapReduce 性能优化的关键手段，通过减少数据传输量和磁盘 IO，可显著提升集群效率。然而，压缩会增加 CPU 运算负担，因此需根据作业类型（IO 密集型 / 运算密集型）合理选择压缩策略。本文将从压缩原理、格式对比到实战配置，全面解析 MapReduce 的数据压缩机制。

数据压缩的核心价值与适用场景

核心优势

减少磁盘 IO：压缩后的数据体积更小，降低 HDFS 读写的字节数；
节省网络带宽：Shuffle 阶段的中间数据压缩可减少节点间的数据传输量；
降低存储成本：压缩后的结果数据占用更少的磁盘空间，延长存储周期。

适用原则

压缩的本质是 用 CPU 时间换取 IO 效率，选择是否压缩需遵循以下原则：

IO 密集型作业（如日志分析、数据清洗）：优先启用压缩（IO 瓶颈更突出）；
运算密集型作业（如复杂统计、机器学习）：谨慎使用压缩（避免 CPU 成为新瓶颈）；
中间数据 / 结果数据：中间数据（Shuffle 阶段）和长期存储的结果数据建议压缩。

常用压缩格式对比与选型

阅读全文 »

Shuffle机制

发表于 2020-12-16 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

MapReduce Shuffle机制深度解析：从数据流转到性能优化

Shuffle 是 MapReduce 框架中最核心、最复杂的环节，负责将 Map 阶段的输出数据传输、处理并传递给 Reduce 阶段。它连接了 Map 和 Reduce 两个阶段，其性能直接决定了整个 MapReduce 作业的效率。本文将从 Shuffle 的数据流转、核心组件（分区、排序、分组）到自定义实现，全面解析 Shuffle 机制的工作原理与优化策略。

Shuffle 机制的核心作用与整体流程

核心职责

Shuffle 字面意为 “洗牌”，在 MapReduce 中特指 Map 输出到 Reduce 输入之间的所有数据处理流程，主要完成三项任务：

数据分区：将 Map 输出按 Key 分配到不同的 ReduceTask（确保相同 Key 进入同一 Reduce）；
数据排序：对每个分区内的 Key 进行排序，为 Reduce 阶段的分组做准备；
数据传输：将 Map 输出的中间结果从本地磁盘传输到 ReduceTask 所在节点。

整体流程概览

Shuffle 流程可分为 Map 端 Shuffle 和 Reduce 端 Shuffle 两部分，整体数据流转如下：

flowchart TD  
    subgraph Map端Shuffle
        A[Map 输出] --> B[内存缓冲区]  
        B --> C{达到溢写阈值?}  
        C -->|是| D[分区+排序+溢写磁盘]  
        C -->|否| B  
        D --> E[多个溢写文件]  
        E --> F[归并排序合并为一个文件]  
    end  
    subgraph Reduce端Shuffle  
        F --> G[Reduce 拉取数据]  
        G --> H[内存合并]  
        H --> I{内存不足?}  
        I -->|是| J[溢写磁盘]  
        I -->|否| K[最终归并排序]  
        J --> K  
        K --> L[按 Key 分组]  
    end  
    L --> M[Reduce 处理]

Map 端 Shuffle：数据输出与预处理

Map 端 Shuffle 的核心是将 MapTask 的输出数据进行 分区、排序和溢写，为 Reduce 端处理做准备。

内存缓冲区（Buffer）

Map 任务的输出首先写入 内存缓冲区，这是 Shuffle 性能优化的关键区域：

默认大小：100MB（通过 mapreduce.task.io.sort.mb 配置，建议根据内存调整）；
溢写阈值：当缓冲区数据达到 80%（默认，通过 mapreduce.map.sort.spill.percent 配置）时，触发溢写线程将数据写入磁盘；
并发处理：溢写线程与 Map 输出写入线程并行运行（双缓冲机制），不阻塞 Map 任务执行。

阅读全文 »

Ajax

发表于 2020-12-16 更新于 2025-08-28 分类于 Ajax 阅读次数： Valine：
本文字数： 12k 阅读时长 ≈ 11 分钟

Ajax 技术详解：从原生实现到 jQuery 封装及实战应用

Ajax（Asynchronous JavaScript and XML）是现代网页交互的核心技术，它通过在后台与服务器进行异步数据交换，使网页能够在不重新加载整个页面的情况下更新部分内容，显著提升了用户体验。本文将从 “原生 XMLHttpRequest 实现→JSON 数据处理→jQuery 简化方案→实战场景” 四个维度，系统讲解 Ajax 技术的原理与应用，帮你彻底掌握前后端异步通信的核心方法。

原生 Ajax：XMLHttpRequest 对象详解

原生 Ajax 基于 XMLHttpRequest（XHR）对象实现，它是浏览器提供的内置 API，用于在客户端与服务器之间建立异步通信。理解 XHR 的工作原理，是掌握 Ajax 技术的基础。

1. XHR 对象的创建

不同浏览器对 XHR 的实现略有差异（主要是早期 IE 浏览器），标准创建方式如下：

// 标准创建方法（兼容现代浏览器及 IE7+）
var xhr;
if (window.XMLHttpRequest) {
  // 现代浏览器（Chrome、Firefox、Edge 等）
  xhr = new XMLHttpRequest();
} else {
  // 兼容 IE6 及以下（使用 ActiveX 对象）
  xhr = new ActiveXObject("Microsoft.XMLHTTP");
}

注意：目前主流浏览器（包括 IE7+）均支持标准的 XMLHttpRequest，IE6 及以下已极少使用，实际开发中可简化为 var xhr = new XMLHttpRequest();。

2. XHR 对象的核心属性与方法

XHR 对象通过一系列方法发送请求，并通过属性和事件处理服务器响应，核心成员如下：

阅读全文 »

Join操作

发表于 2020-12-15 更新于 2025-07-26 分类于 hadoop 阅读次数： Valine：
本文字数： 7.3k 阅读时长 ≈ 7 分钟

MapReduce Join 操作全解析：多源数据关联的实现方案

在大数据处理中，经常需要将多个数据源的关联数据进行合并分析（类似 SQL 中的 JOIN 操作）。MapReduce 作为分布式计算框架，提供了多种 Join 实现方案，根据数据规模和关联方式可分为 Map 端 Join 和 Reduce 端 Join。本文将深入解析两种 Join 机制的原理、适用场景及实战案例。

Join 操作的核心场景与挑战

典型应用场景

Join 操作用于关联多个数据源的相关数据，常见场景包括：

日志关联：将用户行为日志与用户信息表关联，分析用户画像；
数据补全：在订单数据中补充商品信息（如名称、类别）；
多表聚合：关联销售表、库存表和用户表，计算综合指标。

核心挑战

数据分片：多源数据需按关联键（Join Key）分片，确保相同 Key 的数据进入同一 ReduceTask；
来源区分：需标记数据来源（如来自表 A 或表 B），避免关联时混淆；
性能优化：大表与小表关联时，需避免大量数据传输导致的性能瓶颈。

Reduce 端 Join：通用关联方案

Reduce 端 Join 是最常用的 Join 实现方式，适用于任意规模的多表关联，核心思想是在 Map 阶段标记数据来源，在 Reduce 阶段按关联键合并数据。

实现原理

flowchart TD  
    A[表 A 数据] -->|Map 阶段| B[打标签 <Key, （A, ValueA）>]  
    C[表 B 数据] -->|Map 阶段| D[打标签 <Key, （B, ValueB）>]  
    B --> E[Shuffle 按 Key 分组]  
    D --> E  
    E --> F[Reduce 阶段合并 <Key, （A, B）>]  
    F --> G[输出关联结果]

阅读全文 »

jQuery基本操作

发表于 2020-12-14 更新于 2025-08-28 分类于 jQuery 阅读次数： Valine：
本文字数： 18k 阅读时长 ≈ 16 分钟

jQuery 基本操作详解：选择器、DOM 操作与样式控制全指南

jQuery 是一款经典的 JavaScript 库，其核心价值在于 “简化 DOM 操作、统一浏览器兼容性、提供便捷的工具方法”。掌握 jQuery 的基本操作（选择器、DOM 增删改、属性与样式控制）是高效开发前端页面的基础。从 “jQuery 对象基础→选择器体系→DOM 操作→样式与属性控制” 四个维度，系统讲解 jQuery 的核心用法与实战技巧，帮你快速上手 jQuery 开发。

jQuery 基础：引入与对象概念

在使用 jQuery 前，需先理解 “如何引入库” 和 “jQuery 对象与 DOM 对象的区别”—— 这是避免后续操作报错的关键。

1. 引入 jQuery 库

jQuery 是外部库，需通过 <script> 标签引入后才能使用，常见引入方式有两种：

（1）本地引入（推荐开发环境）

将 jQuery 文件下载到本地项目，通过相对路径引入：

<!-- 引入本地 jQuery 文件（版本为 3.5.1，可替换为其他版本） -->
<script type="text/javascript" src="js/jquery-3.5.1.min.js"></script>

<!-- 注意：自定义 JS 必须在 jQuery 之后引入，否则无法使用 jQuery 语法 -->
<script type="text/javascript">
  // 此处可编写 jQuery 代码
</script>

（2）CDN 引入（推荐生产环境）

通过公共 CDN（如百度、谷歌、BootCDN）直接引入，无需下载文件，加载速度快：

1 2	<!-- 百度 CDN 引入 jQuery 3.5.1 --> <script src="https://cdn.jsdelivr.net/npm/jquery@3.5.1/dist/jquery.min.js"></script>

版本选择：

1.x 版本：兼容 IE 6/7/8 等旧浏览器，功能稳定；
2.x/3.x 版本：不兼容旧 IE，体积更小、性能更好（推荐现代项目使用）。

2. jQuery 对象与 DOM 对象的互转

jQuery 操作的是 “jQuery 对象”（通过 $() 包装 DOM 对象得到），而非原生 “DOM 对象”，二者方法不能混用（如 DOM 对象的 innerHTML 不能在 jQuery 对象上使用）。

（1）DOM 对象 → jQuery 对象

通过 $(DOM 对象) 包装即可将原生 DOM 对象转为 jQuery 对象：

阅读全文 »