数据压缩 | 小菜鸟

MapReduce数据压缩详解：平衡 IO 与 CPU 的艺术

数据压缩是 MapReduce 性能优化的关键手段，通过减少数据传输量和磁盘 IO，可显著提升集群效率。然而，压缩会增加 CPU 运算负担，因此需根据作业类型（IO 密集型 / 运算密集型）合理选择压缩策略。本文将从压缩原理、格式对比到实战配置，全面解析 MapReduce 的数据压缩机制。

数据压缩的核心价值与适用场景

核心优势

减少磁盘 IO：压缩后的数据体积更小，降低 HDFS 读写的字节数；
节省网络带宽：Shuffle 阶段的中间数据压缩可减少节点间的数据传输量；
降低存储成本：压缩后的结果数据占用更少的磁盘空间，延长存储周期。

适用原则

压缩的本质是 用 CPU 时间换取 IO 效率，选择是否压缩需遵循以下原则：

IO 密集型作业（如日志分析、数据清洗）：优先启用压缩（IO 瓶颈更突出）；
运算密集型作业（如复杂统计、机器学习）：谨慎使用压缩（避免 CPU 成为新瓶颈）；
中间数据 / 结果数据：中间数据（Shuffle 阶段）和长期存储的结果数据建议压缩。

常用压缩格式对比与选型

MapReduce 支持多种压缩格式，不同格式在压缩率、速度和可切分性上各有优劣，需根据场景选择。

压缩格式核心特性对比

压缩格式	Hadoop 自带	算法	文件扩展名	可切分性	压缩率	压缩速度	解压缩速度	适用场景
DEFLATE	是	DEFLATE	.deflate	否	中	中	中	通用中间数据压缩
Gzip	是	DEFLATE	.gz	否	高	中	中	结果数据存储（压缩率优先）
Bzip2	是	Bzip2	.bz2	是	最高	慢	中	冷数据归档（压缩率优先，不计较速度）
LZO	否（需安装）	LZO	.lzo	是（需建索引）	中	快	快	大文件中间数据（需切分场景）
Snappy	否（需安装）	Snappy	.snappy	否	中低	最快	最快	实时 / 高吞吐场景（速度优先）

关键特性解析

（1）可切分性（Splittable）

定义：压缩文件是否能被 MapReduce 按 Block 拆分处理，避免单 MapTask 处理整个大文件；
重要性：对于大文件（>1GB），可切分性决定了能否并行处理（非可切分文件会导致单 MapTask 瓶颈）；
支持情况：
- 可切分：Bzip2、LZO（需建索引）；
- 不可切分：DEFLATE、Gzip、Snappy。

（2）压缩率与速度权衡

压缩率：Bzip2 > Gzip > LZO ≈ Snappy（压缩率越高，文件越小，但耗时越长）；
速度：Snappy > LZO > Gzip > Bzip2（速度越快，越适合高吞吐场景）。

（3）兼容性

Hadoop 原生支持：DEFLATE、Gzip、Bzip2 无需额外安装即可使用；
需额外安装：LZO 和 Snappy 需在所有节点部署对应库文件（如 liblzo2.so、libsnappy.so）。

选型建议

场景	推荐格式	核心考量
Map 输出（Shuffle 中间数据）	Snappy/LZO	速度快，减少 Shuffle 传输时间
Reduce 输出（结果存储）	Gzip/Bzip2	压缩率高，节省长期存储
大文件（>10GB）处理	LZO/Bzip2	支持切分，可并行处理
实时 / 高吞吐场景	Snappy	压缩 / 解压缩速度最快
冷数据归档	Bzip2	压缩率最高，存储成本最低

MapReduce 压缩配置：全阶段实战指南

MapReduce 可在 输入阶段、Map 输出阶段、Reduce 输出阶段 启用压缩，每个阶段的配置方式不同。

1. 全局压缩编码解码器配置

需在 core-site.xml 中注册支持的压缩格式，确保 Hadoop 能识别压缩文件：

<property>  
  <name>io.compression.codecs</name>  
  <value>  
    org.apache.hadoop.io.compress.DefaultCodec,        <!-- DEFLATE -->  
    org.apache.hadoop.io.compress.GzipCodec,           <!-- Gzip -->  
    org.apache.hadoop.io.compress.BZip2Codec,          <!-- Bzip2 -->  
    com.hadoop.compression.lzo.LzopCodec,              <!-- LZO -->  
    org.apache.hadoop.io.compress.SnappyCodec          <!-- Snappy -->  
  </value>  
</property>

2. 输入阶段压缩（自动解压缩）

Hadoop 支持对压缩的输入文件 自动解压缩，无需修改代码，只需确保：

输入文件具有正确的扩展名（如 .gz、.bz2）；
集群已注册对应的压缩解码器（见上文配置）。

原理：Hadoop 通过文件扩展名匹配解码器，自动将压缩文件解压为原始数据供 Map 任务处理。

3. Map 输出压缩（Shuffle 阶段）

Map 输出是 Shuffle 阶段的中间数据，压缩可显著减少网络传输量，推荐启用：

配置方式（`mapred-site.xml`）

<!-- 启用 Map 输出压缩 -->  
<property>  
  <name>mapreduce.map.output.compress</name>  
  <value>true</value>  
</property>  

<!-- 指定 Map 输出压缩格式（推荐 Snappy 或 LZO） -->  
<property>  
  <name>mapreduce.map.output.compress.codec</name>  
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>  
</property>

代码中动态配置

1
2
3

Configuration conf = new Configuration();  
conf.setBoolean("mapreduce.map.output.compress", true);  
conf.setClass("mapreduce.map.output.compress.codec", SnappyCodec.class, CompressionCodec.class);

4. Reduce 输出压缩（结果数据）

Reduce 输出的结果数据若需长期存储，建议压缩以节省空间：

配置方式（`mapred-site.xml`）

<!-- 启用 Reduce 输出压缩 -->  
<property>  
  <name>mapreduce.output.fileoutputformat.compress</name>  
  <value>true</value>  
</property>  

<!-- 指定 Reduce 输出压缩格式（推荐 Gzip 或 Bzip2） -->  
<property>  
  <name>mapreduce.output.fileoutputformat.compress.codec</name>  
  <value>org.apache.hadoop.io.compress.GzipCodec</value>  
</property>  

<!-- 压缩类型：BLOCK（块压缩，更高效）或 RECORD（记录压缩） -->  
<property>  
  <name>mapreduce.output.fileoutputformat.compress.type</name>  
  <value>BLOCK</value>  
</property>

代码中动态配置

// 启用 Reduce 输出压缩  
FileOutputFormat.setCompressOutput(job, true);  
// 设置压缩格式  
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);  
// 设置压缩类型（块压缩）  
job.getConfiguration().set("mapreduce.output.fileoutputformat.compress.type", "BLOCK");

压缩格式实战：安装与使用

1. Snappy 安装（推荐）

Snappy 以速度快著称，适合中间数据压缩，安装步骤如下：

# 1. 下载并安装 Snappy 库  
sudo yum install snappy snappy-devel  

# 2. 重新编译 Hadoop（确保支持 Snappy）  
# 下载 Hadoop 源码，编译时添加 Snappy 支持  
mvn package -Pdist,native -DskipTests -Dtar -Dsnappy.lib=/usr/lib64  

# 3. 验证安装  
hadoop checknative | grep snappy  
# 输出 "snappy: true" 表示成功

2. LZO 安装与索引构建

LZO 支持切分，但需手动构建索引，适合大文件处理：

# 1. 安装 LZO 库  
sudo yum install lzo lzo-devel  

# 2. 安装 Hadoop-LZO 插件（需编译）  
git clone https://github.com/twitter/hadoop-lzo.git  
cd hadoop-lzo  
mvn package -DskipTests  

# 3. 部署 JAR 包到 Hadoop 库目录  
cp target/hadoop-lzo-*.jar $HADOOP_HOME/share/hadoop/common/  

# 4. 为 LZO 文件建索引（否则无法切分）  
hadoop jar $HADOOP_HOME/share/hadoop/common/hadoop-lzo-*.jar com.hadoop.compression.lzo.DistributedLzoIndexer /input/file.lzo

压缩性能优化与注意事项

1. 性能优化技巧

选择合适的压缩级别：部分格式支持压缩级别（如 Gzip 1-9，级别越高压缩率越高但速度越慢），可通过 mapreduce.map.output.compress.codec 配置（如 GzipCodec 默认为级别 6）；
结合 Combiner 使用：Map 端的 Combiner 先聚合数据，减少压缩的数据量；
平衡压缩与并行度：不可切分的压缩格式（如 Gzip）需确保文件大小适中（建议 < 块大小），避免单 MapTask 处理过大文件。

2. 注意事项

CPU 资源监控：压缩会增加 CPU 负载，需确保集群 CPU 利用率 < 80% 时启用；
兼容性测试：不同压缩格式的解码器需在所有节点部署，否则会导致任务失败；
小文件问题：压缩加剧小文件问题（压缩后的小文件更难合并），建议先合并小文件再压缩；
调试建议：通过 hadoop job -status <job-id> 查看任务日志，确认压缩是否生效。

MapReduce数据压缩详解：平衡 IO 与 CPU 的艺术

数据压缩的核心价值与适用场景

核心优势

适用原则

常用压缩格式对比与选型

压缩格式核心特性对比

关键特性解析

（1）可切分性（Splittable）

（2）压缩率与速度权衡

（3）兼容性

选型建议

MapReduce 压缩配置：全阶段实战指南

1. 全局压缩编码解码器配置

2. 输入阶段压缩（自动解压缩）

3. Map 输出压缩（Shuffle 阶段）

配置方式（mapred-site.xml）

代码中动态配置

4. Reduce 输出压缩（结果数据）

配置方式（mapred-site.xml）

代码中动态配置

压缩格式实战：安装与使用

1. Snappy 安装（推荐）

2. LZO 安装与索引构建

压缩性能优化与注意事项

1. 性能优化技巧

2. 注意事项

配置方式（`mapred-site.xml`）

配置方式（`mapred-site.xml`）