分区表 | 小菜鸟

Hive 分区表详解：从基础分区到二级分区的优化实践

分区表是 Hive 提升大数据查询效率的核心特性，通过将数据按指定维度（如日期、地域）拆分到不同目录，避免全表扫描，显著减少查询耗时。本文详细讲解 Hive 分区表的创建、数据插入、查询优化及二级分区的应用，帮助开发者合理设计分区策略。

分区表的核心作用与原理

Hive 作为数据仓库，存储的表往往包含海量数据（如每日千万级日志）。若直接查询全表，需扫描所有数据，效率极低。分区表通过 “文件夹拆分数据”，将大表按分区列（如 date、region）拆分为多个子目录，查询时只需扫描目标分区目录，大幅提升效率。

底层存储原理

分区表在 HDFS 上的存储路径格式为：

/user/hive/warehouse/<数据库名>.db/<表名>/<分区列1>=<值1>/<分区列2>=<值2>/...  

例如，按 date='2023-10-01' 分区的表，数据存储路径为：

/user/hive/warehouse/study_hive.db/test_partitioned/date=2023-10-01/  

基础分区表操作

创建分区表

通过 PARTITIONED BY 关键字定义分区列（分区列不算表的普通列，仅用于分区目录拆分）。

语法格式

CREATE TABLE [IF NOT EXISTS] 表名 (  
  列名1 数据类型,  
  列名2 数据类型,  
  ...  
)  
PARTITIONED BY (分区列 数据类型 [COMMENT '分区列注释'])  -- 定义分区列  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '分隔符';  

实操示例

创建按日期（date）分区的订单表：

CREATE TABLE IF NOT EXISTS test_partitioned (  
  id INT COMMENT '订单ID',  
  money DOUBLE COMMENT '订单金额'  
)  
PARTITIONED BY (`date` STRING COMMENT '订单日期，格式yyyyMMdd')  -- 分区列：date  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';  -- 列分隔符为制表符  

向分区表插入数据

方式 1：`INSERT` 语句插入

插入时需指定分区列的值，Hive 会自动创建对应分区目录。

-- 插入 20210413 分区的数据  
INSERT INTO test_partitioned PARTITION (`date`='20210413')  
VALUES (1, 20.0), (2, 50.0);  

-- 插入 20210414 分区的数据  
INSERT INTO test_partitioned PARTITION (`date`='20210414')  
VALUES (3, 80.0);  

方式 2：`LOAD DATA` 导入数据

通过 LOAD DATA 导入时，需指定目标分区，数据会被移动到对应分区目录。

-- 将本地文件导入 20210413 分区  
LOAD DATA LOCAL INPATH '/tmp/orders_20210413.txt'  
INTO TABLE test_partitioned  
PARTITION (`date`='20210413');  -- 指定分区  

数据文件要求：文件内容只需包含表的普通列（id、money），无需包含分区列（date 由分区目录指定）。

分区表查询

查询时必须通过 WHERE 子句指定分区列，否则会触发全表扫描（失去分区意义）。

基础查询示例

-- 仅查询 20210414 分区的数据，仅扫描 date=20210414 目录  
SELECT * FROM test_partitioned WHERE `date`='20210414';  

多分区联合查询

-- 查询 20210413 和 20210414 两个分区的数据  
SELECT * FROM test_partitioned  
WHERE `date` IN ('20210413', '20210414');  

查看分区列表

通过 SHOW PARTITIONS 查看表的所有分区：

hive (study_hive)> SHOW PARTITIONS test_partitioned;  
OK  
date=20210413  
date=20210414  
Time taken: 0.056 seconds  

手动添加分区

若数据已通过 HDFS 上传到分区目录（如 date=20210410），需手动添加分区信息到元数据：

-- 添加单个分区  
ALTER TABLE test_partitioned ADD PARTITION (`date`='20210410');  

-- 批量添加多个分区  
ALTER TABLE test_partitioned  
ADD PARTITION (`date`='20210411')  
PARTITION (`date`='20210412');  

删除分区

删除分区会同时删除分区元数据和 HDFS 上的分区目录及数据：

-- 删除单个分区  
ALTER TABLE test_partitioned DROP PARTITION (`date`='20210410');  

-- 批量删除多个分区  
ALTER TABLE test_partitioned  
DROP PARTITION (`date`='20210411')  
PARTITION (`date`='20210412');  

二级分区表：应对更细粒度的数据拆分

当单级分区数据量仍较大（如每日数据达百万级），可通过二级分区进一步拆分（如按 “日期 + 小时” 分区），实现更细粒度的查询优化。

创建二级分区表

在 PARTITIONED BY 中定义两个分区列（如 date 和 hour）。

语法示例

CREATE TABLE IF NOT EXISTS test_partitioned_2 (  
  id INT COMMENT '订单ID',  
  money DOUBLE COMMENT '订单金额'  
)  
PARTITIONED BY (  
  `date` STRING COMMENT '日期，yyyyMMdd',  
  `hour` STRING COMMENT '小时，00-23'  -- 二级分区列  
)  
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';  

二级分区表的存储路径

HDFS 路径格式为：

/user/hive/warehouse/study_hive.db/test_partitioned_2/date=20210413/hour=10/  

即先按 date 拆分一级目录，再按 hour 拆分二级目录。

向二级分区表插入数据

插入时需同时指定两个分区列的值：

-- 插入 20210413 日 10 点的分区数据  
INSERT INTO test_partitioned_2 PARTITION (`date`='20210413', `hour`='10')  
VALUES (101, 150.0), (102, 300.0);  

-- 插入 20210413 日 11 点的分区数据  
INSERT INTO test_partitioned_2 PARTITION (`date`='20210413', `hour`='11')  
VALUES (103, 200.0);  

二级分区表查询

可按一级分区过滤，或同时指定两级分区，进一步缩小扫描范围：

-- 查询 20210413 日所有小时的数据（扫描 date=20210413 下的所有 hour 目录）  
SELECT * FROM test_partitioned_2 WHERE `date`='20210413';  

-- 查询 20210413 日 10 点的数据（仅扫描 date=20210413/hour=10 目录）  
SELECT * FROM test_partitioned_2  
WHERE `date`='20210413' AND `hour`='10';  

查看二级分区列表

hive (study_hive)> SHOW PARTITIONS test_partitioned_2;  
OK  
date=20210413/hour=10  
date=20210413/hour=11  
Time taken: 0.061 seconds  

分区表常见问题与解决方案

1. 新增分区后查询不到数据？

原因：通过 HDFS 手动上传数据到分区目录后，未执行 ALTER TABLE ADD PARTITION，Hive 元数据未记录该分区。
解决：执行 MSCK REPAIR TABLE 表名; 修复元数据，自动识别新增分区：

MSCK REPAIR TABLE test_partitioned;  -- 扫描目录并添加未记录的分区  

2. 分区列可以是普通列吗？

不能。分区列是独立于表普通列的特殊字段，用于目录拆分，表定义中需显式在 PARTITIONED BY 中声明，不能与普通列重名。

3. 分区过多会有什么问题？

小文件问题：每个分区对应一个目录，分区过多会产生大量小文件，降低 HDFS 效率；
元数据压力：分区元数据存储在 Metastore（如 MySQL）， millions 级分区会导致 Metastore 性能下降。
解决：合理设计分区粒度（如按 “周” 而非 “小时” 分区），或采用分桶表辅助优化。

4. 如何删除分区数据但保留分区目录？

Hive 不支持单独保留分区目录，DROP PARTITION 会同时删除元数据和目录。若需保留数据，可先通过 HDFS 命令移动数据，再删除分区。

分区表最佳实践

分区列选择原则：
- 选择高频过滤字段（如查询中频繁使用 WHERE date=...）；
- 选择基数适中的字段（如日期、地域，避免用用户 ID 等高基数字段导致分区过多）。
避免全表扫描：
任何查询必须包含分区列过滤，否则失去分区意义，可通过 EXPLAIN 命令检查执行计划，确认是否扫描指定分区。
分区数据生命周期管理：
结合 ALTER TABLE DROP PARTITION 定期删除过期分区（如保留 30 天内数据），避免存储膨胀。
二级分区适用场景：
单日数据量过大（如超过 100GB）时使用，通过 “日期 + 小时” 或 “地域 + 日期” 进一步拆分，平衡查询效率和分区数量。