小菜鸟

sqoop导出

发表于 2021-06-07 更新于 2025-07-27 分类于 sqoop 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

sqoop导出详解：从 Hadoop 生态到关系型数据库

Sqoop 导出（Export）是将 HDFS、Hive 等分布式存储中的数据同步到关系型数据库（如 MySQL）的核心功能，适用于将大数据分析结果反馈到业务数据库、支持业务决策的场景。本文将详细介绍 Sqoop 导出的操作步骤、核心参数及注意事项，帮助读者高效完成数据导出任务。

Sqoop 导出核心原理

Sqoop 导出与导入的流程类似，均基于 MapReduce 实现，但数据流向相反：

Sqoop 解析导出命令，生成 MapReduce 作业；
Map 任务从 HDFS 或 Hive 读取数据（按指定格式解析）；
通过 JDBC 连接关系型数据库，将数据批量写入目标表；
支持事务或批量提交，确保数据一致性。

导出过程同样仅使用 Map 任务，无 Reduce 阶段，避免数据 shuffle，提升效率。

Sqoop 导出实战示例

从 HDFS 导出到 MySQL

将 HDFS 目录中的数据导出到 MySQL 表，适用于 HDFS 中预处理后的结果同步。

命令示例

sqoop export \  
  --connect jdbc:mysql://localhost:3306/company \  # 数据库连接 URL  
  --username root \                                # 数据库用户名  
  --password 123456 \                              # 数据库密码  
  --table staff \                                  # 目标 MySQL 表名  
  --num-mappers 1 \                                # Map 任务数量（并行度）  
  --export-dir /user/hive/warehouse/staff_hive \   # HDFS 数据源目录  
  --input-fields-terminated-by "\t"                # 输入数据的字段分隔符

阅读全文 »

sqoop导入

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

sqoop导入全指南：从关系型数据库到 Hadoop 生态

Sqoop 作为 Hadoop 与关系型数据库之间的数据同步工具，其核心功能之一是将关系型数据库（如 MySQL）的数据导入到 HDFS、Hive 等分布式存储系统中。本文将详细介绍 Sqoop 导入的多种场景（全量导入、条件导入、Hive 导入等），并解析核心参数的使用方法，帮助读者灵活应对不同的数据同步需求。

Sqoop 导入核心原理

Sqoop 导入的本质是将 SQL 查询转换为 MapReduce 作业，通过以下步骤完成数据同步：

Sqoop 解析用户输入的 SQL 命令或表信息，生成 MapReduce 作业；
Map 任务通过 JDBC 连接关系型数据库，并行读取数据；
数据被写入目标存储（HDFS 或 Hive），并按指定格式分割（如 \t 分隔）；
若导入 Hive，额外执行 HiveQL 将 HDFS 数据加载到 Hive 表中。

整个过程仅使用 Map 任务（无 Reduce 任务），避免数据 shuffle，提高效率。

Sqoop 导入实战场景

全量导入到 HDFS

将关系型数据库中的整张表数据完整导入到 HDFS 指定目录，适用于初始化数据或全量同步场景。

命令示例

sqoop import \  
  --connect jdbc:mysql://localhost:3306/company \  # 数据库连接 URL  
  --username root \                                # 数据库用户名  
  --password 123456 \                              # 数据库密码  
  --table staff \                                  # 要导入的表名  
  --target-dir /user/sqoop/company \               # HDFS 目标目录  
  --delete-target-dir \                            # 若目标目录存在则删除（避免数据重复）  
  --num-mappers 1 \                                # Map 任务数量（并行度）  
  --fields-terminated-by "\t"                      # 字段分隔符（默认逗号）

关键参数解析

--table：指定源表名，Sqoop 会自动读取表结构并生成对应的数据文件；
--delete-target-dir：防止目标目录已存在导致的导入失败，适合定时全量覆盖场景；
--num-mappers：控制并行度，过多会增加数据库压力，建议根据表大小设置（1-10 为宜）。

阅读全文 »

sqoop配置

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

sqoop配置详解

Sqoop 作为 Hadoop 与关系型数据库的桥梁，其配置直接影响数据同步的稳定性和效率。本文将详细介绍 Sqoop 的核心配置步骤，包括环境变量设置、驱动安装及数据库连接测试，帮助读者快速完成 Sqoop 环境搭建。

核心配置文件：sqoop-env.sh

Sqoop 的环境变量配置通过 sqoop-env.sh 文件实现，该文件定义了 Sqoop 依赖的 Hadoop 生态组件路径。配置前需确保 Hadoop、Hive 等组件已正确安装并能正常运行。

配置步骤

定位配置文件：
Sqoop 的配置文件位于 $SQOOP_HOME/conf/ 目录下，默认提供模板文件 sqoop-env-template.sh，需复制为实际配置文件：
1
2
cd $SQOOP_HOME/conf
cp sqoop-env-template.sh sqoop-env.sh

编辑环境变量：
打开 sqoop-env.sh，添加以下配置（需替换为实际安装路径）：

# Hadoop 公共组件路径（HDFS、YARN 等）  
export HADOOP_COMMON_HOME=/usr/local/myself/hadoop-3.3.0  

# MapReduce 路径（Sqoop 依赖 MapReduce 执行数据同步）  
export HADOOP_MAPRED_HOME=/usr/local/myself/hadoop-3.3.0  

# Hive 路径（若需与 Hive 交互，如导入数据到 Hive 表）  
export HIVE_HOME=/usr/local/myself/apache-hive-3.1.2-bin  

# ZooKeeper 路径（若依赖 ZooKeeper，如与 HBase 交互）  
export ZOOKEEPER_HOME=/usr/local/myself/apache-zookeeper-3.6.1-bin  
export ZOOCFGDIR=/usr/local/myself/apache-zookeeper-3.6.1-bin/conf  

# HBase 路径（若需与 HBase 交互）  
export HBASE_HOME=/usr/local/myself/hbase-2.2.7

阅读全文 »

sqoop简介

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

sqoop核心功能与使用场景拓展

Sqoop 作为 Hadoop 生态中连接关系型数据库与分布式存储的重要工具，除了基础的数据导入导出功能外，还有许多实用特性和最佳实践值得关注。

核心功能详解

数据导入（Import）

全量导入：将关系型数据库中的整张表数据一次性导入到 HDFS、Hive 或 HBase 中。

sqoop import \
  --connect jdbc:mysql://localhost:3306/testdb \
  --username root \
  --password 123456 \
  --table user_info \
  --target-dir /user/hadoop/user_info \
  --m 1

增量导入：针对数据的新增或变化部分进行导入，避免重复处理历史数据。
- 基于递增列（append 模式）
- 基于时间戳（lastmodified 模式）

数据导出（Export）

将 HDFS 或 Hive 中的数据写入到关系型数据库中，需要目标表提前存在。

sqoop export \
  --connect jdbc:mysql://localhost:3306/testdb \
  --username root \
  --password 123456 \
  --table user_result \
  --export-dir /user/hadoop/user_result \
  --input-fields-terminated-by ','

关键组件与工作机制

组件	作用
Sqoop Metastore	存储导入导出作业的元数据，支持作业的重复执行和增量更新
代码生成器	自动生成与数据库表结构对应的 Java 类（POJO），用于数据序列化 / 反序列化
MapReduce 作业	实际执行数据传输的载体，仅使用 Map 任务（无 Reduce 任务），通过并行处理提高效率

阅读全文 »

MySQL执行顺序

发表于 2021-06-04 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

MySQL SQL 语句执行顺序详解

MySQL 执行 SQL 语句时，并不是按照代码的书写顺序执行的，而是遵循一套固定的逻辑流程。理解执行顺序对于编写高效 SQL、排查查询问题至关重要。

完整执行顺序

MySQL 对 SQL 语句的执行顺序如下（按序号依次执行）：

FROM 及关联操作
- 首先确定查询的数据源，包括主表（FROM <left_table>）和关联表（<join_type> JOIN <right_table>）。
- 通过 ON <join_condition> 过滤关联条件，生成临时数据集（包含两表匹配的记录）。
WHERE 过滤
- 对 FROM 阶段生成的临时数据集进行行级过滤，仅保留满足 <where_condition> 的记录。
- 注意：此时还不能使用 SELECT 中定义的别名，也不能使用聚合函数（如 SUM()、COUNT()）。
GROUP BY 分组
- 按 <group_by_list> 指定的字段对数据进行分组，相同分组的记录会被合并为一行。
- 分组后，后续操作（如 HAVING、SELECT）只能针对分组后的结果进行处理。
HAVING 过滤
- 对 GROUP BY 分组后的结果进行过滤，仅保留满足 <having_condition> 的分组。
- 与 WHERE 的区别：HAVING 可使用聚合函数（如 HAVING COUNT(*) > 10），而 WHERE 不行。
SELECT 字段筛选
- 从前面的结果集中筛选出 <select_list> 指定的字段或计算结果（如 SELECT name, age+1 AS new_age）。
- 此时可以使用别名（如 new_age）。
DISTINCT 去重
- 对 SELECT 阶段的结果进行去重，保留唯一的记录。
ORDER BY 排序
- 按 <order_by_condition> 对结果集进行排序（如 ORDER BY age DESC）。
- 可以使用 SELECT 中定义的别名（如 ORDER BY new_age）。
LIMIT 限制结果
- 按 <limit_number> 截取结果集的前 N 行（如 LIMIT 10 取前 10 行，LIMIT 5,10 从第 5 行开始取 10 行）。

关键阶段解析

阅读全文 »