小菜鸟

sqoop简介

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

sqoop核心功能与使用场景拓展

Sqoop 作为 Hadoop 生态中连接关系型数据库与分布式存储的重要工具，除了基础的数据导入导出功能外，还有许多实用特性和最佳实践值得关注。

核心功能详解

数据导入（Import）

全量导入：将关系型数据库中的整张表数据一次性导入到 HDFS、Hive 或 HBase 中。

sqoop import \
  --connect jdbc:mysql://localhost:3306/testdb \
  --username root \
  --password 123456 \
  --table user_info \
  --target-dir /user/hadoop/user_info \
  --m 1

增量导入：针对数据的新增或变化部分进行导入，避免重复处理历史数据。
- 基于递增列（append 模式）
- 基于时间戳（lastmodified 模式）

数据导出（Export）

将 HDFS 或 Hive 中的数据写入到关系型数据库中，需要目标表提前存在。

sqoop export \
  --connect jdbc:mysql://localhost:3306/testdb \
  --username root \
  --password 123456 \
  --table user_result \
  --export-dir /user/hadoop/user_result \
  --input-fields-terminated-by ','

关键组件与工作机制

组件	作用
Sqoop Metastore	存储导入导出作业的元数据，支持作业的重复执行和增量更新
代码生成器	自动生成与数据库表结构对应的 Java 类（POJO），用于数据序列化 / 反序列化
MapReduce 作业	实际执行数据传输的载体，仅使用 Map 任务（无 Reduce 任务），通过并行处理提高效率

阅读全文 »

MySQL执行顺序

发表于 2021-06-04 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

MySQL SQL 语句执行顺序详解

MySQL 执行 SQL 语句时，并不是按照代码的书写顺序执行的，而是遵循一套固定的逻辑流程。理解执行顺序对于编写高效 SQL、排查查询问题至关重要。

完整执行顺序

MySQL 对 SQL 语句的执行顺序如下（按序号依次执行）：

FROM 及关联操作
- 首先确定查询的数据源，包括主表（FROM <left_table>）和关联表（<join_type> JOIN <right_table>）。
- 通过 ON <join_condition> 过滤关联条件，生成临时数据集（包含两表匹配的记录）。
WHERE 过滤
- 对 FROM 阶段生成的临时数据集进行行级过滤，仅保留满足 <where_condition> 的记录。
- 注意：此时还不能使用 SELECT 中定义的别名，也不能使用聚合函数（如 SUM()、COUNT()）。
GROUP BY 分组
- 按 <group_by_list> 指定的字段对数据进行分组，相同分组的记录会被合并为一行。
- 分组后，后续操作（如 HAVING、SELECT）只能针对分组后的结果进行处理。
HAVING 过滤
- 对 GROUP BY 分组后的结果进行过滤，仅保留满足 <having_condition> 的分组。
- 与 WHERE 的区别：HAVING 可使用聚合函数（如 HAVING COUNT(*) > 10），而 WHERE 不行。
SELECT 字段筛选
- 从前面的结果集中筛选出 <select_list> 指定的字段或计算结果（如 SELECT name, age+1 AS new_age）。
- 此时可以使用别名（如 new_age）。
DISTINCT 去重
- 对 SELECT 阶段的结果进行去重，保留唯一的记录。
ORDER BY 排序
- 按 <order_by_condition> 对结果集进行排序（如 ORDER BY age DESC）。
- 可以使用 SELECT 中定义的别名（如 ORDER BY new_age）。
LIMIT 限制结果
- 按 <limit_number> 截取结果集的前 N 行（如 LIMIT 10 取前 10 行，LIMIT 5,10 从第 5 行开始取 10 行）。

关键阶段解析

阅读全文 »

MySQL使用自增主键的原因

发表于 2021-06-04 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 1.2k 阅读时长 ≈ 1 分钟

MySQL 选择自增主键的核心原因：基于 B+Tree 索引的性能优化

在 MySQL InnoDB 引擎中，主键不仅是数据的唯一标识，更是聚簇索引（主索引）的核心。自增主键之所以成为默认推荐方案，本质上是因为它完美适配了 B+Tree 索引的有序存储特性，能最大限度减少插入操作的性能损耗。

B+Tree 索引的存储特性与自增主键的契合度

InnoDB 的聚簇索引以 B+Tree 结构存储，叶子节点直接存放完整的数据记录，且同一叶子节点内的记录必须按主键顺序排列（叶子节点大小通常为 16KB，对应一个磁盘页）。

当使用自增主键时，新记录的插入呈现天然有序性：

每次插入的新记录主键值递增，会直接追加到当前叶子节点的末尾；
当当前叶子节点写满（达到 InnoDB 默认的 15/16 装载因子，预留少量空间供后续修改），会自动创建新的叶子节点，形成 “顺序扩展”；
整个过程无需调整已有数据的位置，插入效率极高，接近 “append” 操作。

这种特性与 B+Tree 的设计逻辑完全匹配，避免了额外的性能开销。

非自增主键的插入缺陷：无序性导致的性能损耗

若使用非自增主键（如 UUID、随机字符串、业务字段等），由于主键值随机且无序，新记录需插入到现有索引页的随机位置，会引发一系列连锁问题：

阅读全文 »

kafka事务

发表于 2021-06-04 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

Kafka 事务详解：跨分区的原子性消息处理

Kafka 事务机制旨在实现跨分区、跨会话的原子性消息处理，确保一组消息要么全部成功提交，要么全部失败回滚，即使中间发生生产者或 Broker 故障也能保证数据一致性。这一机制主要面向需要 Exactly-Once 语义（精确一次处理）的场景，如金融交易、数据同步等。本文将详细解析 Kafka 事务的核心概念、实现机制及生产者 / 消费者的事务处理流程。

事务核心概念

核心目标

Kafka 事务解决的核心问题是：确保生产者在多个分区中发送的消息具有原子性（要么全成功，要么全失败），同时保证消费者能正确处理这些事务消息（避免读取部分提交的消息）。

关键组件与术语

术语	定义	作用
Transaction ID（TxnID）	全局唯一的生产者标识，由用户指定	绑定生产者实例，确保生产者重启后能恢复未完成的事务，避免重复处理。
Producer ID（PID）	Kafka 为生产者分配的临时唯一标识	每个生产者启动时由 Transaction Coordinator 分配，用于跟踪生产者的事务状态（PID 会随生产者重启变化，需与 TxnID 绑定以恢复事务）。
Transaction Coordinator	事务协调器，运行在 Broker 上的组件	管理事务全生命周期：分配 TxnID、跟踪事务状态（开始 / 提交 / 中止）、存储事务元数据。
__transaction_state	内部主题，存储事务元数据	记录所有事务的状态（如活跃事务、提交 / 中止标记），确保事务状态可恢复（类似数据库的事务日志）。

事务语义

Kafka 事务支持两种核心语义：

原子写入：生产者向多个分区发送的消息，要么全部可见（提交），要么全部不可见（中止）。
事务恢复：生产者故障重启后，可通过 TxnID 恢复未完成的事务，避免重复提交或丢失。

Transaction Coordinator：事务的 “管理者”

Transaction Coordinator（事务协调器）是 Kafka 事务的核心组件，负责协调生产者的事务流程、管理事务状态，并与 Broker 协作完成事务提交。

主要职责

分配与绑定 TxnID：为生产者分配唯一 TxnID，并绑定其 PID（确保生产者重启后 TxnID 不变，PID 可重新关联）。
跟踪事务状态：记录事务的生命周期（BEGIN→COMMIT/ABORT），存储在内部主题 __transaction_state 中。
协调事务提交：在事务提交阶段，向所有涉及的分区发送 “事务标记”（TxnMarker），通知 Broker 确认事务完成。
故障恢复：当 Coordinator 或 Broker 故障时，通过 __transaction_state 恢复事务状态，确保事务可继续处理。

阅读全文 »

MySQL数据类型

发表于 2021-06-03 更新于 2025-08-15 分类于 MySQL 阅读次数： Valine：
本文字数： 3.1k 阅读时长 ≈ 3 分钟

MySQL 数据类型全解析：选择合适类型优化存储与性能

MySQL 提供了丰富的数据类型，涵盖数值、日期时间、字符串等类别。选择合适的数据类型不仅能节省存储空间，还能提升查询性能和数据准确性。本文详细解析各类数据类型的特性、适用场景及最佳实践。

数值类型：整数与浮点数的精确选择

数值类型用于存储数字，按精度和范围可分为整数类型、浮点类型和定点类型。

整数类型（精确值）

整数类型适用于存储没有小数部分的数字，支持有符号（默认）和无符号（UNSIGNED）两种模式。

类型	字节数	有符号范围	无符号范围（`UNSIGNED`）	适用场景
`TINYINT`	1	`-128 ~ 127`	`0 ~ 255`	状态标识（如 0/1 表示开关）
`SMALLINT`	2	`-32768 ~ 32767`	`0 ~ 65535`	小范围计数（如订单状态码）
`MEDIUMINT`	3	`-8388608 ~ 8388607`	`0 ~ 16777215`	中等范围计数（如用户等级）
`INT`/`INTEGER`	4	`-2147483648 ~ 2147483647`	`0 ~ 4294967295`	常规计数（如 ID、数量）
`BIGINT`	8	`-9223372036854775808 ~ 9223372036854775807`	`0 ~ 18446744073709551615`	极大范围计数（如雪花 ID）

示例：

-- 存储用户年龄（0~120，用 UNSIGNED TINYINT 更节省空间）
CREATE TABLE users (
  age TINYINT UNSIGNED  -- 范围 0~255，足够存储年龄
);

浮点类型（近似值）

浮点类型用于存储带小数的数字，但精度有限（存在舍入误差），适用于无需精确计算的场景。

阅读全文 »