小菜鸟

HDFS常用配置

发表于 2020-11-29 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

HDFS常用配置详解：性能优化与可靠性保障

HDFS 的配置参数直接影响集群的性能、可靠性和资源利用率。本文将深入解析 HDFS 核心配置参数的作用、适用场景及优化建议，帮助你根据业务需求定制 HDFS 集群。

一、数据可靠性配置

1. `dfs.replication`

作用：设置 HDFS 数据块的默认副本数，确保数据可靠性；
默认值：3

配置示例：

<property>  
  <name>dfs.replication</name>  
  <value>3</value>  
</property>

优化建议：
- 生产环境建议保持 3 副本，确保数据容错性；
- 冷数据或测试环境可降至 2 副本，节省存储资源；
- 单节点集群必须设为 1（否则无法写入数据）。

2. `dfs.client.block.write.replace-datanode-on-failure.replication`

作用：写入数据时，若某个 DataNode 失败，是否继续写入剩余副本；
默认值：0（失败后不继续写入）
配置示例：

<property>  
  <name>dfs.client.block.write.replace-datanode-on-failure.replication</name>  
  <value>2</value>  
</property>

适用场景：
- 数据节点数为 3 时，设为 2 可容忍 1 个节点故障，避免写入失败；
- 高并发写入场景（如 Spark 批量写入）建议启用，提升写入成功率。

性能优化配置

3. `dfs.blocksize`

作用：设置 HDFS 数据块的大小，影响数据分布和处理效率；
默认值：134217728 字节（128MB）

配置示例：

<property>  
  <name>dfs.blocksize</name>  
  <value>268435456</value>  <!-- 256MB -->  
</property>

优化建议：
- 大文件场景（如日志、视频）：增大块大小（256MB 或 512MB），减少 NameNode 元数据压力；
- 小文件场景：保持默认 128MB，避免块碎片化；
- 计算密集型场景：与 MapReduce/Spark 任务处理能力匹配（如每个块对应 1 个 Map 任务）。

4. `dfs.namenode.handler.count`

作用：NameNode 处理客户端请求的线程池大小，影响并发处理能力；
默认值：100
配置示例：

<property>  
  <name>dfs.namenode.handler.count</name>  
  <value>200</value>  
</property>

优化建议：
- 根据集群规模调整：小集群（<10 节点）保持默认，大集群（>100 节点）可增至 200-400；
- 高并发场景（如同时 hundreds 客户端）：通过压测确定最优值（通常为 100-500）。

5. `dfs.datanode.handler.count`

作用：DataNode 处理数据传输的线程池大小，影响读写性能；
默认值：30

配置示例：

<property>  
  <name>dfs.datanode.handler.count</name>  
  <value>60</value>  
</property>

优化建议：
- 磁盘 I/O 密集型场景：增至 60-100，提升并发传输能力；
- SSD 存储集群：可进一步提高（如 100-200），充分利用高速磁盘。

回收站与数据安全配置

6. `fs.trash.interval`

作用：设置 HDFS 回收站中文件的保留时间（分钟），防止误删除；
默认值：0（禁用回收站）
配置示例：

<property>  
  <name>fs.trash.interval</name>  
  <value>1440</value>  <!-- 24小时 -->  
</property>

最佳实践：
- 生产环境建议设置为 1440（24 小时），重要数据可延长至 4320（3 天）；
- 通过 hdfs dfs -expunge 手动清理回收站。

7. `fs.trash.checkpoint.interval`

作用：设置回收站扫描周期（分钟），控制何时创建回收站检查点；
默认值：0（与 fs.trash.interval 相同）

配置示例：

<property>  
  <name>fs.trash.checkpoint.interval</name>  
  <value>60</value>  <!-- 每小时扫描一次 -->  
</property>

注意事项：
- 需小于或等于 fs.trash.interval，否则无效；
- 频繁扫描会增加 NameNode 负担，建议根据集群规模调整。

高级配置与调优

8. `dfs.namenode.name.dir`

作用：设置 NameNode 元数据存储目录，支持多目录冗余；
默认值：file://${hadoop.tmp.dir}/dfs/name
配置示例：

<property>  
  <name>dfs.namenode.name.dir</name>  
  <value>  
    file:///hadoop/hdfs/name1,  
    file:///hadoop/hdfs/name2,  
    file:///disk3/hdfs/name3  <!-- 多磁盘存储 -->  
  </value>  
</property>

优势：
- 多目录提升读写性能（并行 I/O）；
- 单磁盘故障不影响 NameNode 可用性。

9. `dfs.datanode.data.dir`

作用：设置 DataNode 数据块存储目录，支持多磁盘扩展；
默认值：file://${hadoop.tmp.dir}/dfs/data
配置示例：

<property>  
  <name>dfs.datanode.data.dir</name>  
  <value>  
    file:///disk1/hdfs/data,  
    file:///disk2/hdfs/data,  
    file:///disk3/hdfs/data  <!-- 挂载多个物理磁盘 -->  
  </value>  
</property>

优化建议：
- 每个目录挂载独立物理磁盘，避免 I/O 竞争；
- SSD 与 HDD 混合部署时，热点数据存 SSD，冷数据存 HDD。

10. `dfs.namenode.datanode.registration.ip-hostname-check`

作用：控制 DataNode 注册时是否验证主机名与 IP 的映射关系；
默认值：true
配置示例：

<property>  
  <name>dfs.namenode.datanode.registration.ip-hostname-check</name>  
  <value>false</value>  
</property>

适用场景：
- 集群主机名与 IP 未配置 DNS 映射时，需设为 false，否则 DataNode 无法注册；
- 生产环境建议保持 true，确保通信安全。

配置验证与性能测试

1. 配置文件位置

HDFS 核心配置文件位于 $HADOOP_HOME/etc/hadoop 目录下：

core-site.xml：通用 Hadoop 配置（如文件系统 URI）；
hdfs-site.xml：HDFS 专属配置（如副本数、块大小）；
workers：DataNode 节点列表（每行一个主机名）。

2. 验证配置生效

# 查看当前生效的配置（NameNode 配置）  
hdfs getconf -confKey dfs.replication  

# 查看所有配置  
hdfs getconf -confKey "*"  

# 重启 HDFS 使配置生效  
stop-dfs.sh  
start-dfs.sh

3. 性能测试工具

使用 hdfs dfsioe 工具测试 HDFS 读写性能：

# 写入测试（生成 10 个 1GB 文件）  
hdfs dfsio -write -nrFiles 10 -fileSize 1GB  

# 读取测试  
hdfs dfsio -read -nrFiles 10 -fileSize 1GB  

# 清理测试文件  
hdfs dfsio -clean

配置最佳实践

分环境配置：
- 开发 / 测试环境：减少副本数（如 1-2）、增大检查点间隔，降低资源消耗；
- 生产环境：保持高可靠性配置（如 3 副本、频繁心跳检测）。
监控与调优：
- 通过 NameNode Web UI（http://namenode:50070）监控集群状态；
- 使用 Ganglia、Ambari 等工具收集性能指标，定期调整配置。
避免过度调优：
- 默认配置已针对大多数场景优化，非必要不修改；
- 调整单个参数可能影响其他组件，建议小范围测试后再推广。

HDFS工作流程

发表于 2020-11-28 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

HDFS读写流程详解：从客户端到集群的完整路径

HDFS 的读写流程是分布式存储系统的核心机制，涉及客户端、NameNode 和 DataNode 三者的协同工作。本文将通过时序图和代码示例，深入解析 HDFS 的写入和读取流程，帮助理解数据在集群中的流动路径和关键技术点。

HDFS 写入流程详解

HDFS 的写入流程采用 流水线复制（Pipeline Replication） 机制，确保数据高效且可靠地存储到多个 DataNode 上。

1. 写入流程时序图

sequenceDiagram  
    participant Client  
    participant NN[NameNode]  
    participant DN1[DataNode 1]  
    participant DN2[DataNode 2]  
    participant DN3[DataNode 3]  

    Client->>NN: 创建文件请求（/user/data.txt）  
    NN->>Client: 确认创建，返回文件句柄  
    Client->>NN: 请求分配第一个数据块  
    NN->>Client: 分配块 ID（blk_123），返回 DataNode 列表（DN1→DN2→DN3）  
    Client->>DN1: 建立写入流水线（blk_123）  
    DN1->>DN2: 建立连接  
    DN2->>DN3: 建立连接  
    Client->>DN1: 流式写入数据（64KB 数据包）  
    DN1->>DN2: 转发数据  
    DN2->>DN3: 转发数据  
    DN3->>DN2: 确认接收  
    DN2->>DN1: 确认接收  
    DN1->>Client: 确认接收  
    loop 直至所有数据写入  
        Client->>DN1: 发送下一个数据包  
        DN1->>DN2: 转发  
        DN2->>DN3: 转发  
        DN3->>DN2: 确认  
        DN2->>DN1: 确认  
        DN1->>Client: 确认  
    end  
    Client->>NN: 关闭文件请求  
    NN->>Client: 确认关闭，持久化元数据

关键步骤解析

（1）客户端与 NameNode 交互

创建文件：客户端向 NameNode 发送创建文件请求，NameNode 验证权限并在元数据中创建文件节点（不分配块）；
分配块：客户端写入数据时，NameNode 动态分配新的数据块，并返回可用的 DataNode 列表（按机架感知策略选择）。

（2）流水线复制机制

建立流水线：客户端连接主 DataNode（如 DN1），DN1 依次连接后续 DataNode（DN2→DN3）形成写入流水线；
数据传输：客户端将数据流式发送给 DN1，DN1 边接收边转发给 DN2，DN2 再转发给 DN3，形成 顺序写入；
确认机制：数据在流水线中反向确认（DN3→DN2→DN1→Client），确保所有副本写入成功。

（3）元数据持久化

文件关闭：客户端完成写入后，通知 NameNode 关闭文件；
元数据更新：NameNode 将文件的块信息（块 ID、位置）持久化到 FsImage 和 Edits。

阅读全文 »

JDBC操作事务

发表于 2020-11-28 更新于 2025-08-11 分类于 JDBC 阅读次数： Valine：
本文字数： 5.9k 阅读时长 ≈ 5 分钟

JDBC 事务操作详解：ACID 与隔离级别实践

事务是数据库操作的基本单元，确保多个数据库操作要么全部成功，要么全部失败，从而保证数据的一致性。JDBC 提供了完整的事务控制 API，支持事务的提交、回滚及隔离级别的设置。本文将从事务的核心特性（ACID）出发，详解 JDBC 事务操作的实现、隔离级别及并发问题的解决。

事务的核心特性（ACID）

事务必须满足四大特性，即 ACID：

特性	定义	示例场景
原子性（Atomicity）	事务是不可分割的最小单位，操作要么全执行，要么全不执行。	转账时，“扣款” 和 “收款” 必须同时成功，若一方失败则全部回滚。
一致性（Consistency）	事务执行前后，数据库从一个一致性状态切换到另一个一致性状态。	转账前 A 有 100 元、B 有 200 元，转账后 A+B 仍为 300 元（总额不变）。
隔离性（Isolation）	多个事务并发执行时，彼此互不干扰，结果等同于串行执行。	事务 T1 读取数据时，事务 T2 的未提交修改不会影响 T1 的结果。
持久性（Durability）	事务提交后，对数据的修改永久生效，即使系统崩溃也不会丢失。	提交转账后，即使数据库重启，A 和 B 的余额仍保持更新后的值。

JDBC 事务操作的核心 API

JDBC 通过 Connection 接口控制事务，默认情况下，每条 SQL 语句都是一个独立事务（自动提交）。如需手动管理事务，需通过以下方法：

阅读全文 »

JDBC获取元数据

发表于 2020-11-28 更新于 2025-08-11 分类于 JDBC 阅读次数： Valine：
本文字数： 7k 阅读时长 ≈ 6 分钟

JDBC 元数据获取详解：探索数据库与结果集的底层信息

在 JDBC 编程中，除了执行 SQL 操作获取业务数据外，有时还需要获取数据库本身的信息（如数据库版本、支持的功能）或结果集的结构（如列名、数据类型）。这些描述数据的数据称为元数据（Metadata）。JDBC 提供了 DatabaseMetaData 和 ResultSetMetaData 两个核心接口，分别用于获取数据库元数据和结果集元数据。本文将详细讲解这两种元数据的获取与应用。

数据库元数据（DatabaseMetaData）

DatabaseMetaData 接口用于描述数据库的整体信息，通过 Connection.getMetaData() 方法获取，可获取数据库产品名称、版本、支持的 SQL 特性、表结构等底层信息。

核心方法与示例

（1）获取数据库基本信息

import java.sql.Connection;
import java.sql.DatabaseMetaData;
import java.sql.SQLException;

public class DatabaseMetaDataDemo {
    public static void main(String[] args) {
        try (Connection conn = JDBCUtil.getConnection()) { // 自定义连接工具类
            // 获取数据库元数据对象
            DatabaseMetaData metaData = conn.getMetaData();

            // 1. 数据库产品信息
            String productName = metaData.getDatabaseProductName(); // 如 "MySQL"
            String productVersion = metaData.getDatabaseProductVersion(); // 如 "8.0.30"
            int majorVersion = metaData.getDatabaseMajorVersion(); // 主版本号，如 8
            int minorVersion = metaData.getDatabaseMinorVersion(); // 次版本号，如 0

            // 2. JDBC 驱动信息
            String driverName = metaData.getDriverName(); // 如 "MySQL Connector/J"
            String driverVersion = metaData.getDriverVersion(); // 如 "8.0.30"
            int driverMajor = metaData.getDriverMajorVersion(); // 驱动主版本
            int driverMinor = metaData.getDriverMinorVersion(); // 驱动次版本

            // 3. 连接信息
            String userName = metaData.getUserName(); // 连接数据库的用户名
            String url = metaData.getURL(); // 数据库连接 URL

            // 打印信息
            System.out.println("数据库产品：" + productName + " " + productVersion);
            System.out.println("数据库版本：" + majorVersion + "." + minorVersion);
            System.out.println("JDBC 驱动：" + driverName + " " + driverVersion);
            System.out.println("连接用户：" + userName + "，URL：" + url);

        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

输出示例（MySQL）：

数据库产品：MySQL 8.0.30
数据库版本：8.0
JDBC 驱动：MySQL Connector/J 8.0.30
连接用户：root@localhost，URL：jdbc:mysql://localhost:3306/test

（2）获取数据库中的表和 schema

DatabaseMetaData 提供了获取数据库中表、视图、列等结构信息的方法，返回 ResultSet 结果集：

阅读全文 »

JDBC基本操作

发表于 2020-11-28 更新于 2025-08-11 分类于 JDBC 阅读次数： Valine：
本文字数： 7.2k 阅读时长 ≈ 7 分钟

JDBC 详解：Java 数据库连接的核心操作

JDBC（Java Database Connectivity）是 Java 访问数据库的标准接口，它定义了一套独立于特定数据库管理系统（DBMS）的 API，使 Java 程序能够通过统一的方式操作各种关系型数据库（如 MySQL、Oracle、SQL Server 等）。本文将详细讲解 JDBC 的核心概念、连接步骤及常用操作，帮助你掌握 Java 与数据库交互的基础。

JDBC 核心组件

JDBC 主要通过以下接口和类实现数据库交互：

组件	作用描述
`Driver`	数据库驱动接口，由各数据库厂商实现（如 MySQL 的 `com.mysql.jdbc.Driver`）。
`DriverManager`	驱动管理类，负责注册驱动、创建数据库连接。
`Connection`	数据库连接接口，代表与数据库的会话，用于创建执行 SQL 的对象。
`Statement`	执行静态 SQL 语句的接口，存在 SQL 注入风险。
`PreparedStatement`	预编译 SQL 语句的接口，可防止 SQL 注入，性能更优。
`ResultSet`	结果集接口，存储查询返回的数据，提供遍历和获取数据的方法。

JDBC 连接数据库的步骤

使用 JDBC 操作数据库的核心步骤可概括为：加载驱动 → 建立连接 → 执行 SQL → 处理结果 → 释放资源。

准备工作

引入数据库驱动：根据数据库类型添加对应的驱动 JAR 包（如 MySQL 驱动 mysql-connector-java）。

创建数据库和表：以 MySQL 为例，创建测试表user：

CREATE TABLE user (
    id INT PRIMARY KEY AUTO_INCREMENT,
    name VARCHAR(50) NOT NULL
) ENGINE = InnoDB DEFAULT CHARSET = utf8;

加载驱动与建立连接

（1）核心参数定义

阅读全文 »

HDFS常用配置详解：性能优化与可靠性保障

一、数据可靠性配置

1. dfs.replication

2. dfs.client.block.write.replace-datanode-on-failure.replication

性能优化配置

3. dfs.blocksize

4. dfs.namenode.handler.count

5. dfs.datanode.handler.count

回收站与数据安全配置

6. fs.trash.interval

7. fs.trash.checkpoint.interval

高级配置与调优

8. dfs.namenode.name.dir

9. dfs.datanode.data.dir

10. dfs.namenode.datanode.registration.ip-hostname-check

配置验证与性能测试

1. 配置文件位置

2. 验证配置生效

3. 性能测试工具

配置最佳实践

HDFS读写流程详解：从客户端到集群的完整路径

HDFS 写入流程详解

1. 写入流程时序图

关键步骤解析

（1）客户端与 NameNode 交互

（2）流水线复制机制

（3）元数据持久化

JDBC 事务操作详解：ACID 与隔离级别实践

事务的核心特性（ACID）

JDBC 事务操作的核心 API

JDBC 元数据获取详解：探索数据库与结果集的底层信息

数据库元数据（DatabaseMetaData）

核心方法与示例

（1）获取数据库基本信息

（2）获取数据库中的表和 schema

JDBC 详解：Java 数据库连接的核心操作

JDBC 核心组件

JDBC 连接数据库的步骤

准备工作

加载驱动与建立连接

（1）核心参数定义

1. `dfs.replication`

2. `dfs.client.block.write.replace-datanode-on-failure.replication`

3. `dfs.blocksize`

4. `dfs.namenode.handler.count`

5. `dfs.datanode.handler.count`

6. `fs.trash.interval`

7. `fs.trash.checkpoint.interval`

8. `dfs.namenode.name.dir`

9. `dfs.datanode.data.dir`

10. `dfs.namenode.datanode.registration.ip-hostname-check`