小菜鸟

hibernate映射文件

发表于 2020-12-01 更新于 2025-08-23 分类于 hibernate 阅读次数： Valine：
本文字数： 7.9k 阅读时长 ≈ 7 分钟

Hibernate 映射文件（.hbm.xml）详解：从基础映射到高级配置

Hibernate 映射文件（通常以 .hbm.xml 命名，如 User.hbm.xml）是 ORM 思想的核心载体，负责定义 Java 持久化类 与 数据库表 之间的映射关系（包括类与表、属性与字段、主键生成策略等）。本文基于示例配置，从基础标签到高级特性，全面解析映射文件的核心功能与最佳实践。

映射文件基础结构

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE hibernate-mapping PUBLIC
        "-//Hibernate/Hibernate Mapping DTD//EN"
        "http://www.hibernate.org/dtd/hibernate-mapping-3.0.dtd">

<!-- 根标签：配置映射文件的全局属性 -->
<hibernate-mapping 
    package="com.zhanghe.study.model"  <!-- 可选，指定持久化类的默认包名，后续class标签可省略包名 -->
    default-access="property"          <!-- 可选，默认属性访问策略（property/field） -->
    default-cascade="none"             <!-- 可选，默认级联操作策略 -->
    default-lazy="true">               <!-- 可选，默认延迟加载策略 -->

    <!-- 核心标签：类与表的映射 -->
    <class name="User" table="t_user">
        <!-- 主键映射 -->
        <id name="id" column="user_id">
            <generator class="native"/> <!-- 主键生成策略 -->
        </id>

        <!-- 普通属性映射 -->
        <property name="username" column="user_name" type="string"/>
    </class>
</hibernate-mapping>

DOCTYPE 约束：指定映射文件的 DTD 规范（版本 3.0），确保标签和属性合法；
根标签 <hibernate-mapping>：可配置全局默认值（如包名、访问策略），简化子标签配置；
核心标签 <class>：定义单个 Java 类与数据库表的映射关系，是映射文件的核心。

核心标签详解

1. `<class>`：类与表的映射

<class> 标签是映射文件的核心，负责关联 Java 类和数据库表，支持多种属性控制映射行为。

（1）基础属性

属性名	作用描述	示例值
`name`	Java 持久化类的全类名（若根标签指定 `package`，可省略包名）	`com.zhanghe.study.model.User`
`table`	对应的数据库表名（默认与类名相同，建议显式指定，避免大小写问题）	`t_user`
`dynamic-insert`	动态生成 `INSERT` 语句：仅包含非 `null` 的属性（减少无效字段插入）	`true`/`false`（默认 `false`）
`dynamic-update`	动态生成 `UPDATE` 语句：仅包含被修改的属性（减少 SQL 长度，提升性能）	`true`/`false`（默认 `false`）
`mutable`	是否允许更新 / 删除：`false` 表示实例不可修改，等价于所有 `<property>` 的 `update="false"`	`true`/`false`（默认 `true`）
`lazy`	是否启用延迟加载（仅对关联查询有效，如一对多关系）	`true`/`false`（默认 `true`）

（2）示例：动态插入 / 更新配置

阅读全文 »

hibernate配置文件

发表于 2020-12-01 更新于 2025-08-23 分类于 hibernate 阅读次数： Valine：
本文字数： 7.4k 阅读时长 ≈ 7 分钟

Hibernate 核心配置文件（hibernate.cfg.xml）详解

hibernate.cfg.xml 是 Hibernate 的核心配置文件，负责定义数据库连接信息、框架行为参数、映射文件路径等关键配置，是 Hibernate 与数据库交互的 “总开关”。本文将逐段解析配置文件的核心参数，帮助理解各配置项的作用与最佳实践。

配置文件结构与约束

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE hibernate-configuration PUBLIC
        "-//Hibernate/Hibernate Configuration DTD//EN"
        "http://www.hibernate.org/dtd/hibernate-configuration-3.0.dtd">
<hibernate-configuration>
    <session-factory>
        <!-- 所有配置项都在这里 -->
    </session-factory>
</hibernate-configuration>

DOCTYPE 约束：指定配置文件的 DTD 规范（版本 3.0），确保配置格式合法；
根标签：<hibernate-configuration> 是根标签，内部仅包含一个 <session-factory> 标签，对应 Hibernate 的 SessionFactory 实例（一个数据库连接源）。

核心配置参数详解

1. 数据库连接配置（必须配置）

用于指定 Hibernate 连接数据库的基本信息，与 JDBC 连接参数对应：

阅读全文 »

数据库连接池

发表于 2020-11-29 更新于 2025-08-11 分类于 JDBC 阅读次数： Valine：
本文字数： 5.4k 阅读时长 ≈ 5 分钟

数据库连接池：原理、优势与实现详解

在传统 JDBC 编程中，每次次次操作数据库都需要通过 DriverManager 创建新连接，使用后再关闭。这种方式存在严重的性能问题 —— 连接的创建和关闭涉及 TCP 握手、认证等开销，频繁操作会显著降低系统性能。数据库连接池（Connection Pool）通过预先创建并管理一定数量的连接，实现连接复用，从根本上解决了这一问题。本文将详细讲解连接池的原理、优势及核心实现。

数据库连接池的核心原理

连接池的本质是一个连接缓冲池，其核心思想是：

预先创建连接：系统初始化时，在连接池中创建一定数量的数据库连接（Connection 对象）。
复用连接：当业务需要操作数据库时，从池中获取连接，使用完毕后不关闭连接，而是将其归还池内供下次复用。
动态管理：连接池根据负载自动调整连接数量（如空闲连接过多时销毁部分连接，请求高峰时临时创建新连接）。

传统方式 vs 连接池方式：

传统方式：创建连接 → 使用 → 关闭连接（每次操作都有创建 / 关闭开销）。
连接池方式：从池获取连接 → 使用 → 归还连接（连接可重复使用，避免重复创建 / 关闭）。

连接池的核心优势

资源复用
连接被重复使用，避免了频繁创建和关闭连接的性能开销（尤其是数据库服务器与应用服务器不在同一台机器时，可减少网络交互成本）。
提升响应速度
连接预先创建，业务请求时可直接从池内获取，无需等待连接建立，缩短了请求处理时间。
防止资源耗尽
连接池可限制最大连接数，避免某一应用独占所有数据库资源（如无限制创建连接可能导致数据库崩溃）。
统一连接管理
连接池提供连接超时回收、空闲检测等机制，避免传统方式中因忘记关闭连接导致的资源泄露。

JDBC 连接池规范：DataSource 接口

JDBC 定义了 javax.sql.DataSource 接口作为连接池的标准，该接口屏蔽了连接池的实现细节，为用户提供统一的连接获取方式。核心方法：

阅读全文 »

HDFS常用配置

发表于 2020-11-29 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

HDFS常用配置详解：性能优化与可靠性保障

HDFS 的配置参数直接影响集群的性能、可靠性和资源利用率。本文将深入解析 HDFS 核心配置参数的作用、适用场景及优化建议，帮助你根据业务需求定制 HDFS 集群。

一、数据可靠性配置

1. `dfs.replication`

作用：设置 HDFS 数据块的默认副本数，确保数据可靠性；
默认值：3

配置示例：

<property>  
  <name>dfs.replication</name>  
  <value>3</value>  
</property>

优化建议：
- 生产环境建议保持 3 副本，确保数据容错性；
- 冷数据或测试环境可降至 2 副本，节省存储资源；
- 单节点集群必须设为 1（否则无法写入数据）。

2. `dfs.client.block.write.replace-datanode-on-failure.replication`

作用：写入数据时，若某个 DataNode 失败，是否继续写入剩余副本；
默认值：0（失败后不继续写入）
配置示例：

<property>  
  <name>dfs.client.block.write.replace-datanode-on-failure.replication</name>  
  <value>2</value>  
</property>

适用场景：
- 数据节点数为 3 时，设为 2 可容忍 1 个节点故障，避免写入失败；
- 高并发写入场景（如 Spark 批量写入）建议启用，提升写入成功率。

性能优化配置

3. `dfs.blocksize`

作用：设置 HDFS 数据块的大小，影响数据分布和处理效率；
默认值：134217728 字节（128MB）

配置示例：

<property>  
  <name>dfs.blocksize</name>  
  <value>268435456</value>  <!-- 256MB -->  
</property>

优化建议：
- 大文件场景（如日志、视频）：增大块大小（256MB 或 512MB），减少 NameNode 元数据压力；
- 小文件场景：保持默认 128MB，避免块碎片化；
- 计算密集型场景：与 MapReduce/Spark 任务处理能力匹配（如每个块对应 1 个 Map 任务）。

4. `dfs.namenode.handler.count`

作用：NameNode 处理客户端请求的线程池大小，影响并发处理能力；
默认值：100
配置示例：

<property>  
  <name>dfs.namenode.handler.count</name>  
  <value>200</value>  
</property>

优化建议：
- 根据集群规模调整：小集群（<10 节点）保持默认，大集群（>100 节点）可增至 200-400；
- 高并发场景（如同时 hundreds 客户端）：通过压测确定最优值（通常为 100-500）。

5. `dfs.datanode.handler.count`

作用：DataNode 处理数据传输的线程池大小，影响读写性能；
默认值：30

配置示例：

<property>  
  <name>dfs.datanode.handler.count</name>  
  <value>60</value>  
</property>

优化建议：
- 磁盘 I/O 密集型场景：增至 60-100，提升并发传输能力；
- SSD 存储集群：可进一步提高（如 100-200），充分利用高速磁盘。

回收站与数据安全配置

6. `fs.trash.interval`

作用：设置 HDFS 回收站中文件的保留时间（分钟），防止误删除；
默认值：0（禁用回收站）
配置示例：

<property>  
  <name>fs.trash.interval</name>  
  <value>1440</value>  <!-- 24小时 -->  
</property>

最佳实践：
- 生产环境建议设置为 1440（24 小时），重要数据可延长至 4320（3 天）；
- 通过 hdfs dfs -expunge 手动清理回收站。

7. `fs.trash.checkpoint.interval`

作用：设置回收站扫描周期（分钟），控制何时创建回收站检查点；
默认值：0（与 fs.trash.interval 相同）

配置示例：

<property>  
  <name>fs.trash.checkpoint.interval</name>  
  <value>60</value>  <!-- 每小时扫描一次 -->  
</property>

注意事项：
- 需小于或等于 fs.trash.interval，否则无效；
- 频繁扫描会增加 NameNode 负担，建议根据集群规模调整。

高级配置与调优

8. `dfs.namenode.name.dir`

作用：设置 NameNode 元数据存储目录，支持多目录冗余；
默认值：file://${hadoop.tmp.dir}/dfs/name
配置示例：

<property>  
  <name>dfs.namenode.name.dir</name>  
  <value>  
    file:///hadoop/hdfs/name1,  
    file:///hadoop/hdfs/name2,  
    file:///disk3/hdfs/name3  <!-- 多磁盘存储 -->  
  </value>  
</property>

优势：
- 多目录提升读写性能（并行 I/O）；
- 单磁盘故障不影响 NameNode 可用性。

9. `dfs.datanode.data.dir`

作用：设置 DataNode 数据块存储目录，支持多磁盘扩展；
默认值：file://${hadoop.tmp.dir}/dfs/data
配置示例：

<property>  
  <name>dfs.datanode.data.dir</name>  
  <value>  
    file:///disk1/hdfs/data,  
    file:///disk2/hdfs/data,  
    file:///disk3/hdfs/data  <!-- 挂载多个物理磁盘 -->  
  </value>  
</property>

优化建议：
- 每个目录挂载独立物理磁盘，避免 I/O 竞争；
- SSD 与 HDD 混合部署时，热点数据存 SSD，冷数据存 HDD。

10. `dfs.namenode.datanode.registration.ip-hostname-check`

作用：控制 DataNode 注册时是否验证主机名与 IP 的映射关系；
默认值：true
配置示例：

<property>  
  <name>dfs.namenode.datanode.registration.ip-hostname-check</name>  
  <value>false</value>  
</property>

适用场景：
- 集群主机名与 IP 未配置 DNS 映射时，需设为 false，否则 DataNode 无法注册；
- 生产环境建议保持 true，确保通信安全。

配置验证与性能测试

1. 配置文件位置

HDFS 核心配置文件位于 $HADOOP_HOME/etc/hadoop 目录下：

core-site.xml：通用 Hadoop 配置（如文件系统 URI）；
hdfs-site.xml：HDFS 专属配置（如副本数、块大小）；
workers：DataNode 节点列表（每行一个主机名）。

2. 验证配置生效

# 查看当前生效的配置（NameNode 配置）  
hdfs getconf -confKey dfs.replication  

# 查看所有配置  
hdfs getconf -confKey "*"  

# 重启 HDFS 使配置生效  
stop-dfs.sh  
start-dfs.sh

3. 性能测试工具

使用 hdfs dfsioe 工具测试 HDFS 读写性能：

# 写入测试（生成 10 个 1GB 文件）  
hdfs dfsio -write -nrFiles 10 -fileSize 1GB  

# 读取测试  
hdfs dfsio -read -nrFiles 10 -fileSize 1GB  

# 清理测试文件  
hdfs dfsio -clean

配置最佳实践

分环境配置：
- 开发 / 测试环境：减少副本数（如 1-2）、增大检查点间隔，降低资源消耗；
- 生产环境：保持高可靠性配置（如 3 副本、频繁心跳检测）。
监控与调优：
- 通过 NameNode Web UI（http://namenode:50070）监控集群状态；
- 使用 Ganglia、Ambari 等工具收集性能指标，定期调整配置。
避免过度调优：
- 默认配置已针对大多数场景优化，非必要不修改；
- 调整单个参数可能影响其他组件，建议小范围测试后再推广。

HDFS工作流程

发表于 2020-11-28 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

HDFS读写流程详解：从客户端到集群的完整路径

HDFS 的读写流程是分布式存储系统的核心机制，涉及客户端、NameNode 和 DataNode 三者的协同工作。本文将通过时序图和代码示例，深入解析 HDFS 的写入和读取流程，帮助理解数据在集群中的流动路径和关键技术点。

HDFS 写入流程详解

HDFS 的写入流程采用 流水线复制（Pipeline Replication） 机制，确保数据高效且可靠地存储到多个 DataNode 上。

1. 写入流程时序图

sequenceDiagram  
    participant Client  
    participant NN[NameNode]  
    participant DN1[DataNode 1]  
    participant DN2[DataNode 2]  
    participant DN3[DataNode 3]  

    Client->>NN: 创建文件请求（/user/data.txt）  
    NN->>Client: 确认创建，返回文件句柄  
    Client->>NN: 请求分配第一个数据块  
    NN->>Client: 分配块 ID（blk_123），返回 DataNode 列表（DN1→DN2→DN3）  
    Client->>DN1: 建立写入流水线（blk_123）  
    DN1->>DN2: 建立连接  
    DN2->>DN3: 建立连接  
    Client->>DN1: 流式写入数据（64KB 数据包）  
    DN1->>DN2: 转发数据  
    DN2->>DN3: 转发数据  
    DN3->>DN2: 确认接收  
    DN2->>DN1: 确认接收  
    DN1->>Client: 确认接收  
    loop 直至所有数据写入  
        Client->>DN1: 发送下一个数据包  
        DN1->>DN2: 转发  
        DN2->>DN3: 转发  
        DN3->>DN2: 确认  
        DN2->>DN1: 确认  
        DN1->>Client: 确认  
    end  
    Client->>NN: 关闭文件请求  
    NN->>Client: 确认关闭，持久化元数据

关键步骤解析

（1）客户端与 NameNode 交互

创建文件：客户端向 NameNode 发送创建文件请求，NameNode 验证权限并在元数据中创建文件节点（不分配块）；
分配块：客户端写入数据时，NameNode 动态分配新的数据块，并返回可用的 DataNode 列表（按机架感知策略选择）。

（2）流水线复制机制

建立流水线：客户端连接主 DataNode（如 DN1），DN1 依次连接后续 DataNode（DN2→DN3）形成写入流水线；
数据传输：客户端将数据流式发送给 DN1，DN1 边接收边转发给 DN2，DN2 再转发给 DN3，形成 顺序写入；
确认机制：数据在流水线中反向确认（DN3→DN2→DN1→Client），确保所有副本写入成功。

（3）元数据持久化

文件关闭：客户端完成写入后，通知 NameNode 关闭文件；
元数据更新：NameNode 将文件的块信息（块 ID、位置）持久化到 FsImage 和 Edits。

阅读全文 »

Hibernate 映射文件（.hbm.xml）详解：从基础映射到高级配置

映射文件基础结构

核心标签详解

1. <class>：类与表的映射

（1）基础属性

（2）示例：动态插入 / 更新配置

Hibernate 核心配置文件（hibernate.cfg.xml）详解

配置文件结构与约束

核心配置参数详解

1. 数据库连接配置（必须配置）

数据库连接池：原理、优势与实现详解

数据库连接池的核心原理

连接池的核心优势

JDBC 连接池规范：DataSource 接口

HDFS常用配置详解：性能优化与可靠性保障

一、数据可靠性配置

1. dfs.replication

2. dfs.client.block.write.replace-datanode-on-failure.replication

性能优化配置

3. dfs.blocksize

4. dfs.namenode.handler.count

5. dfs.datanode.handler.count

回收站与数据安全配置

6. fs.trash.interval

7. fs.trash.checkpoint.interval

高级配置与调优

8. dfs.namenode.name.dir

9. dfs.datanode.data.dir

10. dfs.namenode.datanode.registration.ip-hostname-check

配置验证与性能测试

1. 配置文件位置

2. 验证配置生效

3. 性能测试工具

配置最佳实践

HDFS读写流程详解：从客户端到集群的完整路径

HDFS 写入流程详解

1. 写入流程时序图

关键步骤解析

（1）客户端与 NameNode 交互

（2）流水线复制机制

（3）元数据持久化

1. `<class>`：类与表的映射

1. `dfs.replication`

2. `dfs.client.block.write.replace-datanode-on-failure.replication`

3. `dfs.blocksize`

4. `dfs.namenode.handler.count`

5. `dfs.datanode.handler.count`

6. `fs.trash.interval`

7. `fs.trash.checkpoint.interval`

8. `dfs.namenode.name.dir`

9. `dfs.datanode.data.dir`

10. `dfs.namenode.datanode.registration.ip-hostname-check`