小菜鸟

DOM操作

发表于 2020-12-14 更新于 2025-08-28 分类于 JavaScript 阅读次数： Valine：
本文字数： 13k 阅读时长 ≈ 12 分钟

JavaScript DOM 操作详解：节点操作与文档交互实战指南

DOM（Document Object Model，文档对象模型）是浏览器将 HTML 文档解析后形成的树形结构，JavaScript 通过 DOM 操作可以动态修改网页的内容、结构和样式。从 “DOM 基础概念→核心操作流程→实战场景→常见问题” 四个维度，系统讲解 DOM 操作的底层逻辑与实用技巧，帮你掌握动态网页开发的核心能力。

DOM 核心概念：节点与文档树

在进行 DOM 操作前，需先理解 “节点” 和 “文档树” 的基本概念 ——HTML 文档中所有内容（标签、属性、文本）都被抽象为 “节点”，这些节点按层级关系组成 “文档树”。

1. 三种核心节点类型

HTML 文档中的节点主要分为三类，每种节点的特性和用途不同：

节点类型	描述	示例（基于 `<p title="remark">备注</p>`）	核心属性（`nodeType`/`nodeName`/`nodeValue`）
元素节点	HTML 标签（如 `<p>`、`<div>`、`<li>`），是文档树的 “骨架”，可包含子节点	`<p>` 标签本身	`nodeType: 1`；`nodeName: 标签名大写`（如 `P`）；`nodeValue: null`（元素节点无此属性）
属性节点	元素节点的属性（如 `title`、`id`、`class`），依附于元素节点存在	`title="remark"` 属性	`nodeType: 2`；`nodeName: 属性名`（如 `title`）；`nodeValue: 属性值`（如 `remark`）
文本节点	元素节点内的文本内容（如标签中的文字、空格、换行），是元素节点的子节点	`<p>` 标签内的 “备注” 文本	`nodeType: 3`；`nodeName: #text`；`nodeValue: 文本内容`（如 `备注`）

关键补充：

除上述三种外，DOM 还有注释节点（nodeType: 8）、文档节点（document，nodeType: 9）等，但日常开发中以 “元素 / 属性 / 文本节点” 为主；
节点关系：元素节点可包含子节点（文本节点、其他元素节点），属性节点是元素节点的 “附属”，不参与文档树的层级关系。

2. 文档树结构

HTML 文档被解析后，节点按 “父子、兄弟” 关系组成树形结构，例如：

阅读全文 »

数据输入

发表于 2020-12-13 更新于 2025-07-24 分类于 hadoop 阅读次数： Valine：
本文字数： 5.6k 阅读时长 ≈ 5 分钟

MapReduce 数据输入机制：InputFormat 深度解析

在 MapReduce 框架中，数据输入阶段是处理流程的起点，负责将原始数据读取、分片并转换为 Map 任务可处理的键值对。InputFormat 作为数据输入的核心组件，决定了数据如何分片、如何读取以及如何转换为键值对。本文将从 InputSplit 原理到具体实现类，全面解析 MapReduce 的数据输入机制。

InputFormat 核心作用与架构

核心职责

InputFormat 是 MapReduce 数据输入的抽象层，主要完成三项任务：

数据分片：将输入数据分割为若干 InputSplit（逻辑分片），每个分片对应一个 MapTask；
读取数据：通过 RecordReader 将 InputSplit 转换为 <key, value> 键值对，供 Map 函数处理；
校验输入：检查输入路径的有效性，确保数据可访问。

架构层次

InputFormat 采用抽象类 + 实现类的设计模式，层次结构如下：

InputFormat（抽象类）  
├─ FileInputFormat（文件输入基类）  
│  ├─ TextInputFormat（默认文本输入）  
│  ├─ KeyValueTextInputFormat（键值分隔输入）  
│  ├─ NLineInputFormat（按行数分片输入）  
│  └─ CombineTextInputFormat（小文件合并输入）  
└─ 自定义 InputFormat（继承 FileInputFormat 或 InputFormat）

所有文件类输入格式均继承自 FileInputFormat，它提供了文件分片的基础实现，子类只需重写数据读取逻辑即可。

InputSplit：逻辑分片的核心

InputSplit 本质

InputSplit 是 MapReduce 对输入数据的 逻辑分片，代表 MapTask 处理的数据范围。它并非实际存储数据，而是记录了数据的位置信息和长度信息：

长度：分片的字节大小，用于排序分片（优化 MapTask 调度）；
位置：存储该分片数据的 DataNode 节点列表（用于本地化调度，优先将 MapTask 分配到数据所在节点）。

阅读全文 »

MapReduce简介

发表于 2020-12-12 更新于 2025-07-24 分类于 hadoop 阅读次数： Valine：
本文字数： 6k 阅读时长 ≈ 5 分钟

MapReduce深度解析：从原理到实践

MapReduce 是 Apache Hadoop 的核心计算框架，它通过将大规模数据处理任务分解为多个独立的小任务（Map 和 Reduce），实现了分布式并行计算。本文将从设计理念、工作流程到编程模型进行全面解析，并通过实际案例展示其应用。

MapReduce 设计理念：分而治之

核心思想

MapReduce 的设计灵感来源于函数式编程中的 Map 和 Reduce 操作：

Map：将输入数据解析为键值对（K-V），并对每个键值对进行独立处理；
Reduce：对 Map 输出的键值对按 key 分组，聚合处理相同 key 的所有 value。

这种 “分而治之” 的思想使得大规模数据处理可以并行化，显著提升效率。

适用场景

MapReduce 适合处理 海量数据的批处理任务，例如：

日志分析（如统计访问量、错误率）
数据挖掘（如词频统计、协同过滤）
大规模数据聚合（如求和、平均值计算）
数据转换（如格式转换、ETL 操作）

MapReduce 工作流程详解

整体架构

MapReduce 作业（Job）由三个核心组件协同完成：

MrAppMaster：负责作业调度、资源分配和状态监控；
MapTask：并行处理输入数据，生成中间结果；
ReduceTask：聚合 Map 输出的中间结果，生成最终输出。

阅读全文 »

hibernate缓存

发表于 2020-12-09 更新于 2025-08-23 分类于 hibernate 阅读次数： Valine：
本文字数： 8.9k 阅读时长 ≈ 8 分钟

Hibernate 缓存机制深度解析：一级缓存、二级缓存与查询缓存的实践

Hibernate 缓存是提升查询性能的核心机制，通过减少数据库访问次数，显著降低系统 IO 开销。Hibernate 提供一级缓存（Session 缓存）、二级缓存（SessionFactory 缓存） 和查询缓存三级缓存体系，各级缓存的作用范围、管理方式和适用场景差异显著。本文系统解析各级缓存的原理、配置、使用方式及最佳实践，帮助开发者合理利用缓存优化系统性能。

Hibernate 缓存体系概述

Hibernate 缓存按 “作用范围” 和 “管理粒度” 分为三级，各级缓存的核心定位如下：

缓存级别	作用范围	管理主体	启用方式	核心作用
一级缓存	Session（事务级）	Hibernate 自动	强制启用，无法关闭	确保同一事务内重复查询同一对象时无需访问数据库
二级缓存	SessionFactory（进程级）	第三方缓存插件	手动配置启用	共享多事务 / 多 Session 的查询结果，减少重复查询
查询缓存	SessionFactory（进程级）	第三方缓存插件	手动配置 + 代码标记	缓存 HQL/QBC 查询结果，避免重复执行相同查询

一级缓存（Session 缓存）

一级缓存是 Hibernate 的内置缓存，与 Session 生命周期绑定，属于 “事务级缓存”，是 Hibernate 确保事务一致性和减少数据库访问的基础。

核心原理

存储内容：当前 Session 加载的持久化对象（包含 OID 和属性值）；
生命周期：随 Session 创建而初始化，随 Session 关闭 / 清理（clear()）而销毁；
强制启用：无需配置，Hibernate 自动管理，无法手动关闭；
核心价值：同一 Session 内多次查询同一 OID 的对象时，仅第一次访问数据库，后续直接从缓存获取，避免重复 SQL 执行。

一级缓存的关键操作

一级缓存通过 Session 的核心方法实现缓存管理，常见操作如下：

操作方法	作用描述
`get()`/`load()`	加载对象时，先检查缓存：存在则直接返回，不存在则查询数据库并放入缓存
`save()`/`update()`	执行保存 / 更新时，先更新缓存中的对象状态，事务提交时同步到数据库
`flush()`	同步缓存中的对象状态到数据库（不清空缓存），确保缓存与数据库一致
`clear()`	清空缓存中所有对象，所有持久化对象变为游离状态
`evict(Object obj)`	从缓存中移除指定对象，该对象变为游离状态
`contains(Object obj)`	判断对象是否在缓存中

一级缓存实践示例

阅读全文 »

hibernate批量操作

发表于 2020-12-09 更新于 2025-08-23 分类于 hibernate 阅读次数： Valine：
本文字数： 7.1k 阅读时长 ≈ 6 分钟

Hibernate 批量操作全解析：四种实现方式的原理、实践与优化

在处理大量数据（如批量插入 10 万条记录、批量更新订单状态）时，常规的单条操作（如循环调用session.save()）会因频繁的数据库交互和内存占用导致性能瓶颈。Hibernate 提供四种批量操作方式，覆盖从简单到高性能的不同场景，本文将逐一解析每种方式的核心原理、代码实现、注意事项及性能对比，帮助开发者选择最优方案。

批量操作的核心挑战与优化目标

核心挑战

频繁数据库交互：单条操作每次执行 1 条 SQL，10 万条记录需 10 万次数据库调用，网络 IO 开销大；
内存溢出：Session 一级缓存会保存所有处理过的对象，大量对象堆积导致 OutOfMemoryError；
ORM overhead：Hibernate 的脏检查、关联级联、缓存同步等机制会增加额外性能消耗。

优化目标

减少 SQL 执行次数：通过批量 SQL（如 INSERT INTO ... VALUES (?), (?), (?)）减少数据库调用；
控制内存占用：及时清理缓存，避免对象堆积；
绕过不必要的 ORM 机制：高性能场景下跳过缓存、脏检查等环节，直接操作 JDBC。

四种批量操作方式详解

方式一：通过 Session 实现批量操作

核心原理

利用 Session 的批量处理能力，结合 flush()（同步缓存到数据库）和 clear()（清空缓存）控制内存，通过配置 hibernate.jdbc.batch_size 实现 SQL 批量发送。

关键配置（必须）

在 hibernate.cfg.xml 中配置批量大小，控制每次向数据库发送的 SQL 条数：

阅读全文 »