小菜鸟

可视化工具Luke

发表于 2021-07-08 更新于 2025-08-13 分类于 Lucene 阅读次数： Valine：
本文字数： 1.7k 阅读时长 ≈ 2 分钟

Luke：Lucene 索引可视化工具详解

Luke 是一款专为 Lucene 设计的可视化 GUI 工具，由 Apache 社区维护（目前由第三方开发者持续更新），旨在帮助开发者便捷地查看、诊断和管理 Lucene 索引。无论是调试分词效果、分析索引结构，还是执行查询测试，Luke 都能提供直观的操作界面，是 Lucene 开发和运维的得力助手。

Luke 的核心功能

Luke 围绕 Lucene 索引的 “查看、检索、维护” 三大场景设计，核心功能如下：

索引结构可视化

查看索引库信息：显示索引库的路径、段（Segment）数量、文档总数、索引版本等元数据。
浏览文档与字段：以列表形式展示索引中的所有文档，可查看每个文档的字段（Field）名称、值及属性（是否分词、索引、存储）。
分析段结构：查看每个段的详细信息（如文档数、删除文档数、创建时间），支持段合并操作。

字段与分词分析

字段内容预览：针对任意字段，可查看其在不同文档中的值，快速定位异常数据（如分词错误、格式问题）。
分词器测试：输入文本后，选择指定分词器（如 StandardAnalyzer、中文结巴分词），实时查看分词结果（词项、偏移量、类型），验证分词逻辑是否符合预期。
词项统计：查看指定字段的所有词项（Term）及其文档频率（DF）、词频（TF），帮助优化索引质量（如识别高频无意义词）。

索引检索与查询测试

执行各类查询：支持输入 Lucene 查询语法（如 title:lucene、price:[100 TO 200]），执行后可查看匹配的文档、得分（Score）及匹配详情。
查询解析可视化：将查询语句解析为 Lucene 的查询树（如 BooleanQuery 包含的子查询），帮助理解复杂查询的执行逻辑。
排序与过滤：支持按字段排序查询结果，或添加过滤条件（如 publishTime > 2023-01-01），模拟实际检索场景。

索引维护操作

阅读全文 »

Innodb索引页文件结构

发表于 2021-07-08 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

InnoDB 索引页文件结构：深入理解数据存储的基本单元

InnoDB 存储引擎中，页（Page）是数据存储的基本单位（默认大小 16KB）。所有索引和数据都以页为单位组织，查询时需先定位到记录所在的页，再从页内查找具体记录。索引页的结构设计直接影响数据存取效率，其内部由 7 个部分组成，共同实现数据的有序存储、快速查找和完整性校验。

索引页的整体结构

InnoDB 索引页（B + 树节点）的结构可分为 7 个部分，按顺序依次为：

各部分的大小和核心作用如下表：

结构部分	固定大小	核心作用
File Header	38 字节	记录页的基本信息（如页编号、前后页指针、页类型），用于页的定位和关联。
Page Header	56 字节	记录页的状态信息（如记录数、索引层级、插入方向），用于页内空间和状态管理。
Infimum & Supremum Record	固定大小	虚拟记录，限定页内记录的边界（最小值和最大值）。
User Records	动态变化	实际存储用户数据的记录，随插入 / 删除操作动态变化。
Free Space	动态变化	页内未使用的空闲空间，以链表形式管理，供新记录插入复用。
Page Directory	动态变化	页目录（类似 “索引的索引”），存储记录的相对位置，加速页内记录查找。
File Trailer	8 字节	校验页的完整性，确保数据从内存刷写到磁盘时未损坏。

各部分详细解析

File Header（文件头）：页的 “身份证”

File Header 是页的元数据区，固定 38 字节，包含 8 个关键字段，用于标识页的身份、关联关系和类型：

阅读全文 »

JMM

发表于 2021-06-29 更新于 2025-07-30 分类于多线程阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

JMM：Java 内存模型的底层逻辑与实践

CPU 的运算速度远超主内存的读写能力，因此现代计算机引入了高速缓存（Cache）作为缓冲：运算时先将数据从主内存复制到缓存，运算结束后再同步回主内存，避免处理器等待。这在单线程下高效且无问题，但多线程环境中，多核 CPU 的缓存独立性会导致缓存一致性问题—— 不同线程对共享变量的修改可能无法及时感知。JMM（Java Memory Model，Java 内存模型） 正是为解决这一问题而设计的规范。

JMM 的核心目标与内存模型

JMM 的核心目标是定义线程对共享变量的访问规则，即虚拟机如何将变量从主内存加载到工作内存、如何从工作内存同步回主内存的底层细节。其核心价值在于：

解决多线程环境下的内存可见性（一个线程的修改对其他线程可见）、原子性（操作不可分割）和有序性（指令执行顺序）问题；
屏蔽不同硬件和操作系统的内存访问差异，保证 Java 程序在多平台下的一致性。

内存模型的结构

JMM 定义了以下内存交互角色：

主内存：所有线程共享的内存区域，存储共享变量（实例变量、静态变量、数组元素等）；
工作内存：每个线程独有的内存区域，存储共享变量的副本（主内存的拷贝）。

线程对共享变量的操作必须遵循以下规则：

线程读写共享变量时，需先将变量从主内存复制到工作内存，操作完成后再同步回主内存；
线程间无法直接访问对方的工作内存，变量传递必须通过主内存。

注意：局部变量、方法参数是线程私有变量，不存在多线程竞争，因此不在 JMM 的管理范围内。

缓存一致性与指令重排序

多线程问题的根源在于：

缓存一致性：线程修改工作内存后，若未及时同步到主内存，其他线程可能读取到旧值；
指令重排序：编译器、处理器为优化性能，会在不影响单线程语义的前提下调整指令顺序，可能破坏多线程的执行逻辑。

阅读全文 »

编码

发表于 2021-06-27 更新于 2025-08-11 分类于 java基础阅读次数： Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

字符编码详解：GBK、UTF-8 与 UTF-16 的差异与应用

字符编码是计算机存储和传输文本的基础，不同编码方式对字符的存储长度、适用场景有显著差异。本文将详细解析 GBK、UTF-8、UTF-16 三种主流编码的特点、区别及适用场景，帮助理解文本处理中的编码问题。

编码的核心作用

字符编码的本质是将人类可识别的字符（如汉字、字母、符号）转换为计算机可识别的二进制数据。由于历史和地域原因，不同编码方式对字符的二进制映射规则不同，导致同一字符在不同编码中可能占用不同的字节长度。

三种主流编码的特点

GBK 编码（国家标准扩展）

设计目标：支持中文简体、繁体及日文假名等字符，是中国国家标准 GB2312 的扩展。
字节长度：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符（简体、繁体）：2 个字节。
字符集大小：包含约 2.1 万个汉字及符号，覆盖大部分中文场景。
适用场景：仅用于中文环境（如国内传统软件、Windows 系统默认中文编码）。
局限性：不支持其他语言（如韩文、阿拉伯文），国际化场景不适用。

UTF-8 编码（万国码）

设计目标：全球通用的编码方式，支持所有 Unicode 字符（包括世界上几乎所有语言）。
字节长度：采用变长编码，根据字符范围动态调整字节数：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符：3 个字节。
- 生僻字或其他语言字符：可能占用 4 个字节。
字符集大小：支持 Unicode 标准中的所有字符（超过 13 万个）。
适用场景：互联网（网页、URL、邮件）、跨语言应用（如 Java、Python 程序），是目前应用最广泛的编码。
优势：节省英文存储空间，兼容 ASCII，适合国际化场景。

UTF-16 编码（Unicode 转换格式）

设计目标：平衡存储效率与全球字符支持，是 Unicode 标准的重要实现。
字节长度：采用固定或变长编码：
- 大部分常用字符（包括中文、英文）：2 个字节。
- 生僻字符（如 emoji、古文字）：4 个字节（通过代理对实现）。
字符集大小：支持所有 Unicode 字符。
适用场景：系统底层（如 Windows 内核、Java 字符串内存存储）、.NET 框架等。
特点：中文和英文占用相同字节，适合中文与其他语言混合的场景，但英文存储效率低于 UTF-8。