小菜鸟

编码

发表于 2021-06-27 更新于 2025-08-11 分类于 java基础阅读次数： Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

字符编码详解：GBK、UTF-8 与 UTF-16 的差异与应用

字符编码是计算机存储和传输文本的基础，不同编码方式对字符的存储长度、适用场景有显著差异。本文将详细解析 GBK、UTF-8、UTF-16 三种主流编码的特点、区别及适用场景，帮助理解文本处理中的编码问题。

编码的核心作用

字符编码的本质是将人类可识别的字符（如汉字、字母、符号）转换为计算机可识别的二进制数据。由于历史和地域原因，不同编码方式对字符的二进制映射规则不同，导致同一字符在不同编码中可能占用不同的字节长度。

三种主流编码的特点

GBK 编码（国家标准扩展）

设计目标：支持中文简体、繁体及日文假名等字符，是中国国家标准 GB2312 的扩展。
字节长度：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符（简体、繁体）：2 个字节。
字符集大小：包含约 2.1 万个汉字及符号，覆盖大部分中文场景。
适用场景：仅用于中文环境（如国内传统软件、Windows 系统默认中文编码）。
局限性：不支持其他语言（如韩文、阿拉伯文），国际化场景不适用。

UTF-8 编码（万国码）

设计目标：全球通用的编码方式，支持所有 Unicode 字符（包括世界上几乎所有语言）。
字节长度：采用变长编码，根据字符范围动态调整字节数：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符：3 个字节。
- 生僻字或其他语言字符：可能占用 4 个字节。
字符集大小：支持 Unicode 标准中的所有字符（超过 13 万个）。
适用场景：互联网（网页、URL、邮件）、跨语言应用（如 Java、Python 程序），是目前应用最广泛的编码。
优势：节省英文存储空间，兼容 ASCII，适合国际化场景。

UTF-16 编码（Unicode 转换格式）

设计目标：平衡存储效率与全球字符支持，是 Unicode 标准的重要实现。
字节长度：采用固定或变长编码：
- 大部分常用字符（包括中文、英文）：2 个字节。
- 生僻字符（如 emoji、古文字）：4 个字节（通过代理对实现）。
字符集大小：支持所有 Unicode 字符。
适用场景：系统底层（如 Windows 内核、Java 字符串内存存储）、.NET 框架等。
特点：中文和英文占用相同字节，适合中文与其他语言混合的场景，但英文存储效率低于 UTF-8。

阅读全文 »

数据库范式

发表于 2021-06-27 更新于 2025-08-14 分类于数据库阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

数据库范式详解：从函数依赖到规范化实践

数据库范式（Normal Forms）是关系型数据库设计的规范，通过消除数据冗余和异常（插入、删除、修改异常），确保数据结构的合理性。范式的定义基于函数依赖理论，从低到高分为 1NF、2NF、3NF、BCNF 等，每一级范式都是对前一级的进一步优化。

函数依赖：范式的理论基础

函数依赖描述了关系中属性之间的约束关系，是理解范式的前提。常见类型包括：

1. 完全函数依赖

定义：若 X→Y（X 决定 Y），且 X 的任何真子集都不能决定 Y，则 Y 对 X 完全函数依赖。
示例：在关系 成绩(学号, 课程号, 分数) 中，(学号, 课程号)→分数 是完全函数依赖 —— 单独的 “学号” 或 “课程号” 都无法确定分数。
特点：若候选键是单属性（如仅 “学号”），则所有依赖于该键的属性必然是完全函数依赖。

2. 部分函数依赖

定义：若 X→Y，但 X 中至少有一个真子集能单独决定 Y，则 Y 对 X 部分函数依赖。
示例：在关系 学生(学号, 身份证号, 姓名) 中，(学号, 身份证号)→姓名 是部分函数依赖 ——“学号” 或 “身份证号” 均可单独决定姓名。

3. 传递函数依赖

定义：若 X→Y（Y 不包含于 X），且 Y→Z（Z 不包含于 Y），则 Z 对 X 传递函数依赖。
示例：在关系 学生(学号, 系别, 系主任) 中，学号→系别 且 系别→系主任，因此 “系主任” 传递依赖于 “学号”。

阅读全文 »

MySQL系统调优

发表于 2021-06-24 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

MySQL 系统调优：基准测试工具与实践指南

MySQL 系统调优的前提是精准评估当前性能瓶颈，而基准测试（Benchmark）是定位瓶颈的核心手段。通过模拟真实负载，可量化数据库在不同配置下的性能表现，为调优提供数据支撑。本文介绍三款主流的 MySQL 基准测试工具及其使用场景。

sysbench：多场景通用性能测试工具

sysbench 是一款模块化、跨平台的多线程性能测试工具，支持 CPU、内存、文件 IO、数据库等多种场景，尤其适合 MySQL 的读写性能、并发能力测试。

核心特点

支持多引擎：兼容 MySQL、PostgreSQL 等数据库。
场景丰富：包含 OLTP 读写、只读、删除、插入等多种测试模式。
可定制参数：支持调整并发数、测试时长、数据量等。

安装（以 Linux 为例）

# 源码安装
git clone https://github.com/akopytov/sysbench.git
cd sysbench
./autogen.sh
./configure --with-mysql --with-mysql-includes=/usr/include/mysql --with-mysql-libs=/usr/lib64/mysql
make && make install

# 验证安装
sysbench --version  # 输出版本号即安装成功

常用测试流程

以 MySQL OLTP 读写测试为例：

（1）准备测试数据

阅读全文 »

MySQL索引结构

发表于 2021-06-22 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 2.1k 阅读时长 ≈ 2 分钟

MySQL 索引结构详解

MySQL 索引的核心设计目标是减少磁盘 IO 次数—— 因为磁盘 IO 是查询性能的主要瓶颈。通过合理的索引结构（如树结构），可将磁盘 IO 次数控制在 O (logN) 级别，显著提升查询效率。以下从索引设计逻辑、结构类型、核心特性及主键设计原则展开说明。

不同存储引擎的索引实现差异

MySQL 的索引实现与存储引擎强相关，不同引擎对索引技术的支持不同：

存储引擎	主要索引类型	说明
InnoDB	B+Tree 索引	5.6 后支持 FullText 全文索引，5.7 后通过 ngram 插件支持中文全文索引
MyISAM	FullText 全文索引、B+Tree 索引	支持 R-Tree 空间索引（但 MySQL 对 GIS 支持有限）
Memory	Hash 索引	数据存于内存，索引基于 Hash 表实现

索引结构核心解析

为什么不使用二叉树或红黑树？

索引设计需避免高深度（减少磁盘 IO），而二叉树和红黑树存在明显缺陷：

二叉树：可能退化为链表（如有序插入时），导致磁盘 IO 次数变为 O (N)，完全失去索引价值。
红黑树：虽能保证 O (logN) 的查询复杂度，但仅支持 2 个子节点，数据量大时树深度过高（如 100 万条数据需约 20 层），磁盘 IO 次数过多。

B 树（多路搜索树）

为减少树深度，B 树采用 “多路分支” 设计（允许一个节点有多个子节点），其结构定义如下：

阅读全文 »

内存溢出和内存泄漏

发表于 2021-06-22 更新于 2025-08-07 分类于 JVM 阅读次数： Valine：
本文字数： 4.3k 阅读时长 ≈ 4 分钟

内存溢出与内存泄漏：JVM 内存问题的根源与解决方案

在 Java 程序运行中，内存管理是核心挑战之一。内存溢出（OOM） 和内存泄漏是最常见的内存问题，两者紧密相关却又本质不同。内存泄漏会逐渐消耗内存资源，最终可能导致内存溢出，而内存溢出也可能由不合理的内存配置直接引发。本文将深入解析这两种问题的成因、常见场景及解决方案，帮助开发者规避和排查内存相关故障。

内存溢出（OutOfMemoryError，OOM）

内存溢出是指 JVM 无法为新对象分配内存，且垃圾收集器也无法释放足够空间的情况，最终抛出 OutOfMemoryError 异常。

产生原因

内存溢出的核心原因可归结为 “内存供需失衡”：

内存分配不足：JVM 堆内存设置过小（如 -Xmx 参数值远小于应用实际需求），无法容纳程序运行时产生的对象。
对象增长失控：代码中创建大量大对象（如巨型数组、超大集合），或对象生命周期过长（如长期缓存未清理），导致内存占用持续增长，超过堆内存上限。

常见 OOM 类型及场景

JVM 不同内存区域的溢出表现不同，常见类型包括：

OOM 类型	对应内存区域	典型场景
`Java heap space`	堆内存	创建大量对象且未及时回收（如无限循环创建对象）。
`PermGen space`/`Metaspace`	方法区（元空间）	加载过多类（如动态生成大量类、依赖包冲突）。
`StackOverflowError`	虚拟机栈	方法递归调用过深（栈帧耗尽）。
`Native memory allocation`	本地内存（如 DirectMemory）	NIO 直接内存使用过量（`ByteBuffer.allocateDirect`）。

解决方案

调整 JVM 参数：根据应用需求增大堆内存（-Xms 初始堆、-Xmx 最大堆），如 -Xms2G -Xmx4G。
优化对象创建：减少大对象生成（如拆分巨型集合），避免不必要的对象持有（如及时设为 null）。
排查内存泄漏：若 OOM 由内存泄漏引发，需先定位泄漏点（见下文 “内存泄漏排查”）。

内存泄漏（Memory Leak）

内存泄漏是指不再被程序使用的对象无法被 GC 回收，导致其占用的内存长期无法释放，逐渐耗尽内存资源。内存泄漏是 OOM 的常见诱因，但本身不会直接抛出异常，而是通过程序性能下降（如 GC 频繁）最终表现为 OOM。

阅读全文 »