编码 | 小菜鸟

字符编码详解：GBK、UTF-8 与 UTF-16 的差异与应用

字符编码是计算机存储和传输文本的基础，不同编码方式对字符的存储长度、适用场景有显著差异。本文将详细解析 GBK、UTF-8、UTF-16 三种主流编码的特点、区别及适用场景，帮助理解文本处理中的编码问题。

编码的核心作用

字符编码的本质是将人类可识别的字符（如汉字、字母、符号）转换为计算机可识别的二进制数据。由于历史和地域原因，不同编码方式对字符的二进制映射规则不同，导致同一字符在不同编码中可能占用不同的字节长度。

三种主流编码的特点

GBK 编码（国家标准扩展）

设计目标：支持中文简体、繁体及日文假名等字符，是中国国家标准 GB2312 的扩展。
字节长度：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符（简体、繁体）：2 个字节。
字符集大小：包含约 2.1 万个汉字及符号，覆盖大部分中文场景。
适用场景：仅用于中文环境（如国内传统软件、Windows 系统默认中文编码）。
局限性：不支持其他语言（如韩文、阿拉伯文），国际化场景不适用。

UTF-8 编码（万国码）

设计目标：全球通用的编码方式，支持所有 Unicode 字符（包括世界上几乎所有语言）。
字节长度：采用变长编码，根据字符范围动态调整字节数：
- 英文字母、数字、符号：1 个字节（与 ASCII 兼容）。
- 中文字符：3 个字节。
- 生僻字或其他语言字符：可能占用 4 个字节。
字符集大小：支持 Unicode 标准中的所有字符（超过 13 万个）。
适用场景：互联网（网页、URL、邮件）、跨语言应用（如 Java、Python 程序），是目前应用最广泛的编码。
优势：节省英文存储空间，兼容 ASCII，适合国际化场景。

UTF-16 编码（Unicode 转换格式）

设计目标：平衡存储效率与全球字符支持，是 Unicode 标准的重要实现。
字节长度：采用固定或变长编码：
- 大部分常用字符（包括中文、英文）：2 个字节。
- 生僻字符（如 emoji、古文字）：4 个字节（通过代理对实现）。
字符集大小：支持所有 Unicode 字符。
适用场景：系统底层（如 Windows 内核、Java 字符串内存存储）、.NET 框架等。
特点：中文和英文占用相同字节，适合中文与其他语言混合的场景，但英文存储效率低于 UTF-8。

编码对比表

编码方式	英文 / 数字	中文字符	生僻字符	兼容性	典型应用场景
GBK	1 字节	2 字节	不支持	仅支持中文	国内传统软件、Windows 中文
UTF-8	1 字节	3 字节	4 字节	兼容 ASCII	互联网、跨语言应用
UTF-16	2 字节	2 字节	4 字节	不兼容 ASCII	系统底层、Java 内存存储

编码选择的原则

国际化优先选 UTF-8：
网页、移动应用、跨语言程序等场景，UTF-8 是最优选择，兼顾存储效率和兼容性。
中文密集场景可考虑 GBK：
若应用仅面向中文用户，且需减少存储占用（中文比 UTF-8 少 1 字节），可使用 GBK（但需注意国际化限制）。
系统底层或特定框架选 UTF-16：
如 Java 字符串在内存中默认采用 UTF-16 编码，平衡了字符访问效率和全球字符支持。

常见编码问题及解决

乱码问题：
根本原因是 “编码与解码使用的规则不一致”（如用 UTF-8 编码的文本用 GBK 解码）。
解决：确保读写、传输过程中编码方式统一（推荐全程使用 UTF-8）。

Java 中的编码处理：

字符串与字节数组转换时需显式指定编码：

// 字符串转字节数组（UTF-8 编码）
byte[] utf8Bytes = "中文".getBytes(StandardCharsets.UTF_8); // 长度为 3

// 字节数组转字符串（指定编码解码）
String str = new String(utf8Bytes, StandardCharsets.UTF_8);