0%

序列化方式

发表于 2023-01-04 更新于 2025-07-31 分类于分布式阅读次数： 57 Valine： 0
本文字数： 2k 阅读时长 ≈ 2 分钟

序列化方式

序列化是将对象的状态信息转换为可存储或传输形式的过程，在分布式系统、数据存储、网络通信等场景中至关重要。以下是常见序列化方式的详细梳理，包括其特点、适用场景等：

1. Java 默认序列化

原理：通过实现 Serializable 接口，使用 Java 自带的序列化机制将对象转换为字节流。
特点：
- 缺点明显：仅支持 Java 语言，无法跨语言交互；序列化后数据体积大，性能较差（反射机制导致）；存在安全漏洞（反序列化可能执行恶意代码）。
- 优点：无需额外依赖，Java 原生支持。
适用场景：仅适用于简单的 Java 单机或内部系统，不推荐在分布式、跨语言场景中使用。

2. XML

原理：基于标签的文本格式，通过标签结构描述数据类型和值。
特点：
- 优点：可读性极强，结构清晰，支持复杂数据类型（如嵌套、数组），广泛用于配置文件（如 Spring 配置）和数据交换。
- 缺点：标签冗余导致序列化后数据体积大，解析速度慢（需解析大量标签），格式复杂。
适用场景：配置文件（如 pom.xml）、跨平台数据交换（如早期 SOAP 协议），但逐渐被 JSON 替代。

3. JSON

原理：轻量级文本格式，使用键值对（key-value）和数组结构描述数据。
特点：
- 优点：兼容性好（跨语言支持广泛），数据格式简单，序列化后体积比 XML 小，解析速度快；可读性适中。
- 缺点：性能不足以满足毫秒级（ms）响应要求，不适合超高性能场景；不支持二进制数据（需转义为 Base64，增加体积）。
适用场景：小数据量网络传输（如 RESTful API）、日志存储、前端与后端交互，可满足秒级响应的服务需求。

4. Thrift

原理：由 Facebook 开发，既是序列化框架也是 RPC 框架，定义 IDL（接口描述语言）后生成多语言代码。
特点：
- 优点：序列化后体积小、速度快；支持多语言（Java、Python、C++ 等）和丰富数据类型；字段增删兼容性强（通过字段 ID 识别）。
- 缺点：可读性差（二进制格式）；依赖自身 RPC 框架，无法与 HTTP 等传输协议直接配合；不适合数据持久化（无自描述性）。
适用场景：分布式系统内部的 RPC 通信（如服务间调用），追求高性能和跨语言支持的场景。

5. Avro

原理：由 Apache 开发，基于 JSON 定义 schema（数据结构），序列化后为二进制格式。
特点：
- 优点：支持丰富数据类型（包括复杂嵌套结构）；具有自描述性（schema 可嵌入数据或单独存储）；解析速度快，适合大数据场景；支持 RPC 和跨语言。
- 缺点：schema 管理较复杂；文本格式可读性一般。
适用场景：Hadoop 生态系统（如 Hive、Pig 的数据持久化格式），大数据量存储与传输。

6. Protobuf（Protocol Buffers）

原理：由 Google 开发，通过 .proto 文件定义数据结构，生成对应语言的代码实现序列化。
特点：
- 优点：序列化后体积极小（二进制压缩），性能极高（解析速度比 JSON 快 5-10 倍）；通过字段序号实现前向兼容（增删字段不影响旧版本）。
- 缺点：依赖工具生成代码，上手成本较高；支持语言较少（主要是主流语言）；可读性差（二进制格式）。
适用场景：对性能要求极高的 RPC 调用（如微服务间高频通信）、数据存储（需节省空间）。

7. Protostuff

原理：基于 Protobuf 的改进版，无需手动编写 .proto 文件，通过反射动态处理数据结构。
特点：
- 优点：继承 Protobuf 的高性能和小体积，简化了 schema 定义流程（无需 IDL）。
- 缺点：仍依赖生成代码（动态模式性能略低），跨语言支持不如 Protobuf 完善。
适用场景：Java 环境下需要 Protobuf 性能但希望简化开发的场景。

8. Hessian

原理：轻量级二进制协议，主要用于 HTTP 上的 RPC 通信，支持跨语言。
特点：
- 优点：协议简单，序列化体积小，解析速度快；可与 HTTP 结合（通过 POST 传输）。
- 缺点：功能较简单，复杂数据类型支持有限；性能略逊于 Protobuf、Thrift。
适用场景：简单的跨语言 RPC 通信（如 Java 与 Python 服务间调用），基于 HTTP 的轻量级交互。

9. Kryo

原理：Java 专用的高性能序列化框架，基于字节码生成技术，需显式注册类。
特点：
- 优点：序列化速度极快（比 Java 默认方式快 10 倍以上），体积小；支持对象引用和循环依赖。
- 缺点：仅支持 Java 语言，需手动注册类（否则性能下降），不适合跨语言场景。
适用场景：Java 分布式系统内部通信（如 Spark、Flink 等大数据框架的对象序列化）、缓存（如 Redis 存储 Java 对象）。

选择建议

跨语言 + 可读性：优先 JSON（简单场景）或 XML（复杂配置）。
高性能 RPC：Protobuf（极致性能）、Thrift（兼顾多语言）。
大数据场景：Avro（Hadoop 生态）、Kryo（Java 大数据框架）。
Java 内部系统：Kryo（高性能）、Protostuff（简化 Protobuf）。
轻量级 HTTP 交互：Hessian（简单 RPC）。

欢迎关注我的其它发布渠道

表情 | 预览

快来做第一个评论的人吧~

Powered By Valine
v1.3.10

1. 序列化方式

ZH

java后端开发的心酸历程，后端知识点太多太杂了，啥也得知道点。
愿IT圈无猝死、无ICU、无996；
愿程序员、产品经理、测试可以和睦相处；
愿bug无处可藏，慢慢变少

GitHub Gitee CSDN 掘金简书思否