小菜鸟

编解码器

发表于 2022-11-02 更新于 2025-08-05 分类于 netty 阅读次数： Valine：
本文字数： 7.1k 阅读时长 ≈ 6 分钟

Netty 编解码器详解：从基础到 Protobuf 实战

在网络通信中，数据以二进制形式传输，而应用程序则需处理结构化数据（如字符串、对象）。编解码器是连接二进制数据与应用层对象的桥梁，Netty 提供了丰富的编解码器组件，简化了数据转换过程。本文将系统讲解 Netty 编解码器的设计原理、常用实现及自定义方法，并通过 Protobuf 实战展示跨语言序列化方案。

编解码器的核心概念

基本定义

编码器（Encoder）：将应用层对象转换为二进制字节流（出站操作），继承 ChannelOutboundHandler。
解码器（Decoder）：将二进制字节流转换为应用层对象（入站操作），继承 ChannelInboundHandler。

核心目标：屏蔽底层二进制数据的处理细节，让开发者专注于业务逻辑。

Netty 编解码器的设计模式

Netty 编解码器遵循责任链模式，通过 ChannelPipeline 串联多个编解码器和业务处理器：

数据入站时，依次经过解码器 → 业务处理器。
数据出站时，依次经过业务处理器 → 编码器。

例如，一个简单的字符串通信流程：

1	客户端发送 String → StringEncoder 编码为 ByteBuf → 网络传输 → 服务端 StringDecoder 解码为 String → 业务处理

Netty 内置编解码器

Netty 提供了多种开箱即用的编解码器，覆盖常见数据类型：

字符串编解码器

StringEncoder：将 String 编码为 ByteBuf（默认 UTF-8 编码）。
StringDecoder：将 ByteBuf 解码为 String。

阅读全文 »

数据仓库的概念

发表于 2022-10-31 更新于 2025-07-22 分类于数据仓库阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

数据仓库详解：从概念到架构的全面解析

在大数据时代，企业决策越来越依赖数据驱动。数据仓库作为集中存储、管理和分析数据的核心平台，能够将分散的业务数据整合为统一视图，为决策提供可靠支持。本文将从概念、特征、结构、核心概念到分层架构，带你系统理解数据仓库的核心逻辑。

数据仓库的核心概念

数据仓库（Data Warehouse）是一个面向主题的、集成的、具有时间特征的、稳定的数据集合，专门用于支持企业经营管理中的决策分析过程。它不同于传统业务数据库，后者聚焦于日常交易处理，而数据仓库则从历史和发展的角度组织数据，提供全局的、集成化的数据分析能力。

数据仓库的四大核心特征

数据仓库的独特价值源于其四大核心特征，这些特征使其与传统数据库形成鲜明区别：

1. 面向主题

传统数据库是 “面向应用” 的，数据按业务场景（如订单系统、用户系统）分散存储；而数据仓库是 “面向主题” 的，数据按分析需求（如 “用户行为分析”“销售业绩分析”）进行归类。例如，“用户主题” 会整合来自注册系统、交易系统、客服系统的用户相关数据，形成完整的用户画像分析视角。

2. 集成性

数据仓库的数据来自多个异构数据源（如 MySQL、Oracle、日志文件、API 接口等），在进入数据仓库前需经过清洗、转换、合并等集成过程。例如，统一不同系统的 “用户 ID” 格式、处理重复数据、补全缺失值，确保数据一致性。

3. 时间特征

数据仓库会保留历史数据，记录数据随时间的变化。例如，销售数据不仅存储当前销售额，还会保留过去几年的每日、每月销售记录，支持趋势分析（如 “近 3 年季度销售额对比”）。数据的时间属性是分析 “变化规律” 的基础。

4. 稳定性

数据仓库中的数据主要用于查询和分析，而非日常交易的增删改操作。一旦数据进入仓库，通常不会被频繁修改，仅会定期通过 ETL（抽取、转换、加载）过程更新，保证数据的一致性和可追溯性。

阅读全文 »

URL访问工具

发表于 2022-10-28 更新于 2025-08-05 分类于 linux 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

curl 命令详解：命令行下的 HTTP 访问利器

curl 是一款功能强大的命令行工具，支持 HTTP、HTTPS、FTP 等多种协议，可用于发送 HTTP 请求、获取网页内容、调试接口等。本文将详细介绍 curl 的核心用法和常用参数，帮助你高效在命令行中进行网络交互。

基础用法：发起简单请求

1. 发送 GET 请求（默认）

直接指定 URL 即可发送 GET 请求，返回响应体内容：

1 2	# 获取百度首页内容 curl www.baidu.com

输出结果为网页的 HTML 源代码，适合快速查看简单接口的返回数据。

查看响应头：`-i` 与 `-I` 参数

1. `-i`：显示响应头 + 响应体

1	curl -i www.baidu.com

输出示例：

HTTP/1.1 200 OK
Accept-Ranges: bytes
Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
...（响应头内容）...

<!DOCTYPE html>
...（响应体 HTML 内容）...

阅读全文 »

SpringBoot打成jar包的结构

发表于 2022-10-27 更新于 2025-09-01 分类于 springboot 阅读次数： Valine：
本文字数： 5.5k 阅读时长 ≈ 5 分钟

Spring Boot JAR 包结构详解：从内部组成到启动原理

Spring Boot 项目通过 spring-boot-maven-plugin 打包生成的 JAR 包，并非普通 Java JAR，而是可执行 JAR（Executable JAR）—— 其内部结构经过特殊设计，包含了应用代码、依赖库、启动器和配置信息，确保能通过 java -jar 直接执行。从 “目录结构解析→核心文件作用→启动流程关联” 三个维度，彻底讲透 Spring Boot JAR 包的内部逻辑。

Spring Boot JAR 包整体结构

首先，我们通过一个标准的 Spring Boot JAR 包解压后的目录结构，直观理解其组成：

demo-0.0.1-SNAPSHOT.jar  # Spring Boot 可执行 JAR
├─ BOOT-INF/              # 核心目录：存放应用代码和依赖
│  ├─ classes/            # 1. 应用编译后的 .class 文件和配置
│  │  ├─ com/             # 项目包结构（如 com.zhanghe.study.springboot）
│  │  │  └─ DemoApplication.class  # 你编写的主程序类（含 main 方法）
│  │  ├─ application.yml  # 应用配置文件（自定义配置）
│  │  └─ static/          # 静态资源（CSS/JS/图片，若存在）
│  └─ lib/                # 2. 项目依赖的第三方 JAR 库
│     ├─ spring-boot-1.5.9.RELEASE.jar  # Spring Boot 核心依赖
│     ├─ spring-webmvc-4.3.13.RELEASE.jar # Web 依赖
│     ├─ mybatis-3.4.6.jar  # 自定义依赖（如 MyBatis）
│     └─ ...  # 其他所有依赖（Maven 引入的依赖都会打包到这里）
├─ META-INF/              # 3. 元信息目录：JAR 清单和依赖索引
│  ├─ MANIFEST.MF         # 关键：JAR 清单文件（启动配置核心）
│  └─ maven/              # Maven 构建信息（可选，如 pom.xml 快照）
│     └─ com.zhanghe.study/demo/
│        ├─ pom.xml       # 项目的 pom.xml 副本
│        └─ pom.properties # Maven 构建属性（如版本、groupId）
└─ org/                   # 4. Spring Boot 启动器目录：内置启动工具类
   └─ springframework/
      └─ boot/
         └─ loader/       # 启动器核心包
            ├─ JarLauncher.class  # JAR 包启动器（Main-Class 指向此类）
            ├─ WarLauncher.class   # WAR 包启动器（若打包为 WAR 则用此类）
            └─ LaunchedURLClassLoader.class # 自定义类加载器（加载 BOOT-INF 资源）

这个结构的核心是 “分层存放”：将 “应用代码”“依赖库”“启动工具” 分离，既保证了可执行性，又便于管理资源。

1. BOOT-INF/：应用与依赖的核心存放地

BOOT-INF 是 Spring Boot JAR 包的 “心脏”，所有与项目业务相关的内容都在这里，分为 classes 和 lib 两个子目录。

阅读全文 »

搜索引擎重要概念

发表于 2022-10-26 更新于 2025-08-12 分类于搜索引擎阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

搜索引擎核心概念解析：从索引到排序的核心逻辑

搜索引擎的核心功能是 “快速找到与查询相关的信息”，这一过程依赖于多个关键技术概念的协同作用。其中，倒排索引是数据结构基础，分词是处理输入的前提，停止词优化索引效率，排序则决定结果的相关性。以下是这些概念的详细解析：

倒排索引（Inverted Index）：搜索引擎的 “字典”

倒排索引是搜索引擎最核心的数据结构，其设计颠覆了 “文档→词语” 的正向映射，转而建立 “词语→文档” 的反向映射，从而实现根据词语快速定位包含它的所有文档。

基本结构

倒排索引由两部分组成：

词典（Term Dictionary）：存储所有被索引的词语（去重后），通常按字母 / 拼音排序，便于快速查找。
倒排列表（Posting List）：每个词语对应一个列表，记录包含该词语的文档 ID，以及词语在文档中的位置、出现次数等附加信息。

示例：

词语（Term）	倒排列表（文档 ID 及附加信息）
人工智能	[(1, 出现 3 次，位置 [5,12,20]), (3, 出现 1 次，位置 [8])]
机器学习	[(2, 出现 2 次), (3, 出现 5 次)]

核心作用

快速检索：用户输入查询词后，搜索引擎通过词典定位到词语，再通过倒排列表直接获取所有相关文档，避免遍历全部文档。
支持复杂查询：通过对多个词语的倒排列表进行交集（AND）、并集（OR）等运算，实现 “多关键词组合查询”（如 “人工智能 AND 应用”）。

优化方向

压缩存储：倒排列表中的文档 ID 通常按顺序存储，可通过差值编码（如存储相邻 ID 的差值）减少存储空间。
附加信息扩展：除文档 ID 外，可记录词语的TF-IDF 值（词频 - 逆文档频率）、在标题 / 正文中的出现位置等，用于后续排序。

分词（Tokenization）：将文本拆分为 “有意义的单元”

分词是将原始文本（句子、段落）拆分为词语（Term） 的过程，是构建倒排索引的前提。不同语言的分词难度差异显著。

阅读全文 »

Netty 编解码器详解：从基础到 Protobuf 实战

编解码器的核心概念

基本定义

Netty 编解码器的设计模式

Netty 内置编解码器

字符串编解码器

数据仓库详解：从概念到架构的全面解析

数据仓库的核心概念

数据仓库的四大核心特征

1. 面向主题

2. 集成性

3. 时间特征

4. 稳定性

curl 命令详解：命令行下的 HTTP 访问利器

基础用法：发起简单请求

1. 发送 GET 请求（默认）

查看响应头：-i 与 -I 参数

1. -i：显示响应头 + 响应体

Spring Boot JAR 包结构详解：从内部组成到启动原理

Spring Boot JAR 包整体结构

核心目录详解：每个目录的作用

1. BOOT-INF/：应用与依赖的核心存放地

搜索引擎核心概念解析：从索引到排序的核心逻辑

倒排索引（Inverted Index）：搜索引擎的 “字典”

基本结构

核心作用

优化方向

分词（Tokenization）：将文本拆分为 “有意义的单元”

查看响应头：`-i` 与 `-I` 参数

1. `-i`：显示响应头 + 响应体