小菜鸟

elasticsearch过程分析

发表于 2022-11-15 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

Elasticsearch 索引过程全解析：从写入到持久化的完整流程

Elasticsearch 的索引过程（文档写入、存储与检索）是其核心能力，涉及分片路由、内存缓冲、持久化机制、分段管理等多个环节。理解这一过程有助于优化写入性能、保障数据安全，并解释 “准实时搜索” 等特性的底层原理。

数据写入：分片路由机制

文档写入 Elasticsearch 时，首先需要确定存储到哪个主分片（副本分片仅用于同步和容错，不直接接收写入）。

分片路由公式

分片的分配通过以下公式计算：

1	shard = hash(routing) % number_of_primary_shards

routing：路由键，默认是文档的 _id，也可在写入时通过 routing 参数自定义（如按用户 ID 路由，确保同一用户的文档在同一分片）。
number_of_primary_shards：索引的主分片数量（创建后不可修改）。

示例：若索引有 3 个主分片，某文档 _id=123，则 hash(123) % 3 计算结果为 0、1 或 2，对应写入的主分片。

写入流程（协调节点与主 / 副本分片）

请求接收：客户端向任意节点（协调节点）发送写入请求。
路由计算：协调节点通过上述公式确定目标主分片，并转发请求到该主分片所在的节点。
主分片写入：主分片节点写入文档，成功后同步请求到所有副本分片。
响应确认：所有副本分片写入成功后，主分片节点向协调节点返回 “成功” 响应，最终反馈给客户端。

索引文档：从内存到磁盘的流转

文档写入主分片后，并非直接持久化到磁盘，而是经历 “内存缓冲→文件系统缓存→磁盘” 的多阶段流转，平衡性能与可靠性。

初始写入：Memory Buffer 与 Translog

阅读全文 »

数据一致性

发表于 2022-11-15 更新于 2025-07-31 分类于分布式阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

数据一致性：分布式系统的平衡艺术

在分布式系统中，数据一致性是永恒的核心命题。不同于单机环境下通过锁和事务即可保证的数据一致性，分布式系统因节点分散、网络不可靠等特性，需在 “一致性”“可用性” 和 “分区容错性” 之间寻找平衡。CAP 理论和 BASE 理论为这种平衡提供了底层逻辑，而最终一致性则成为多数场景的务实选择。

CAP 理论：分布式系统的 “不可能三角”

CAP 理论由加州大学伯克利分校的 Eric Brewer 提出，揭示了分布式系统设计的根本约束：任何分布式系统都无法同时满足一致性（Consistency）、可用性（Availability）和分区容错性（Partition-Tolerance），最多只能满足其中两项。

三大特性的核心定义

一致性（Consistency）：
所有节点在同一时间访问到的数据完全一致。当数据在某个节点被修改后，所有节点需立即感知到最新值，不存在 “中间状态”。
例：分布式数据库中，用户 A 修改了数据，用户 B 在任何节点查询都应看到更新后的值。
可用性（Availability）：
任何合法请求都能在有限时间内获得响应（成功或失败），系统不会无响应或超时。即使部分节点故障，剩余节点仍需正常提供服务。
例：电商网站在部分服务器宕机时，仍能响应用户的下单请求。
分区容错性（Partition-Tolerance）：
当网络分区（节点间通信中断）发生时，系统仍能继续运行，不会因网络故障而整体崩溃。
例：跨机房部署的系统，即使机房间网络中断，每个机房内的服务仍能独立工作。

三者的矛盾与取舍

分布式系统的节点通过网络连接，而网络分区是不可避免的（如光缆中断、路由故障），因此分区容错性（P）是必须满足的前提。在此基础上，系统只能在 “一致性（C）” 和 “可用性（A）” 中二选一：

阅读全文 »

分布式事务

发表于 2022-11-15 更新于 2025-07-31 分类于分布式阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

分布式事务：从理论到实践的一致性解决方案

事务的 ACID 特性（原子性、一致性、隔离性、持久性）在单机数据库中通过锁机制和日志系统较易保证，但在分布式系统中，由于数据分散在多个节点，且节点间存在网络延迟、故障等不确定性，如何保证跨节点操作的原子性成为核心难题。本文将系统梳理分布式事务的理论模型、经典协议及工业界实践方案。

分布式事务的核心挑战

分布式事务的本质是跨节点操作的原子性：即多个节点的操作要么全部成功，要么全部失败，最终保证全局数据一致。其核心挑战源于：

网络不确定性：节点间通信可能超时、丢包，导致操作结果未知；
节点故障：部分节点宕机可能导致局部操作成功而其他节点失败；
性能与一致性权衡：强一致性方案往往伴随性能损耗，需根据业务场景取舍。

分布式事务规范与模型

1. X/Open DTP 模型：分布式事务的基础规范

The Open Group 提出的 X/Open DTP（Distributed Transaction Processing）模型定义了分布式事务的核心组件及交互方式，为实现分布式事务提供了标准框架。

核心组件：

AP（Application Program）：应用程序，定义事务边界（开始、提交、回滚），并发起对多个资源的操作（如跨库转账）。
RM（Resource Manager）：资源管理器，如数据库（MySQL、Oracle）、消息队列等，负责管理具体资源，并通过XA 接口向 TM 提供事务能力（提交、回滚）。
TM（Transaction Manager）：事务管理器，协调所有 RM，负责全局事务的决策（提交或回滚），并通过 XA 接口与 RM 通信，确保所有分支事务一致。

阅读全文 »

maven转为web项目

发表于 2022-11-15 更新于 2025-08-01 分类于 maven 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

Maven 普通项目转为 Web 项目：完整步骤与配置解析

将普通 Maven 项目（Jar 打包）转为 Web 项目（War 打包）只需简单几步即可完成，核心是调整目录结构和打包方式。本文将详细介绍转换步骤、目录规范及常见问题解决。

核心转换步骤

修改打包方式为 War

在 pom.xml 中设置 <packaging> 为 war（默认是 jar），这是 Web 项目的标志性配置：

<project>
  <groupId>com.example</groupId>
  <artifactId>my-webapp</artifactId>
  <version>1.0-SNAPSHOT</version>
  <packaging>war</packaging> <!-- 关键：声明为 Web 项目 -->
  <name>My Web Application</name>
</project>

设置后，Maven 会按照 Web 项目的规则进行构建（如打包为 .war 文件）。

创建 Web 标准目录结构

Maven 对 Web 项目的目录结构有约定，需手动创建以下目录和文件：

src/
└── main/
    ├── java/           # 主程序源码（已有，无需修改）
    ├── resources/      # 配置文件（已有，无需修改）
    └── webapp/         # Web 资源根目录（新增）
        ├── WEB-INF/    # 受保护的 Web 目录（新增）
        │   └── web.xml # Web 应用配置文件（新增，核心）
        ├── index.jsp   # 示例页面（可选）
        ├── css/        # 样式文件目录（可选）
        ├── js/         # 脚本文件目录（可选）
        └── img/        # 图片资源目录（可选）

webapp：Web 资源的根目录，打包后会作为 WAR 包的根目录。
WEB-INF：存放 Web 应用的配置文件（如 web.xml），该目录下的资源无法通过浏览器直接访问，安全性高。
web.xml：Web 应用的核心配置文件，定义 Servlet、过滤器、欢迎页等（Servlet 3.0+ 可注解配置，但建议保留基础配置）。

配置 `web.xml`（基础示例）

web.xml 是 Web 项目的标配，即使使用注解开发，也建议保留基础结构：

<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns="http://xmlns.jcp.org/xml/ns/javaee"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://xmlns.jcp.org/xml/ns/javaee 
                             http://xmlns.jcp.org/xml/ns/javaee/web-app_4_0.xsd"
         version="4.0">

  <!-- 欢迎页（访问项目根路径时默认打开的页面） -->
  <welcome-file-list>
    <welcome-file>index.jsp</welcome-file>
  </welcome-file-list>

  <!-- 示例：配置 Servlet（可选，根据框架需求添加） -->
  <!--
  <servlet>
    <servlet-name>MyServlet</servlet-name>
    <servlet-class>com.example.MyServlet</servlet-class>
  </servlet>
  <servlet-mapping>
    <servlet-name>MyServlet</servlet-name>
    <url-pattern>/my-servlet</url-pattern>
  </servlet-mapping>
  -->
</web-app>

验证转换结果

构建 WAR 包

执行打包命令，验证是否生成 .war 文件：

阅读全文 »

ELKF

发表于 2022-11-14 更新于 2025-08-23 分类于日志阅读次数： Valine：
本文字数： 7.2k 阅读时长 ≈ 7 分钟

ELKF 日志系统：Filebeat+ELK 的轻量日志采集方案详解

ELKF（Elasticsearch + Logstash + Kibana + Filebeat）是在传统 ELK 基础上引入 Filebeat 的增强方案。由于 Logstash（基于 JVM）资源消耗较高，不适合在海量应用节点上直接部署，而 Filebeat（轻量级 Go 语言工具）能以极低的 CPU / 内存占用实现日志采集，形成 “应用日志→Filebeat 采集→Logstash 处理→Elasticsearch 存储→Kibana 可视化” 的完整链路，成为分布式系统日志管理的主流架构。

ELKF 核心架构与组件分工

ELKF 的核心价值在于解耦日志采集与处理，通过 Filebeat 实现 “轻量采集”，Logstash 实现 “复杂处理”，两者协同解决传统 ELK 在大规模部署时的资源占用问题。

架构链路图

1 2	[应用服务器] [中间件服务器] [存储与可视化服务器] 应用日志 → Filebeat采集 → Logstash过滤清洗 → Elasticsearch存储 → Kibana可视化

组件分工对比

组件	角色定位	核心优势	部署位置
Filebeat	日志采集器	轻量（<10MB 内存）、高可靠（断点续传）	应用服务器节点
Logstash	日志处理管道	支持 200 + 插件、复杂过滤（解析 / 脱敏 / 转换）	独立中间件集群
Elasticsearch	日志存储与检索引擎	分布式、实时索引、全文搜索	存储集群（3 + 节点）
Kibana	日志可视化平台	检索界面、仪表盘、告警配置	前端服务节点

Filebeat 核心配置与实战

Filebeat 是 ELKF 的 “入口”，负责从应用服务器采集日志并发送到 Logstash（或直接到 Elasticsearch）。其核心配置文件为filebeat.yml，需重点关注日志输入源（Inputs） 和输出目的地（Outputs）。

1. 基础配置：采集文件日志并发送到 Logstash

阅读全文 »

Elasticsearch 索引过程全解析：从写入到持久化的完整流程

数据写入：分片路由机制

分片路由公式

写入流程（协调节点与主 / 副本分片）

索引文档：从内存到磁盘的流转

初始写入：Memory Buffer 与 Translog

数据一致性：分布式系统的平衡艺术

CAP 理论：分布式系统的 “不可能三角”

三大特性的核心定义

三者的矛盾与取舍

分布式事务：从理论到实践的一致性解决方案

分布式事务的核心挑战

分布式事务规范与模型

1. X/Open DTP 模型：分布式事务的基础规范

Maven 普通项目转为 Web 项目：完整步骤与配置解析

核心转换步骤

修改打包方式为 War

创建 Web 标准目录结构

配置 web.xml（基础示例）

验证转换结果

构建 WAR 包

ELKF 日志系统：Filebeat+ELK 的轻量日志采集方案详解

ELKF 核心架构与组件分工

架构链路图

组件分工对比

Filebeat 核心配置与实战

1. 基础配置：采集文件日志并发送到 Logstash

配置 `web.xml`（基础示例）