小菜鸟

MDC日志跟踪

发表于 2022-06-28 更新于 2025-08-22 分类于日志阅读次数： Valine：
本文字数： 5.3k 阅读时长 ≈ 5 分钟

MDC 日志跟踪：多线程环境下的日志上下文管理

在复杂的分布式系统或多线程环境中，一条请求可能经过多个组件、线程甚至服务节点，传统日志往往难以串联整个调用链路。MDC（Mapped Diagnostic Context，映射诊断上下文）通过与线程绑定的上下文信息，为日志添加全局唯一标识（如traceId），实现跨线程、跨服务的日志追踪，是排查分布式问题的关键工具。

MDC 的核心原理

基本概念

MDC 是日志框架（Log4j、Logback、JUL）提供的线程级上下文存储机制，本质是一个与当前线程绑定的哈希表（ThreadLocal<Map<String, String>>），支持在日志中嵌入自定义键值对（如traceId、userId）。

工作机制

线程绑定：MDC 通过ThreadLocal将键值对与当前线程绑定，确保同一线程内的所有日志都能访问这些上下文信息；
日志输出：在日志格式中通过%X{key}占位符引用 MDC 中的值（如%X{traceId}输出追踪 ID）；
自动清理：线程结束时需手动清除 MDC 内容，避免线程复用（如线程池）导致的上下文污染。

MDC 的核心 API

MDC 的 API 简单直观，主要包含以下方法（以 SLF4J 为例，不同框架方法一致）：

阅读全文 »

netty线程模型

发表于 2022-06-26 更新于 2025-08-05 分类于 netty 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

Netty 线程模型深度解析：从 Reactor 到实战应用

Netty 的高性能很大程度上得益于其精心设计的线程模型。它基于 Reactor 模式并进行了优化，通过分离连接管理与 IO 处理，实现了高并发场景下的高效资源利用。本文将系统解析 Netty 线程模型的设计原理、工作流程及与传统模型的差异。

线程模型的演进：从阻塞到 Reactor

传统阻塞 I/O 模型的局限

传统阻塞 IO 采用 “一连接一线程” 模式，每个客户端连接对应一个独立线程：

缺点：
- 线程资源有限（默认线程栈 1MB），无法支撑高并发（如 10 万连接需 10 万线程，内存耗尽）。
- 线程切换开销大（上下文切换耗时约 1~10 微秒）。
- 大量线程处于阻塞状态（如等待数据），资源利用率低。

Reactor 模式的核心思想

Reactor 模式通过IO 多路复用和线程池解决传统模型的痛点，核心是 “事件驱动”：

IO 多路复用：单个线程通过 Selector 监听多个连接的 IO 事件（如可读、可写），避免阻塞等待。
线程池复用：业务处理由线程池完成，避免为每个连接创建线程。

根据 Reactor 数量和线程分工，分为三种实现：

模式	核心组件	适用场景	缺点
单 Reactor 单线程	1 个 Reactor 线程处理所有事件	低并发、短任务（如回声服务）	单线程瓶颈，无法利用多核 CPU
单 Reactor 多线程	1 个 Reactor 线程 + 业务线程池	中并发场景	Reactor 线程仍是瓶颈
主从 Reactor 多线程	主 Reactor（接收连接）+ 从 Reactor（处理 IO） + 业务线程池	高并发场景（如分布式服务）	实现复杂

Netty 线程模型：主从 Reactor 多线程的优化实现

Netty 线程模型基于主从 Reactor 多线程模式，通过两组线程池（BossGroup 和 WorkerGroup）分离连接管理与 IO 处理，同时避免了传统 Reactor 模式的复杂性。

核心组件

阅读全文 »

hadoop数据存入es

发表于 2022-06-24 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 5.7k 阅读时长 ≈ 5 分钟

Hadoop 数据写入 Elasticsearch：基于 ES-Hadoop 的实现详解

ES-Hadoop 是 Elasticsearch 官方推出的工具，用于打通 Hadoop 生态（HDFS、MapReduce、Spark 等）与 Elasticsearch，支持数据双向流动。本文详细讲解如何通过 MapReduce 任务将 Hadoop 中的数据（如 HDFS 上的文件）写入 Elasticsearch，包括依赖配置、代码实现、核心参数及最佳实践。

ES-Hadoop 简介与依赖准备

核心作用

ES-Hadoop 简化了 Hadoop 与 Elasticsearch 的数据交互，提供：

适配 Hadoop 生态的输入 / 输出格式（EsInputFormat/EsOutputFormat）。
自动处理数据序列化（Hadoop 数据 → ES 文档 JSON）。
支持批量写入、节点发现、认证等核心功能。

依赖配置

在 Maven 项目中添加以下依赖（版本需与 Hadoop 和 Elasticsearch 匹配）：

<!-- Hadoop 核心依赖 -->
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.7.3</version> <!-- 与集群 Hadoop 版本一致 -->
    <exclusions>
        <exclusion> <!-- 排除冲突的日志组件 -->
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
    </exclusions>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.7.3</version>
</dependency>

<!-- ES-Hadoop 核心依赖 -->
<dependency>
    <groupId>org.elasticsearch</groupId>
    <artifactId>elasticsearch-hadoop</artifactId>
    <version>6.8.23</version> <!-- 与 ES 版本一致 -->
</dependency>

<!-- 可选：ES 高级客户端（用于额外操作） -->
<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
    <version>6.8.23</version>
</dependency>

MapReduce 任务实现：HDFS 数据写入 ES

核心思路

通过 MapReduce 任务读取 HDFS 上的文件（如 JSON 格式），经 Mapper 处理后，通过 EsOutputFormat 批量写入 Elasticsearch。由于仅需数据透传（无聚合逻辑），无需 Reducer。

代码实现

（1）Job 配置类（H2EJob.java）

阅读全文 »

索引监控

发表于 2022-06-23 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 5.5k 阅读时长 ≈ 5 分钟

Elasticsearch 索引监控：全方位追踪索引状态与性能

索引是 Elasticsearch 存储和查询数据的核心单元，其健康状态和性能直接影响整个集群的可用性。Elasticsearch 提供了一系列 API 用于监控索引的统计信息、分片状态、恢复进度等关键指标，帮助开发者和运维人员及时发现并解决问题。

索引统计信息（`_stats`）

_stats API 提供索引的详细统计数据，涵盖文档数量、存储大小、索引 / 查询性能、缓存使用等维度，是监控索引整体状态的核心工具。

基本用法

查看所有索引的统计信息：

1	GET _stats // 返回集群中所有索引的统计数据

查看指定索引的统计信息：

1	GET my_index/_stats // 仅返回my_index的统计数据

过滤统计维度（如仅查看存储和事务日志）：

1	GET my_index/_stats/store,translog // 仅返回存储和事务日志信息

核心统计指标

（1）文档与存储信息（`docs` + `store`）

{
  "primaries": {
    "docs": {
      "count": 10000,    // 文档总数
      "deleted": 500     // 标记删除的文档数（未实际删除，等待合并）
    },
    "store": {
      "size_in_bytes": 52428800  // 索引占用磁盘空间（50MB）
    }
  }
}

阅读全文 »

maven使用外部依赖

发表于 2022-06-19 更新于 2025-08-01 分类于 maven 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

Maven 使用外部依赖：本地 Jar 包的引入方案

在开发中，经常会遇到需要使用中央仓库或远程私服中不存在的外部 Jar 包（如第三方非开源 SDK、定制化组件）的情况。Maven 提供了多种方式引入这类本地依赖，本文将详细介绍最常用的两种方案，并分析其优缺点。

使用 `system` 范围引入（简单直接）

system 是 Maven 依赖范围的一种，专门用于引用本地文件系统中的 Jar 包，无需通过仓库下载。

配置方式

<dependencies>
  <dependency>
    <groupId>com.example</groupId> <!-- 自定义组织标识 -->
    <artifactId>custom-sdk</artifactId> <!-- 自定义项目标识 -->
    <version>1.0.0</version> <!-- 自定义版本号 -->
    <scope>system</scope> <!-- 声明为 system 范围 -->
    <!-- 本地 Jar 包的路径（支持绝对路径或相对路径） -->
    <systemPath>${project.basedir}/src/lib/custom-sdk.jar</systemPath>
  </dependency>
</dependencies>

systemPath 路径说明：
- ${project.basedir} 表示项目根目录（含 pom.xml 的目录），推荐使用相对路径（如 src/lib/），便于项目迁移。
- 也可使用绝对路径（如 D:/libs/custom-sdk.jar），但会导致项目在其他机器上不可用，不推荐。

优缺点分析

优点	缺点
配置简单，无需额外操作即可引入依赖	依赖不会被打包到最终产物（如 Jar/War）中，需手动确保运行环境存在该 Jar 包
适合临时测试或本地开发	项目移植性差（需同步本地 Jar 包到其他环境）
	Maven 不会管理该依赖的传递依赖（若 Jar 包有依赖，需手动引入）

安装到本地仓库（推荐方案）

将本地 Jar 包安装到 Maven 本地仓库（~/.m2/repository），使其像普通依赖一样被 Maven 管理，解决 system 范围的移植性问题。

操作步骤

执行安装命令：
使用 mvn install:install-file 命令将 Jar 包安装到本地仓库：

阅读全文 »

MDC 日志跟踪：多线程环境下的日志上下文管理

MDC 的核心原理

基本概念

工作机制

MDC 的核心 API

Netty 线程模型深度解析：从 Reactor 到实战应用

线程模型的演进：从阻塞到 Reactor

传统阻塞 I/O 模型的局限

Reactor 模式的核心思想

Netty 线程模型：主从 Reactor 多线程的优化实现

核心组件

Hadoop 数据写入 Elasticsearch：基于 ES-Hadoop 的实现详解

ES-Hadoop 简介与依赖准备

核心作用

依赖配置

MapReduce 任务实现：HDFS 数据写入 ES

核心思路

代码实现

（1）Job 配置类（H2EJob.java）

Elasticsearch 索引监控：全方位追踪索引状态与性能

索引统计信息（_stats）

基本用法

核心统计指标

（1）文档与存储信息（docs + store）

Maven 使用外部依赖：本地 Jar 包的引入方案

使用 system 范围引入（简单直接）

配置方式

优缺点分析

安装到本地仓库（推荐方案）

操作步骤

索引统计信息（`_stats`）

（1）文档与存储信息（`docs` + `store`）

使用 `system` 范围引入（简单直接）