小菜鸟

IO操作底层实现

发表于 2022-05-29 更新于 2025-08-11 分类于 java基础阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

Java IO 底层实现：从缓冲区到虚拟内存的优化

IO 操作的本质是数据在外部设备（如磁盘、网卡）与用户进程之间的传输。从底层实现来看，这一过程涉及硬件（如 DMA 控制器）、操作系统内核和用户进程的协同，其核心矛盾是如何高效地在设备与进程间传输数据，并解决硬件限制与用户需求的不匹配问题。本文将从传统 IO 流程出发，解析内核缓冲区的作用、虚拟内存的优化机制及分页技术的意义。

传统 IO 操作的底层流程

传统 IO 操作（如文件读写）的底层流程可分为三个核心步骤，涉及用户缓冲区、内核缓冲区和DMA 控制器三个关键角色：

步骤拆解（以读磁盘为例）

步骤 1：用户进程发起 IO 请求
用户进程调用 read() 系统调用，请求从磁盘读取数据。此时进程进入阻塞状态（让出 CPU），等待数据就绪。
步骤 2：DMA 控制器将数据从磁盘传输到内核缓冲区
操作系统内核接收请求后，通过DMA（直接内存访问）控制器绕过 CPU，直接将磁盘数据传输到内核空间的内核缓冲区（属于操作系统管理的内存区域）。
- DMA 的作用：无需 CPU 参与数据传输，减少 CPU 开销，提高效率。
步骤 3：内核将数据从内核缓冲区拷贝到用户缓冲区
当 DMA 完成数据传输（内核缓冲区填满），内核会唤醒用户进程，并将数据从内核缓冲区拷贝到用户进程的用户缓冲区（用户进程管理的内存区域）。
- 此时 read() 调用返回，用户进程可从自己的缓冲区中使用数据。

为什么需要两层缓冲区？

传统 IO 中，内核缓冲区和用户缓冲区的分离是硬件限制和功能需求共同决定的：

阅读全文 »

聚合操作

发表于 2022-05-26 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 9.3k 阅读时长 ≈ 8 分钟

Elasticsearch 聚合操作（Aggregations）详解：从基础到高级分析

聚合操作是 Elasticsearch 中用于数据分析的核心功能，能够对查询结果进行统计、分组、计算等汇总操作，类似 SQL 中的 GROUP BY、SUM、AVG 等，但功能更强大、更灵活。根据操作方式和用途，聚合可分为四大类：分组聚合（Bucketing）、度量聚合（Metric）、矩阵聚合（Matrix） 和 管道聚合（Pipeline）。

聚合操作基础语法

Elasticsearch 聚合通过 aggs（或全称 aggregations）关键字定义，基本结构如下：

{
  "aggs": {  // 聚合操作入口（可缩写为aggs）
    "<聚合名称>": {  // 自定义聚合的逻辑名称（如"avg_price"）
      "<聚合类型>": {  // 聚合类型（如avg、terms、date_histogram）
        <聚合参数>  // 聚合的具体配置（如字段、间隔等）
      },
      "aggs": {  // 子聚合（可选，基于当前聚合结果进一步分析）
        "<子聚合名称>": { ... }
      }
    }
  },
  "size": 0  // 可选，设置为0仅返回聚合结果，不返回原始文档
}

核心特点：支持多层嵌套（子聚合），可基于分组结果再进行度量，或基于度量结果再进行计算。
适用场景：统计分析（如销售额总和）、分组统计（如按类别统计销量）、趋势分析（如按日统计访问量）等。

度量聚合（Metric）

度量聚合用于对文档中的数值型字段进行计算，返回单个或多个统计值（如平均值、最大值）。分为单值度量（返回一个值）和多值度量（返回多个相关值）。

单值度量聚合

（1）平均值（avg）

计算指定字段的平均值。

阅读全文 »

elasticsearch分析器

发表于 2022-05-26 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 5.8k 阅读时长 ≈ 5 分钟

Elasticsearch 分析器（Analyzer）：文本处理的核心引擎

分析器是 Elasticsearch 处理文本的核心组件，负责将原始文本转换为可索引的词项（Term），直接影响索引质量和搜索准确性。它由字符过滤器（Character Filter）、分词器（Tokenizer） 和分词过滤器（Token Filter） 三部分按顺序协同工作，形成完整的文本处理流水线。

分析器的核心组成与工作流程

组成部分及作用

分析器的三个组件按以下顺序执行操作：

1	原始文本 → 字符过滤器 → 分词器 → 分词过滤器 → 可索引词项

字符过滤器（Character Filter）
- 作用：对原始文本进行预处理（添加、删除、替换字符），如去除 HTML 标签、替换表情符号。
- 执行时机：在分词前处理整个文本。
- 数量：可配置 0 个或多个（按顺序执行）。
分词器（Tokenizer）
- 作用：将处理后的文本拆分为独立的词项（Token），如按空格、标点拆分。
- 执行时机：字符过滤后，是分析器的核心拆分步骤。
- 数量：必须且只能配置 1 个（分词是文本处理的基础）。
分词过滤器（Token Filter）
- 作用：对分词后的词项进行二次处理（如转小写、去除停用词、添加同义词）。
- 执行时机：分词后，对每个词项逐个处理。
- 数量：可配置 0 个或多个（按顺序执行）。

触发时机

分析器在两个阶段工作：

索引时：当文档的 text 类型字段被索引时，分析器将字段值转换为词项并写入倒排索引。
搜索时：当对 text 类型字段执行全文检索时，分析器将查询文本转换为词项，用于匹配索引中的词项。

内置组件详解

Elasticsearch 提供了丰富的内置组件（字符过滤器、分词器、分词过滤器），可直接组合使用或自定义分析器。

内置分析器（Analyzer）

分析器是上述三个组件的组合，内置分析器已预配置好组件，可直接使用：

阅读全文 »

索引模板

发表于 2022-05-26 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

Elasticsearch 索引模板：标准化索引配置与映射的利器

索引模板（Index Template）是 Elasticsearch 中用于预定义索引配置（settings）和映射（mapping）的工具。通过模板，可确保新创建的索引自动应用统一的配置，避免重复劳动并保证索引结构的一致性，尤其适合按时间分片的索引（如日志索引 log-2024-08）。

索引模板的核心作用

标准化配置：为一类索引（如所有日志索引）统一设置分片数、副本数、刷新间隔等参数。
预定义映射：提前定义字段类型、分词器等映射规则，避免动态映射导致的字段类型错误。
自动化应用：新索引创建时，若名称匹配模板的 index_patterns，自动应用模板配置。

索引模板的基本操作

创建索引模板

通过 PUT _template/<模板名称> 创建模板，核心参数包括：

index_patterns：匹配索引名称的模式（支持通配符 *）。
order：模板优先级（数值越大优先级越高，冲突时覆盖低优先级配置）。
settings：索引的配置参数（如分片数、副本数）。
mappings：索引的字段映射规则。

示例：创建一个适用于所有日志索引的模板

PUT _template/template_logs
{
  "index_patterns": ["log-*"],  // 匹配所有以log-开头的索引
  "order": 1,  // 优先级为1（可用于覆盖低优先级模板）
  "settings": {
    "number_of_shards": 3,  // 主分片数3
    "number_of_replicas": 1,  // 副本数1
    "refresh_interval": "30s"  // 刷新间隔30秒（降低实时性，提升写入性能）
  },
  "mappings": {
    "default": {  // 6.x支持type，7.x后默认_type为_doc
      "properties": {
        "timestamp": { "type": "date" },  // 时间字段
        "level": { "type": "keyword" },   // 日志级别（精确匹配）
        "message": { "type": "text", "analyzer": "ik_max_word" }  // 日志内容（中文分词）
      }
    }
  }
}

阅读全文 »

elasticsearch连接查询

发表于 2022-05-24 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 5.1k 阅读时长 ≈ 5 分钟

Elasticsearch 连接查询：嵌套查询与父子查询详解

在 Elasticsearch 中，处理关联数据（如一对多关系）时，传统的对象类型（object）会因内部扁平化存储导致查询异常。为此，ES 提供了两种专门的关联查询方式：嵌套查询（nested query） 和 父子查询（parent-child query），分别适用于不同的业务场景。

对象类型的局限性：为何需要连接查询？

对象类型（object）用于存储 JSON 对象数组，但 ES 会在内部将其扁平化处理，导致对象边界丢失，从而引发查询逻辑错误。

问题示例

假设有一篇包含多个事件的文档：

{
  "name": "技术大会",
  "events": [
    { "date": "2022-10-10", "title": "java架构大会" },
    { "date": "2022-08-08", "title": "hadoop大会" },
    { "date": "2022-02-02", "title": "elasticsearch大会" }
  ]
}

ES 内部会将其扁平化为：

{
  "name": "技术大会",
  "events.date": ["2022-10-10", "2022-08-08", "2022-02-02"],
  "events.title": ["java架构大会", "hadoop大会", "elasticsearch大会"]
}

阅读全文 »