小菜鸟

MAC地址

发表于 2022-06-06 更新于 2025-08-03 分类于网络阅读次数： Valine：
本文字数： 1.3k 阅读时长 ≈ 1 分钟

MAC 地址：数据链路层的身份标识

MAC 地址（Media Access Control Address，介质访问控制地址）是数据链路层中用于唯一标识网络设备的物理地址，相当于设备在局域网中的 “身份证”，其核心作用是在同一数据链路（如以太网、Wi-Fi）中区分不同的节点，确保数据帧能准确送达目标设备。

MAC 地址的基本特性

唯一性
每个网络接口（如网卡、无线网卡）的 MAC 地址全球唯一，由设备制造商在生产时写入硬件芯片（如网卡的 ROM），通常无法修改（部分设备支持软件伪造，但不符合标准规范）。这一特性确保了在同一链路中不会出现地址冲突。
固定性
与可动态分配的 IP 地址不同，MAC 地址是 “烧录” 在硬件中的固定值，除非更换网卡，否则设备的 MAC 地址不会改变。例如，手机的 Wi-Fi 模块和电脑的有线网卡都有各自独立的 MAC 地址。
格式规范
MAC 地址为48 位二进制数，通常以十六进制表示，格式为 6 组两位数字（或字母），各组之间用冒号（:）或连字符（-）分隔。例如：
- 00:1A:2B:3C:4D:5E
- 00-1A-2B-3C-4D-5E
其中，前 24 位为厂商代码（由 IEEE 分配给设备制造商），后 24 位为厂商内部编号，用于区分同一厂商生产的不同设备。

MAC 地址的作用场景

MAC 地址仅在同一数据链路层中生效，其核心功能是实现 “链路内的点对点通信”，具体场景包括：

阅读全文 »

配置

发表于 2022-05-31 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

Elasticsearch 配置详解：从基础到高级优化

Elasticsearch 的配置直接影响集群的性能、稳定性和安全性。配置分为静态配置（仅通过配置文件设置，需重启生效）和动态配置（可通过 API 实时修改）。本文将系统解析核心配置项，包括网络、脚本、快照、线程池、索引等关键模块。

配置类型与优先级

静态配置
- 定义位置：elasticsearch.yml（主配置文件）、jvm.options（JVM 参数）。
- 生效方式：修改后需重启节点。
- 涵盖范围：网络绑定、端口、JVM 堆大小、节点角色等基础参数。
动态配置
- 定义方式：通过 /_cluster/settings API 设置。
- 生效方式：实时生效，无需重启。
- 涵盖范围：集群级参数（如副本数、刷新间隔）、线程池设置等。
优先级：显式配置（elasticsearch.yml 或 API）> 默认值；动态配置覆盖静态配置中可动态修改的参数。

网络配置：节点通信与连接

网络配置是集群部署的基础，确保节点间通信和客户端连接正常，主要包括 HTTP 层（客户端交互）和 Transport 层（节点间内部通信）。

核心网络参数（静态配置）

参数	作用	示例值
`network.host`	节点绑定的 IP 或主机名（默认 `localhost`）	`0.0.0.0`（允许所有网卡）
`network.bind_host`	绑定的网络接口（默认同 `network.host`）	`192.168.1.100`
`network.publish_host`	向集群其他节点宣告的 IP（默认同 `network.host`）	`192.168.1.100`

HTTP 配置（客户端交互）

控制 HTTP 接口（默认 9200 端口）的行为，用于客户端（如 Kibana、API 调用）连接：

阅读全文 »

IO操作底层实现

发表于 2022-05-29 更新于 2025-08-11 分类于 java基础阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

Java IO 底层实现：从缓冲区到虚拟内存的优化

IO 操作的本质是数据在外部设备（如磁盘、网卡）与用户进程之间的传输。从底层实现来看，这一过程涉及硬件（如 DMA 控制器）、操作系统内核和用户进程的协同，其核心矛盾是如何高效地在设备与进程间传输数据，并解决硬件限制与用户需求的不匹配问题。本文将从传统 IO 流程出发，解析内核缓冲区的作用、虚拟内存的优化机制及分页技术的意义。

传统 IO 操作的底层流程

传统 IO 操作（如文件读写）的底层流程可分为三个核心步骤，涉及用户缓冲区、内核缓冲区和DMA 控制器三个关键角色：

步骤拆解（以读磁盘为例）

步骤 1：用户进程发起 IO 请求
用户进程调用 read() 系统调用，请求从磁盘读取数据。此时进程进入阻塞状态（让出 CPU），等待数据就绪。
步骤 2：DMA 控制器将数据从磁盘传输到内核缓冲区
操作系统内核接收请求后，通过DMA（直接内存访问）控制器绕过 CPU，直接将磁盘数据传输到内核空间的内核缓冲区（属于操作系统管理的内存区域）。
- DMA 的作用：无需 CPU 参与数据传输，减少 CPU 开销，提高效率。
步骤 3：内核将数据从内核缓冲区拷贝到用户缓冲区
当 DMA 完成数据传输（内核缓冲区填满），内核会唤醒用户进程，并将数据从内核缓冲区拷贝到用户进程的用户缓冲区（用户进程管理的内存区域）。
- 此时 read() 调用返回，用户进程可从自己的缓冲区中使用数据。

为什么需要两层缓冲区？

传统 IO 中，内核缓冲区和用户缓冲区的分离是硬件限制和功能需求共同决定的：

阅读全文 »

聚合操作

发表于 2022-05-26 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 9.3k 阅读时长 ≈ 8 分钟

Elasticsearch 聚合操作（Aggregations）详解：从基础到高级分析

聚合操作是 Elasticsearch 中用于数据分析的核心功能，能够对查询结果进行统计、分组、计算等汇总操作，类似 SQL 中的 GROUP BY、SUM、AVG 等，但功能更强大、更灵活。根据操作方式和用途，聚合可分为四大类：分组聚合（Bucketing）、度量聚合（Metric）、矩阵聚合（Matrix） 和 管道聚合（Pipeline）。

聚合操作基础语法

Elasticsearch 聚合通过 aggs（或全称 aggregations）关键字定义，基本结构如下：

{
  "aggs": {  // 聚合操作入口（可缩写为aggs）
    "<聚合名称>": {  // 自定义聚合的逻辑名称（如"avg_price"）
      "<聚合类型>": {  // 聚合类型（如avg、terms、date_histogram）
        <聚合参数>  // 聚合的具体配置（如字段、间隔等）
      },
      "aggs": {  // 子聚合（可选，基于当前聚合结果进一步分析）
        "<子聚合名称>": { ... }
      }
    }
  },
  "size": 0  // 可选，设置为0仅返回聚合结果，不返回原始文档
}

核心特点：支持多层嵌套（子聚合），可基于分组结果再进行度量，或基于度量结果再进行计算。
适用场景：统计分析（如销售额总和）、分组统计（如按类别统计销量）、趋势分析（如按日统计访问量）等。

度量聚合（Metric）

度量聚合用于对文档中的数值型字段进行计算，返回单个或多个统计值（如平均值、最大值）。分为单值度量（返回一个值）和多值度量（返回多个相关值）。

单值度量聚合

（1）平均值（avg）

计算指定字段的平均值。

阅读全文 »

elasticsearch分析器

发表于 2022-05-26 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 5.8k 阅读时长 ≈ 5 分钟

Elasticsearch 分析器（Analyzer）：文本处理的核心引擎

分析器是 Elasticsearch 处理文本的核心组件，负责将原始文本转换为可索引的词项（Term），直接影响索引质量和搜索准确性。它由字符过滤器（Character Filter）、分词器（Tokenizer） 和分词过滤器（Token Filter） 三部分按顺序协同工作，形成完整的文本处理流水线。

分析器的核心组成与工作流程

组成部分及作用

分析器的三个组件按以下顺序执行操作：

1	原始文本 → 字符过滤器 → 分词器 → 分词过滤器 → 可索引词项

字符过滤器（Character Filter）
- 作用：对原始文本进行预处理（添加、删除、替换字符），如去除 HTML 标签、替换表情符号。
- 执行时机：在分词前处理整个文本。
- 数量：可配置 0 个或多个（按顺序执行）。
分词器（Tokenizer）
- 作用：将处理后的文本拆分为独立的词项（Token），如按空格、标点拆分。
- 执行时机：字符过滤后，是分析器的核心拆分步骤。
- 数量：必须且只能配置 1 个（分词是文本处理的基础）。
分词过滤器（Token Filter）
- 作用：对分词后的词项进行二次处理（如转小写、去除停用词、添加同义词）。
- 执行时机：分词后，对每个词项逐个处理。
- 数量：可配置 0 个或多个（按顺序执行）。

触发时机

分析器在两个阶段工作：

索引时：当文档的 text 类型字段被索引时，分析器将字段值转换为词项并写入倒排索引。
搜索时：当对 text 类型字段执行全文检索时，分析器将查询文本转换为词项，用于匹配索引中的词项。

内置组件详解

Elasticsearch 提供了丰富的内置组件（字符过滤器、分词器、分词过滤器），可直接组合使用或自定义分析器。

内置分析器（Analyzer）

分析器是上述三个组件的组合，内置分析器已预配置好组件，可直接使用：

阅读全文 »