小菜鸟

elasticsearch映射参数

发表于 2022-05-23 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 7.7k 阅读时长 ≈ 7 分钟

Elasticsearch 映射参数详解：定制字段的索引与检索行为

映射参数（Mapping Parameters）是 Elasticsearch 中用于定制字段行为的核心配置，通过这些参数可以控制字段的分词方式、数据处理、索引策略等，以适配不同的业务场景。以下是 6.8.x 版本中常用映射参数的详细解析。

`analyzer`：字符串分词器配置

analyzer 用于指定索引时处理字符串字段的分词器，决定如何将文本拆分为词项（Term）。查询时的分词器由 search_analyzer 或默认规则决定。

核心作用

定义字符串字段的分词逻辑（如中文分词、英文词干提取等）。
支持预定义分析器（如 standard、ik_smart）或自定义分析器。

分析器查找顺序

索引时：字段映射中定义的 analyzer → 索引设置中的 default 分析器 → 标准分析器（standard）。
查询时：查询中指定的 analyzer → 字段映射的 search_analyzer → 字段映射的 analyzer → 索引设置的 default_search → 索引设置的 default → 标准分析器。

配置示例（自定义分析器）

PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {  // 自定义索引时分析器
          "type": "custom",
          "tokenizer": "standard",  // 标准分词器
          "filter": ["lowercase"]   // 转小写过滤器
        },
        "my_search_analyzer": {  // 自定义查询时分析器
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "stop"]  // 额外添加停止词过滤
        }
      }
    }
  },
  "mappings": {
    "default": {
      "properties": {
        "title": {
          "type": "text",
          "analyzer": "my_analyzer",        // 索引时用自定义分析器
          "search_analyzer": "my_search_analyzer"  // 查询时用另一分析器
        }
      }
    }
  }
}

注意

文本字段（text）必须配置分析器，关键词字段（keyword）不分词，无需指定。
中文分词需依赖第三方插件（如 IK 分词器），并在 analyzer 中指定（如 ik_max_word）。

`normalizer`：关键词标准化器

normalizer 仅用于 keyword 类型字段，在索引前对字段值进行标准化处理（如大小写转换、特殊字符处理），确保精确匹配的一致性。

阅读全文 »

elasticsearch映射中的元字段

发表于 2022-05-23 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 4.4k 阅读时长 ≈ 4 分钟

Elasticsearch 映射中的元字段：内置字段的作用与用法

在 Elasticsearch 中，元字段（Meta-fields）是索引文档时自动生成或可配置的内置字段，用于描述文档的元数据（如 ID、索引名）或控制文档的处理逻辑（如路由、存储）。这些字段是 Elasticsearch 内部机制的重要组成部分，理解它们的作用有助于优化查询性能和数据管理。

`_all` 字段：全局全文搜索字段

_all 字段是一个特殊的 “聚合字段”，它会将文档中所有字段的文本内容合并为一个大字符串，用于在不知道具体字段名的情况下进行全文搜索。

特性

默认情况下，_all 字段会包含所有 text 或 keyword 类型字段的值（数字、日期等类型需显式配置才会被包含）。
6.0 版本后默认禁用，需手动开启。

配置与使用

// 创建索引时开启 _all 字段
PUT my_index
{
  "mappings": {
    "default": {
      "_all": { "enabled": true },  // 开启 _all 字段
      "properties": {
        "name": { "type": "text" },
        "age": { "type": "integer", "include_in_all": true }  // 强制将数字字段包含到 _all
      }
    }
  }
}

// 使用 _all 字段搜索（匹配 name 或 age 中包含相关值的文档）
GET my_index/_search
{
  "query": {
    "match": { "_all": "john 30" }  // 无需指定具体字段，搜索所有字段
  }
}

注意

_all 字段会增加索引存储和写入开销，仅在需要 “全局搜索” 场景下使用。
可通过 include_in_all: false 排除特定字段（如敏感信息）。

`_field_names` 字段：非空字段跟踪

_field_names 字段记录文档中所有非空字段的名称，用于快速查询 “包含特定字段” 或 “包含任意非空字段” 的文档。

特性

自动索引文档中所有非空字段的名称，无需手动配置。
可通过 enabled: false 禁用（节省存储）。

配置与使用

阅读全文 »

elasticsearch字段类型

发表于 2022-05-23 更新于 2025-08-13 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 6.7k 阅读时长 ≈ 6 分钟

Elasticsearch 字段类型详解：从基础到高级应用

Elasticsearch 提供了丰富的字段类型，每种类型对应特定的数据结构和使用场景，直接影响索引效率、查询性能和功能支持。以下是 6.8.x 版本中常用字段类型的详细解析，包括适用场景、特性及配置示例。

字符串类型：text 与 keyword

字符串是最常用的字段类型，Elasticsearch 将其细分为 text（全文本） 和 keyword（关键字），以满足不同的检索需求。

text（全文本类型）

特性：
- 会被分词器处理（拆分为词项），支持全文检索（如 “苹果手机” 可拆分为 “苹果”“手机”，匹配包含任一词项的文档）。
- 不适合排序、聚合（分词后的值分散，无法高效分组）。
适用场景：需要全文搜索的长文本，如商品描述、文章正文、评论内容等。

配置示例：

{
  "mappings": {
    "default": {
      "properties": {
        "product_description": { "type": "text" }  // 全文搜索商品描述
      }
    }
  }
}

keyword（关键字类型）

特性：
- 不分词，将整个字符串作为一个词项（如 “苹果手机” 会被视为单个词项，仅精确匹配时命中）。
- 适合过滤（term 查询）、排序（sort）、聚合（terms 分组）。
适用场景：结构化字符串，如标签、状态、ID、分类等。
配置示例：

阅读全文 »

Docker for Mac桌面无法打开

发表于 2022-05-22 更新于 2025-08-20 分类于 Docker 阅读次数： Valine：
本文字数： 1.5k 阅读时长 ≈ 1 分钟

Docker for Mac 桌面无法打开的解决方案

当 Docker for Mac 桌面应用无法启动，同时出现Cannot connect to the Docker daemon错误时，通常与 Docker 进程异常占用或状态错乱有关。以下是针对该问题的详细解决步骤：

问题现象总结

点击 Docker 桌面图标无反应，无法启动图形界面；
终端执行docker -v显示版本正常，但docker images等命令提示：
Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?；
检查/var/run目录，未找到docker.sock文件（Docker 守护进程通信的套接字文件）。

核心原因分析

问题根源通常是Docker 相关进程异常残留，导致新的 Docker 守护进程无法启动：

电脑非正常重启（如强制关机、断电）可能导致 Docker 进程未正常退出；
残留进程占用了 Docker 所需的端口或资源，阻止新进程启动。

解决步骤

1. 检查 Docker 相关进程

终端执行以下命令，查看是否有残留的 Docker 进程：

阅读全文 »

Integer拆装箱问题

发表于 2022-05-14 更新于 2025-08-11 分类于 java基础阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

Integer 拆装箱与缓存机制：为什么 2 == 2 而 200 != 200？

在 Java 中，Integer 作为 int 的包装类，其拆装箱（Autoboxing/Unboxing）机制和缓存策略常常导致看似矛盾的结果，比如两个值相等的 Integer 对象用 == 比较时，有时为 true，有时为 false。本文将深入解析这一现象背后的原理。

自动拆装箱的基本概念

自动装箱（Autoboxing）：将基本数据类型（如 int）自动转换为对应的包装类（如 Integer）。
自动拆箱（Unboxing）：将包装类（如 Integer）自动转换为对应的基本数据类型（如 int）。

示例：

// 自动装箱：int → Integer
Integer a = 2; // 等价于 Integer a = Integer.valueOf(2);

// 自动拆箱：Integer → int
int b = a; // 等价于 int b = a.intValue();

正是自动装箱机制，使得 Integer a = 2 这种语法成立，而其内部依赖 Integer.valueOf(int) 方法实现。

Integer 缓存机制（IntegerCache）

Integer 的缓存机制是导致 2 == 2 而 200 != 200 的核心原因。Java 为了优化性能，对 -128 到 127 之间的整数 进行了缓存，避免频繁创建相同值的 Integer 对象。

1. `Integer.valueOf(int)` 方法的实现

Integer.valueOf(int) 是自动装箱的核心方法，其源码逻辑如下：

阅读全文 »

Elasticsearch 映射参数详解：定制字段的索引与检索行为

analyzer：字符串分词器配置

核心作用

分析器查找顺序

配置示例（自定义分析器）

注意

normalizer：关键词标准化器

Elasticsearch 映射中的元字段：内置字段的作用与用法

_all 字段：全局全文搜索字段

特性

配置与使用

注意

_field_names 字段：非空字段跟踪

特性

配置与使用

Elasticsearch 字段类型详解：从基础到高级应用

字符串类型：text 与 keyword

text（全文本类型）

keyword（关键字类型）

Docker for Mac 桌面无法打开的解决方案

问题现象总结

核心原因分析

解决步骤

1. 检查 Docker 相关进程

Integer 拆装箱与缓存机制：为什么 2 == 2 而 200 != 200？

自动拆装箱的基本概念

Integer 缓存机制（IntegerCache）

1. Integer.valueOf(int) 方法的实现

`analyzer`：字符串分词器配置

`normalizer`：关键词标准化器

`_all` 字段：全局全文搜索字段

`_field_names` 字段：非空字段跟踪

1. `Integer.valueOf(int)` 方法的实现