Lucene简介

Lucene 简介：开源搜索引擎的核心引擎

Lucene 是 Apache 基金会旗下的一款高性能、可伸缩的开源信息检索库，它提供了完整的索引构建、检索和排序功能，是 Elasticsearch、Solr 等主流搜索引擎的底层核心。本文将详细解析 Lucene 的核心概念、索引机制及工作流程。

Lucene 围绕 “索引” 和 “检索” 构建了一套完整的抽象模型，以下是关键概念：

段是 Lucene 索引的 “子单元”，一个索引库由多个段组成，每个段是一个独立的、不可修改的索引片段。

不可变性：段一旦写入磁盘，就只能读取，不能修改（保证索引稳定性和查询性能）。
增删改处理：
- 新增：新文档会生成新段（先写入内存，批量刷盘以减少 IO）。
- 删除：不直接删除段中数据，而是通过 .del 文件标记被删除的文档 ID，查询时过滤这些文档（段合并时才真正移除）。
- 修改：等价于 “删除旧文档 + 新增新文档”（旧文档被标记删除，新文档写入新段）。
段合并：当段数量过多时，Lucene 会自动合并小段位大段（减少文件句柄占用，提升查询效率）。

新增数据先写入内存缓冲区，积累到一定量后批量刷盘生成新段，同时生成提交点（记录已刷盘的段信息）。这一机制减少了磁盘 IO 次数，提升性能。

域是文档的组成部分，包含 “域名称” 和 “域值”，并具有特定类型（决定是否索引、是否存储、是否分词等）。

是 Lucene 额外构建的 “文档 ID→域值” 的有序映射表，支持高效排序、聚合和分组（Elasticsearch 默认对非分词字符串外的字段启用）。

定义：词项是检索的基本单元，由 “域名称” 和 “关键词” 组成。同一词语在不同域中是不同的词项（如 title:lucene 与 content:lucene 是两个词项）。
生成：文档的域值经分词器处理后，拆分出的每个语义单元即为词项。

定义：用户检索需求的结构化表示，可由词项、逻辑关系（AND/OR）、范围等组成。
常见类型：
- TermQuery：单个词项查询（如 title:lucene）。
- PhraseQuery：短语查询（如 “lucene 索引” 需相邻出现）。
- RangeQuery：范围查询（如 price:[100 TO 200]）。
- BooleanQuery：多条件组合查询（如 title:lucene AND publishTime:[2023 TO *]）。

分词器负责将域值拆分为词项，是索引质量的关键。其核心由 Tokenizer（字符流转词条）和 TokenFilter（过滤 / 处理词条，如大小写转换、去停止词）组成。

英文分词器：
- StandardAnalyzer（默认）：按空格、符号分词，支持数字、邮箱等格式。
- StopAnalyzer：过滤停止词（如 “the”“and”），并转为小写。
- KeywordAnalyzer：不分词，将整个域值作为一个词项。
中文分词器：
- 一元分词：按单个字拆分（如 “上海”→“上”“海”，语义差）。
- 二元分词：按相邻两字拆分（如 “上海”→“上海”，但可能产生无意义组合）。
- 词库分词（如结巴分词）：基于词库拆分（如 “上海”→“上海”，更准确，但需维护词库）。

Lucene 索引构建是将文档转换为可检索结构的过程，步骤如下：

搜索过程是根据查询条件从索引中快速定位相关文档的过程，步骤如下：