Lucene的段

Lucene 中的段（Segment）：增量索引与不可变设计的平衡

Lucene 的倒排索引一旦写入磁盘，其结构便难以修改（修改会导致大量磁盘 IO 和性能损耗）。为解决增量数据的索引问题，Lucene 引入了段（Segment） 的概念，通过 “多个不可变段的动态组合” 实现高效的增量索引和查询。

定义：每个段是一个独立的、完整的倒排索引片段，一旦写入磁盘，其数据和结构不可修改（只读）。
优势：
- 查询高效：不可变结构允许 Lucene 对段进行预优化（如倒排列表压缩、缓存热点数据），提升查询速度。
- 线程安全：多个查询线程可同时读取同一网段，无需加锁，减少并发冲突。
- 故障安全：段写入过程中若发生崩溃，仅需丢弃未完成的段，不影响已提交的段。

当有新文档需要索引时，Lucene 不会修改已有段，而是：

创建新段：新文档被写入新的临时段（先存于内存缓冲区）。
批量刷盘：当内存中的文档数量或时间达到阈值（如 index.max.bufferedDocs 或 index.flush.interval），临时段被批量写入磁盘，成为可查询的新段。
逻辑组合：所有段通过 “提交点（Commit Point）” 被逻辑组合为一个完整索引，查询时 Lucene 会遍历所有段并合并结果。

示例：

随着增量索引的进行，段的数量会不断增加（如每次新增文档都生成新段），过多的段会导致：

因此，Lucene 会自动触发段合并（Segment Merging）：

示例：

Lucene 的 MergePolicy 控制合并时机和对象选择，常见策略：

段的不可变性决定了 Lucene 对文档的增删改操作需采用特殊机制：

操作	实现方式
新增	写入新段（内存缓冲 → 磁盘新段）。
删除	不直接删除段中的文档，而是在 `.del` 文件中标记文档 ID 为 “已删除”。查询时，Lucene 会过滤被标记的文档（段合并时才真正移除这些文档）。
修改	等价于 “删除旧文档 + 新增新文档”：旧文档被标记删除，新文档写入新段。