分析器 | 小菜鸟

Lucene 分析器（Analyzer）：文本处理的核心组件

Lucene 的分析器（Analyzer）是文本预处理的核心模块，负责将原始文本转换为可用于索引和检索的词项（Term）。它由字符映射器（Character Mapper）、分词器（Tokenizer） 和过滤器（Filter） 三部分组成，三者按顺序协同工作，形成完整的文本处理流水线。

字符映射器（Character Mapper）：文本预处理

字符映射器是分析器的第一个环节，作用于原始文本字符流，在分词前进行字符级别的预处理，确保后续分词和过滤的准确性。

核心功能

字符编码转换：将非 Unicode 编码（如 GBK）的文本转换为 Unicode，避免字符乱码。
非法字符过滤：移除不可打印字符（如控制字符、特殊符号）或自定义过滤规则（如过滤 emoji）。
字符标准化：统一字符形式（如将全角字符 “ａ” 转换为半角 “a”，或将 “℃” 转换为 “c”）。

特点

仅处理单个字符，不涉及词的拆分，是文本处理的 “第一道净化工序”。
Lucene 中通常通过 CharFilter 抽象类实现，常见实现如 HTMLStripCharFilter（移除 HTML 标签）。

分词器（Tokenizer）：文本拆分为词条

分词器是分析器的核心环节，负责将预处理后的字符流拆分为词条（Token）—— 即包含词项文本及附加信息的单元。

核心功能

按规则拆分文本：根据语言特性或自定义规则拆分（如英文按空格 / 标点拆分，中文按词库拆分）。
记录词条元信息：为每个词条添加偏移量（在原始文本中的起止位置）、长度、类型（如 “数字”“英文单词”）等信息，用于后续检索和高亮显示。

常见实现

StandardTokenizer：Lucene 默认分词器，支持多语言，能识别字母、数字、邮箱、IP 等格式，按非字母 / 数字字符拆分。
WhitespaceTokenizer：仅按空格拆分，不处理标点（如 “hello,world” 拆分为 “hello,world”）。
CJKTokenizer：针对中日韩语言的分词器，按双字拆分（如 “中国”→“中国”，“北京”→“北京”）。
自定义分词器：结合词库或机器学习模型（如 Jieba 分词的 Lucene 适配版），提升中文等复杂语言的分词精度。

过滤器（Filter）：词条流的精细化处理

过滤器接收分词器输出的词条流，对每个词条进行二次处理，进一步优化词项质量，使索引更精准、检索更高效。多个过滤器可串联使用，形成 “过滤链”。

常见过滤器及功能

过滤器类型	作用示例	适用场景
小写过滤器	将 “Lucene” 转换为 “lucene”	实现大小写不敏感检索
停止词过滤器	移除 “的”“the” 等无意义词	减少索引体积，提升检索效率
词干提取过滤器	将 “running” 还原为 “run”，“cats” 还原为 “cat”	统一词的不同形态（英文）
同义词过滤器	将 “单车” 替换为 “自行车”	扩展检索范围（如 “单车” 能匹配 “自行车”）
长度过滤器	移除过短（如 1 个字符）或过长的词条	过滤无意义碎片或超长词

特点

基于词条流的 “流式处理”，每个过滤器可修改、删除或新增词条（如同义词过滤器会为词条添加同义词）。
过滤器的顺序影响最终结果（如先小写化再提取词干，而非反之）。

分析器的工作流程：从文本到词项

分析器的三个组件按字符映射器 → 分词器 → 过滤器的顺序协同工作，完整流程如下：

原始文本输入：如 “Lucene 是一个开源的搜索引擎库！”。
字符映射器处理：移除感叹号等特殊字符，得到 “Lucene 是一个开源的搜索引擎库”。
分词器拆分：拆分为词条流 [“Lucene”“是”“一个”“开源”“的”“搜索引擎”“库”]，并记录每个词条的偏移量。
过滤器处理：
- 小写过滤器：将 “Lucene”→“lucene”；
- 停止词过滤器：移除 “的”“一个”；
- 最终词项：[“lucene”“是”“开源”“搜索引擎”“库”]。
生成词项用于索引：这些词项将被写入倒排索引，作为检索的基本单元。

自定义分析器：适配业务需求

Lucene 允许通过组合不同的 CharFilter、Tokenizer 和 Filter 自定义分析器，以适配特定场景（如多语言检索、专业术语处理）。

示例：中文分析器

Analyzer chineseAnalyzer = new Analyzer() {
  @Override
  protected TokenStreamComponents createComponents(String fieldName) {
    // 字符映射器：移除HTML标签
    Reader reader = new HTMLStripCharFilter(new StringReader(fieldName));
    // 分词器：使用结巴分词
    Tokenizer tokenizer = new JiebaTokenizer(reader);
    // 过滤器链：小写化 → 移除停止词
    TokenStream filter = new LowerCaseFilter(tokenizer);
    filter = new StopFilter(filter, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
    return new TokenStreamComponents(tokenizer, filter);
  }
};