0%

搜索引擎重要概念

发表于 2022-10-26 更新于 2025-08-12 分类于搜索引擎阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

搜索引擎核心概念解析：从索引到排序的核心逻辑

搜索引擎的核心功能是 “快速找到与查询相关的信息”，这一过程依赖于多个关键技术概念的协同作用。其中，倒排索引是数据结构基础，分词是处理输入的前提，停止词优化索引效率，排序则决定结果的相关性。以下是这些概念的详细解析：

倒排索引（Inverted Index）：搜索引擎的 “字典”

倒排索引是搜索引擎最核心的数据结构，其设计颠覆了 “文档→词语” 的正向映射，转而建立 “词语→文档” 的反向映射，从而实现根据词语快速定位包含它的所有文档。

基本结构

倒排索引由两部分组成：

词典（Term Dictionary）：存储所有被索引的词语（去重后），通常按字母 / 拼音排序，便于快速查找。
倒排列表（Posting List）：每个词语对应一个列表，记录包含该词语的文档 ID，以及词语在文档中的位置、出现次数等附加信息。

示例：

词语（Term）	倒排列表（文档 ID 及附加信息）
人工智能	[(1, 出现 3 次，位置 [5,12,20]), (3, 出现 1 次，位置 [8])]
机器学习	[(2, 出现 2 次), (3, 出现 5 次)]

核心作用

快速检索：用户输入查询词后，搜索引擎通过词典定位到词语，再通过倒排列表直接获取所有相关文档，避免遍历全部文档。
支持复杂查询：通过对多个词语的倒排列表进行交集（AND）、并集（OR）等运算，实现 “多关键词组合查询”（如 “人工智能 AND 应用”）。

优化方向

压缩存储：倒排列表中的文档 ID 通常按顺序存储，可通过差值编码（如存储相邻 ID 的差值）减少存储空间。
附加信息扩展：除文档 ID 外，可记录词语的TF-IDF 值（词频 - 逆文档频率）、在标题 / 正文中的出现位置等，用于后续排序。

分词（Tokenization）：将文本拆分为 “有意义的单元”

分词是将原始文本（句子、段落）拆分为词语（Term） 的过程，是构建倒排索引的前提。不同语言的分词难度差异显著。

英文分词：基于分隔符的简单处理

特点：英文以空格、标点符号作为词语的天然分隔符（如 “Hello world!” 可直接拆分为 “Hello” 和 “world”）。
额外处理：
- 词干提取（Stemming）：将词语还原为词根（如 “running”→“run”，“cars”→“car”），确保不同变形的词被视为同一概念。
- 大小写归一化：将 “Hello” 和 “hello” 统一为小写，避免重复索引。

中文分词：无天然分隔符的挑战

难点：中文以字为基本单位，词语间无空格（如 “我爱中国” 需拆分为 “我”“爱”“中国”），且存在歧义（如 “乒乓球拍卖完了” 可拆分为 “乒乓球 / 拍卖 / 完了” 或 “乒乓球拍 / 卖 / 完了”）。
常用方法：
- 词典匹配：基于预设词典（如《现代汉语词典》），采用正向 / 逆向最大匹配法拆分词语。
- 机器学习：通过模型（如 CRF、BERT）学习词语边界规律，处理未登录词（如网络新词 “内卷”“躺平”）。
工具示例：结巴分词（Jieba）、HanLP 等，支持精确模式、全模式等多种拆分策略。

停止词（Stop Word）：过滤无意义的高频词

停止词是指在文本中频繁出现但无实际检索价值的词语，需要在分词后被过滤，以减少索引体积并提升检索效率。

特点

高频性：在大多数文档中均有出现（如英文的 “the”“and”，中文的 “的”“在”）。
低区分度：无法帮助区分文档内容（如包含 “的” 的文档可能涉及任何主题）。

处理方式

预定义停止词表：搜索引擎会维护一个停止词列表，分词后自动剔除列表中的词语。
动态过滤：通过计算词语的文档频率（DF），自动过滤出现频率过高（如覆盖 90% 以上文档）的词语。

例外情况

部分场景下停止词可能有意义，如精确匹配短语 “the who”（乐队名称）时，“the” 不能被过滤。因此，现代搜索引擎会根据查询上下文动态调整停止词策略。

排序（Ranking）：让最相关的结果排在前面

当查询词匹配到多个文档时，搜索引擎需要通过排序算法确定文档的相关性优先级，确保用户最可能需要的结果出现在前面。

核心排序依据

词频（TF）：词语在文档中出现的次数（出现越频繁，可能越相关）。
逆文档频率（IDF）：包含该词语的文档总数的倒数（词语越稀有，区分度越高，如 “量子计算” 比 “计算机” 的 IDF 更高）。
位置权重：词语出现在标题中的文档比出现在正文的文档更相关；出现在开头的比出现在结尾的更相关。
文档质量：基于页面点击率（CTR）、外部链接数量（如 PageRank 算法）等评估文档的权威性。

经典算法

TF-IDF：通过 “词频 × 逆文档频率” 计算词语对文档的重要性，综合多个词语的得分排序。
BM25：在 TF-IDF 基础上优化，考虑文档长度对相关性的影响（短文档中出现关键词更有价值）。
机器学习排序（Learning to Rank）：通过训练模型（如 XGBoost、神经网络），融合词频、位置、用户行为等多维度特征，预测文档相关性

欢迎关注我的其它发布渠道