小菜鸟

Ribbon简介

发表于 2021-08-23 更新于 2025-08-20 分类于微服务阅读次数： Valine：
本文字数： 4.9k 阅读时长 ≈ 4 分钟

Ribbon：客户端负载均衡的经典实现

Ribbon 是 Netflix 开源的客户端负载均衡工具，主要用于在微服务架构中实现服务间的负载均衡调用。它通过在客户端维护服务实例列表，基于预设的负载均衡算法选择合适的服务实例，从而避免单点故障并优化资源利用率。

Ribbon 的核心定位与价值

Ribbon 是客户端负载均衡器，与 Nginx 等集中式负载均衡不同：

集中式负载均衡（如 Nginx）：请求先经过负载均衡器，再转发到服务实例，负载均衡逻辑独立部署；
客户端负载均衡（Ribbon）：负载均衡逻辑集成在客户端，客户端直接从服务注册中心获取实例列表，自主选择实例发起请求。

Ribbon 的核心价值：

减少中间环节：客户端直接调用服务实例，无需经过额外负载均衡节点，降低网络延迟；
灵活的负载策略：支持轮询、随机、加权等多种负载均衡算法，且允许自定义；
内置容错机制：提供连接超时、重试等配置，提升服务调用的稳定性。

Ribbon 的依赖与配置

1. 引入依赖

根据 Spring Cloud 版本选择对应的 Ribbon 依赖：

Spring Cloud F 版及以上（推荐）：

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-netflix-ribbon</artifactId>
</dependency>

旧版本（如 Edgware 及之前）：

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-ribbon</artifactId>
</dependency>

注意：若项目已引入spring-cloud-starter-openfeign，无需单独引入 Ribbon 依赖，OpenFeign 默认集成了 Ribbon。

2. 启用负载均衡

通过@LoadBalanced注解标记RestTemplate，使其具备负载均衡能力：

阅读全文 »

分析器

发表于 2021-08-21 更新于 2025-08-13 分类于 Lucene 阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

Lucene 分析器（Analyzer）：文本处理的核心组件

Lucene 的分析器（Analyzer）是文本预处理的核心模块，负责将原始文本转换为可用于索引和检索的词项（Term）。它由字符映射器（Character Mapper）、分词器（Tokenizer） 和过滤器（Filter） 三部分组成，三者按顺序协同工作，形成完整的文本处理流水线。

字符映射器（Character Mapper）：文本预处理

字符映射器是分析器的第一个环节，作用于原始文本字符流，在分词前进行字符级别的预处理，确保后续分词和过滤的准确性。

核心功能

字符编码转换：将非 Unicode 编码（如 GBK）的文本转换为 Unicode，避免字符乱码。
非法字符过滤：移除不可打印字符（如控制字符、特殊符号）或自定义过滤规则（如过滤 emoji）。
字符标准化：统一字符形式（如将全角字符 “ａ” 转换为半角 “a”，或将 “℃” 转换为 “c”）。

特点

仅处理单个字符，不涉及词的拆分，是文本处理的 “第一道净化工序”。
Lucene 中通常通过 CharFilter 抽象类实现，常见实现如 HTMLStripCharFilter（移除 HTML 标签）。

分词器（Tokenizer）：文本拆分为词条

分词器是分析器的核心环节，负责将预处理后的字符流拆分为词条（Token）—— 即包含词项文本及附加信息的单元。

核心功能

按规则拆分文本：根据语言特性或自定义规则拆分（如英文按空格 / 标点拆分，中文按词库拆分）。
记录词条元信息：为每个词条添加偏移量（在原始文本中的起止位置）、长度、类型（如 “数字”“英文单词”）等信息，用于后续检索和高亮显示。

常见实现

StandardTokenizer：Lucene 默认分词器，支持多语言，能识别字母、数字、邮箱、IP 等格式，按非字母 / 数字字符拆分。
WhitespaceTokenizer：仅按空格拆分，不处理标点（如 “hello,world” 拆分为 “hello,world”）。
CJKTokenizer：针对中日韩语言的分词器，按双字拆分（如 “中国”→“中国”，“北京”→“北京”）。
自定义分词器：结合词库或机器学习模型（如 Jieba 分词的 Lucene 适配版），提升中文等复杂语言的分词精度。

过滤器（Filter）：词条流的精细化处理

过滤器接收分词器输出的词条流，对每个词条进行二次处理，进一步优化词项质量，使索引更精准、检索更高效。多个过滤器可串联使用，形成 “过滤链”。

阅读全文 »

Lucene的评分公式

发表于 2021-08-21 更新于 2025-08-13 分类于 Lucene 阅读次数： Valine：
本文字数： 1.8k 阅读时长 ≈ 2 分钟

Lucene 评分公式：解析文档相关性的核心逻辑

Lucene 的评分机制是实现 “将最相关的文档排在前面” 的核心，其评分公式综合了多个维度的因子，量化文档与查询的匹配程度。理解这些因子的作用及公式逻辑，有助于优化索引质量和查询效果。

评分公式的核心逻辑

Lucene 的评分公式基于向量空间模型（Vector Space Model），将查询和文档都视为 “词项向量”，通过计算向量相似度（得分）判断相关性。简化后的核心公式如下（完整公式需结合所有因子）：

其中，d 代表文档，q 代表查询，Σ 表示对查询中所有词项的贡献求和。每个因子的具体作用如下：

评分公式的核心因子解析

词频（Term Frequency, TF）

定义：词项在当前文档的某个字段中出现的次数。
计算逻辑：为避免高频词过度主导得分，Lucene 通常采用 tf(t in d) = sqrt(词项在文档中出现的次数) 或 1 + log(词项出现次数)（出现次数为 0 时取 0）。
作用：词项在文档中出现次数越多，说明文档与该词项的关联越紧密（如 “机器学习” 在某篇论文中出现 10 次比出现 1 次更相关）。

逆文档频率（Inverse Document Frequency, IDF）

定义：衡量词项的 “罕见性”—— 词项在整个索引中出现的文档越少（越罕见），IDF 越高。
计算逻辑：

阅读全文 »

Eureka服务发现

发表于 2021-08-20 更新于 2025-08-21 分类于微服务阅读次数： Valine：
本文字数： 4.7k 阅读时长 ≈ 4 分钟

Eureka 服务发现：微服务间通信的核心机制

在微服务架构中，服务发现是实现服务间动态通信的关键。Eureka 不仅提供服务注册功能，还通过 DiscoveryClient 组件让服务消费者能够自动发现注册中心中的可用服务实例，无需硬编码服务地址。本文详细介绍 Eureka 服务发现的实现方式与核心用法。

服务发现的核心作用

服务发现解决了以下问题：

动态地址管理：服务实例的 IP、端口可能动态变化（如扩容、迁移），消费者无需手动更新地址；
负载均衡基础：通过获取服务的多实例列表，消费者可实现简单的负载均衡（如轮询、随机）；
服务可用性校验：结合 Eureka 的健康检查，确保消费者只调用健康的服务实例。

Eureka 服务发现的实现方式

Eureka 服务发现主要通过 DiscoveryClient 接口实现，该接口由 Spring Cloud 提供，封装了与 Eureka Server 交互的细节。

1. 核心依赖

服务消费者需引入 Eureka Client 依赖（与服务注册的依赖一致）：

阅读全文 »

Eureka架构介绍

发表于 2021-08-20 更新于 2025-08-21 分类于微服务阅读次数： Valine：
本文字数： 2.5k 阅读时长 ≈ 2 分钟

Eureka 架构深度解析：基于 AP 原则的服务发现设计

Eureka 作为 Netflix 开源的服务发现组件，其架构设计严格遵循AP 原则（可用性优先，兼顾分区容错性），通过独特的集群模式和自我保护机制，在分布式系统中实现了高可用的服务注册与发现能力。本文将从分布式系统的 CAP 取舍出发，详解 Eureka 的架构设计、核心机制及与 Zookeeper 的本质区别。

分布式系统的 CAP 取舍：为什么 Eureka 选择 AP？

在分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition Tolerance） 三者不可兼得，必须根据业务场景取舍：

一致性（C）：所有节点同时看到相同的数据（强一致性）；
可用性（A）：集群中任一节点故障时，其他节点仍能正常响应请求；
分区容错性（P）：网络分区（部分节点通信中断）时，系统仍能继续工作（分布式系统必选）。

因此，分布式系统只能在 CP（优先一致性）或 AP（优先可用性）中选择：

CP 系统：保证数据一致，但网络分区时可能暂时不可用（如 Zookeeper）；
AP 系统：保证服务可用，但数据可能短暂不一致（最终一致）（如 Eureka）。

阅读全文 »