小菜鸟

GFS

发表于 2020-09-14 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

Google GFS 深度解析：分布式文件系统的开山之作

Google 文件系统（GFS）作为分布式存储领域的里程碑技术，其设计理念深刻影响了 HDFS、TFS 等后续系统。GFS 专为大规模数据处理场景优化，通过创新的架构设计和租约机制，解决了海量数据存储的可靠性、扩展性和性能难题。本文将从系统架构、核心组件、租约机制及技术特点等方面全面解析 GFS，揭示其成为分布式文件系统标杆的底层逻辑。

GFS 核心定位与设计目标

GFS 是 Google 为内部大规模数据处理场景（如搜索索引、日志分析、机器学习训练）设计的分布式文件系统，核心目标包括：

海量存储：支持 PB 级数据存储，单集群可容纳数万台服务器；
高容错性：基于普通硬件构建，通过多副本和故障自动恢复确保数据不丢失；
高吞吐量：优化批量读写性能，满足大数据处理场景的高 IO 需求；
简单实用：针对 Google 内部应用特点定制，放弃部分 POSIX 接口以换取更高效率。

GFS 系统架构：三角色的协同设计

GFS 采用 主从架构（Master-Slave），由三种核心角色构成：主控服务器（GFS Master）、数据块服务器（ChunkServer） 和 客户端（Client）。三者分工明确，通过协同工作实现分布式文件存储与访问。

graph TD
    A[客户端 Client
应用程序接口] -->|1. 获取元数据| B[主控服务器 Master
元数据管理]
    A -->|2. 直接读写数据| C[数据块服务器 ChunkServer1] & D[ChunkServer2] & E[ChunkServer3]
    B -->|3. 心跳/元数据同步| C & D & E
    C & D & E -->|存储数据| F[本地磁盘
Chunk 副本]
    note[核心思想 Master 管元数据,ChunkServer 存数据,Client 直接访问数据节点]

核心角色详解

1. 主控服务器（GFS Master）

Master 是 GFS 的 “大脑”，负责全局元数据管理和系统协调，但不直接参与数据读写，以避免成为性能瓶颈。

阅读全文 »

未命名

发表于 2020-09-08 更新于 2025-08-12 分类于 kafka 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

Kafka 控制器（Controller）详解：集群的 “大脑”

Kafka 控制器是集群的核心协调者，负责管理分区状态、副本同步、代理（Broker）上下线、主题创建 / 删除等关键操作。它通过 ZooKeeper 实现集群元数据的管理与同步，确保整个 Kafka 集群的一致性和可用性。本文将深入解析控制器的核心功能、初始化过程、选举机制及关键管理流程。

控制器的核心角色

控制器是 Kafka 集群中唯一的 Leader 协调节点，与分区的 Leader 副本（负责单分区读写）不同，它统筹整个集群的全局状态。其核心职责包括：

分区与副本管理：
- 监控分区状态（如 Online/Offline），在 Leader 故障时触发重新选举。
- 管理副本同步（ISR 列表维护），确保数据可靠性。
代理 lifecycle 管理：
- 处理 Broker 上线 / 下线事件，更新集群元数据。
- 在 Broker 故障时触发故障转移（Failover），重新分配分区所有权。
主题操作协调：
- 处理主题创建、删除、分区扩展等请求。
- 确保主题配置在集群中同步。
元数据同步：
- 向所有 Broker 广播元数据更新（如分区 Leader 变更、新 Broker 加入）。

核心概念与术语

理解控制器需先掌握以下关键概念：

术语	定义
controller_epoch	控制器世代号，记录控制器变更次数（初始为 0，每次选举新控制器加 1），用于区分过期请求。
leader_epoch	分区 Leader 世代号，记录单分区 Leader 变更次数，确保请求顺序性。
AR（Assigned Replicas）	分区的所有副本集合（包含 Leader 和 Follower）。
ISR（In-Sync Replicas）	与 Leader 保持同步的副本集合，只有 ISR 中的副本可被选为新 Leader。
优先副本（Preferred Replica）	AR 列表中的第一个副本，理想情况下应作为分区 Leader，用于负载均衡。
状态机	控制器通过 `PartitionStateMachine` 和 `ReplicaStateMachine` 管理分区和副本的状态变迁。

控制器初始化过程

每个 Broker 启动时都会实例化 KafkaController 对象，但最终只有一个会成为 Leader 控制器。初始化步骤如下：

阅读全文 »

tomcat之web请求处理

发表于 2020-09-06 更新于 2025-08-01 分类于 tomcat 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

Tomcat Web 请求处理流程详解

Tomcat 作为 Servlet 容器，其核心功能是接收并处理客户端的 HTTP 请求。从请求进入服务器到响应返回客户端，涉及多个组件的协同工作。本文将详细解析 Tomcat 处理 Web 请求的完整流程，重点关注核心组件的交互逻辑。

请求处理总体流程

Tomcat 处理请求的入口是 org.apache.catalina.connector.CoyoteAdapter.service() 方法，该方法串联起从协议解析到 Servlet 执行的全流程。整体可分为以下步骤：

请求接收与协议适配
客户端请求通过 Connector 进入 Tomcat，Connector 根据协议类型（如 HTTP/1.1、AJP）创建对应的 org.apache.coyote.Request（Coyote 请求对象）和 org.apache.coyote.Response（Coyote 响应对象），并转换为 Tomcat 内部的 org.apache.catalina.connector.Request 和 org.apache.catalina.connector.Response。
容器层级匹配
- Engine：根据请求的主机名（如 localhost）匹配对应的虚拟主机（Host）。
- Host：根据请求路径（如 /myapp）匹配对应的 Web 应用（Context）。
- Context：通过 URL 映射找到对应的 Servlet（由 StandardWrapper 管理）。
请求处理与响应生成
- 执行认证、授权等预处理。
- 调用目标 Servlet 的 service() 方法处理请求。
- 将处理结果通过 Response 对象封装，反向传递给客户端。
资源清理
- 同步请求：关闭输入流和输出流。
- 异步请求：触发 ReadListener 事件，处理剩余数据。

HTTP Connector 请求处理细节

Connector 是请求进入 Tomcat 的第一道关卡，负责底层网络通信和协议解析。以 HTTP 协议的 NIO 连接器为例，其处理流程如下：

1. 连接器启动与端口监听

当 Connector 启动时，会初始化并启动 Endpoint（如 NioEndpoint），主要包含以下组件：

阅读全文 »

业务知识

发表于 2020-09-05 更新于 2025-08-02 分类于广告阅读次数： Valine：
本文字数： 3.8k 阅读时长 ≈ 3 分钟

广告行业核心业务知识：平台、结算与运营体系详解

广告行业涉及复杂的角色分工、技术体系和业务模式，从广告主的投放需求到用户的最终触达，需经过多个平台协同与多层级的业务处理。本文系统梳理广告行业的核心业务知识，包括关键平台类型、结算方式、数据体系及广告形式等，帮助理解广告业务的完整生态。

核心平台类型（供需两端的连接枢纽）

广告行业的平台体系围绕 “需求方（广告主）” 和 “供应方（媒体 / 流量方）” 展开，各平台承担不同角色，共同完成广告的投放与变现。

1. SSP（供应方平台，Supply Side Platform）

定位：面向媒体（流量供应方），帮助媒体管理广告资源并实现收益最大化。
核心功能：
- 整合媒体的广告位资源（如 App 开屏、信息流、网站横幅），统一管理库存。
- 对接 ADX 或直接对接 DSP，将流量推向需求方，参与竞价。
- 提供定价策略（如底价设置）、流量筛选（如过滤低质请求）等功能，优化变现效率。
典型用户：App 开发者、网站站长、短视频平台等拥有流量的主体。

2. DSP（需求方平台，Demand Side Platform）

定位：面向广告主（需求方），帮助广告主自动化投放广告并优化效果。
核心功能：
- 接收广告主的投放需求（预算、定向条件、出价方式等）。
- 对接 ADX 或直接对接 SSP，获取流量并参与实时竞价（RTB）。
- 通过算法优化投放策略，如根据用户标签选择目标人群，提升转化效率。
典型用户：电商平台、游戏厂商、教育机构等有推广需求的广告主。

3. ADX（广告交易平台，Ad Exchange）

定位：连接 DSP 与 SSP 的中间交易市场，是广告流量的 “拍卖场”。
核心功能：
- 接收 SSP 推送的流量请求，将用户标签、广告位信息等传递给 DSP。
- 组织实时竞价（RTB），根据 DSP 的出价（价高者得）或其他规则（如广告质量）选择获胜者。
- 负责创意审核、流量过滤（如设置底价，低于底价的出价不参与竞价），保障交易合规性。
特点：中立性平台，不直接参与供需双方的利益分配，仅提供交易基础设施。

阅读全文 »

tomcat之web应用加载

发表于 2020-09-05 更新于 2025-08-01 分类于 tomcat 阅读次数： Valine：
本文字数： 5k 阅读时长 ≈ 5 分钟

Tomcat Web 应用加载机制详解

Tomcat 作为主流的 Servlet 容器，其 Web 应用的加载过程是核心功能之一。这一过程主要由 StandardHost、HostConfig、StandardContext、ContextConfig、StandardWrapper 五个核心类协同完成，涵盖了从应用部署到初始化的全流程。本文将详细解析这一机制。

核心组件角色概述

在 Web 应用加载过程中，五个核心类的职责如下：

组件类	核心职责
StandardHost	作为虚拟主机容器，管理多个 Web 应用（StandardContext），提供加载入口。
HostConfig	监听 Host 生命周期事件，负责自动扫描部署目录、部署 / 卸载 Web 应用。
StandardContext	代表一个 Web 应用，负责应用的初始化、启动及资源管理。
ContextConfig	监听 StandardContext 事件，解析配置文件（如 web.xml），初始化 Servlet、Filter 等。
StandardWrapper	管理单个 Servlet 实例，负责 Servlet 的加载、初始化及生命周期控制。

StandardHost：Web 应用加载的入口

StandardHost 是虚拟主机的实现类，作为 Web 应用（StandardContext）的父容器，提供了两种 Web 应用加载入口：

1. 基于 server.xml 配置的静态加载

当在 server.xml 的 <Host> 标签中直接配置 <Context> 子元素时，Tomcat 会在启动时将其作为子容器添加到 Host 并启动。

配置示例：

<Host name="localhost" appBase="webapps" unpackWARs="true" autoDeploy="true">
  <!-- docBase：Web应用根目录路径；path：访问路径 -->
  <Context docBase="myApp" path="/myApp" reloadable="true"/>
</Host>

特点：

需手动修改 server.xml，不适合动态部署。
reloadable="true" 表示当应用类或配置文件变化时，自动重新加载。

2. StandardHost 启动加载流程

StandardHost 的启动过程（startInternal() 方法）是 Web 应用加载的触发点，关键步骤包括：

阅读全文 »