小菜鸟

安全模式

发表于 2020-10-27 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

Hadoop安全模式详解

安全模式是 Hadoop HDFS 中的一种特殊运行状态，主要用于保障 NameNode 启动过程中文件系统元数据的一致性和完整性，同时确保数据块的可用性。以下从安全模式的触发时机、核心作用、工作流程、退出条件及相关操作等方面进行详细说明。

一、安全模式的触发时机

安全模式主要在以下场景下触发：

NameNode 启动初期：这是最常见的触发场景。当 NameNode 启动时，会自动进入安全模式，直到完成元数据加载、数据块状态校验等初始化操作后才退出。
手动触发：管理员可通过 HDFS 命令手动将集群切换到安全模式，用于集群维护、故障排查等场景（例如执行hdfs dfsadmin -safemode enter命令）。

二、安全模式的核心作用

元数据一致性保障：NameNode 启动时需将持久化存储的元数据（fsimage）加载到内存，并 replay 编辑日志（edits）中的操作，以恢复最新的文件系统状态。在此过程中，元数据尚未完全就绪，安全模式可防止客户端对文件系统进行修改操作，避免元数据损坏。
数据块可用性校验：NameNode 启动后，需要收集各 DataNode 上报的数据块信息（包括数据块的位置、副本数量等），以确认数据块的完整性和可用性。安全模式下，NameNode 会统计数据块的副本状态，确保关键数据块满足最小副本要求，为后续的正常读写提供基础。

阅读全文 »

ELK

发表于 2020-10-26 更新于 2025-08-23 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 6.7k 阅读时长 ≈ 6 分钟

ELK 日志管理系统：从架构到实战配置详解

在分布式系统中，日志分散在多个服务器节点，传统的单机日志查询方式效率极低。ELK（Elasticsearch、Logstash、Kibana）作为开源日志管理的标杆方案，通过日志采集、处理、存储、检索和可视化的全链路能力，实现了分布式日志的集中化管理。本文将深入解析 ELK 的架构、核心组件功能及实战配置。

ELK 架构与核心组件

ELK 并非单一工具，而是由三个互补组件构成的生态系统，形成 “日志采集→处理→存储→可视化” 的完整闭环：

（ELK 核心链路：日志源 → Logstash/Beats → Elasticsearch → Kibana）

1. Elasticsearch：分布式搜索与存储引擎

核心定位：日志的存储中心和检索引擎，基于 Lucene 实现分布式全文搜索。
关键特性：

分布式架构：自动分片（Shard）和副本（Replica），支持水平扩展和高可用；
实时索引：日志写入后秒级可查，支持复杂的聚合分析（如按时间统计错误数）；
RESTful API：通过 HTTP+JSON 接口操作数据，易用性高；
动态映射：自动识别日志字段类型（如 IP、日期），无需预定义表结构。

2. Logstash：日志采集与处理管道

核心定位：日志的 “搬运工” 和 “清洁工”，负责从多源采集日志、过滤清洗、格式化后转发。
核心组件：

Input：日志输入源（文件、Kafka、数据库、syslog 等）；
Filter：日志处理层（解析非结构化日志、过滤无用字段、类型转换等）；
Output：日志输出目的地（Elasticsearch、Kafka、HDFS 等）。
特点：支持 200 + 插件，灵活性强，但资源消耗较高（适合后端服务器部署）。

3. Kibana：日志可视化与分析平台

核心定位：ELK 的 “前端界面”，提供日志检索、仪表盘、报表等可视化功能。
核心功能：

Discover：实时搜索日志，支持模糊匹配、字段筛选；
Visualize：生成柱状图、折线图、地图等可视化图表；
Dashboard：组合多个图表，构建业务监控面板（如系统错误率趋势、接口响应时间分布）；
Alerting：设置日志阈值告警（如 ERROR 日志 5 分钟内超过 100 条触发告警）。

ELK 核心组件配置实战

1. Elasticsearch 配置（`elasticsearch.yml`）

核心配置集中在集群管理、数据存储和网络设置：

阅读全文 »

Hadoop RPC

发表于 2020-10-24 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Hadoop RPC深度解析：分布式通信的核心机制

在分布式系统中，节点间的高效通信是核心需求。Hadoop 作为典型的分布式系统，其内部组件（如 NameNode 与 DataNode、ResourceManager 与 NodeManager）的通信依赖于 Hadoop RPC（Remote Procedure Call，远程过程调用）机制。Hadoop RPC 通过四层架构设计，实现了高效、可靠的跨节点函数调用，本文将深入解析其组成结构、实现原理及核心流程。

Hadoop RPC 的核心目标

在分布式集群中，Hadoop 各组件（如 HDFS 的 NameNode 与 DataNode、YARN 的 ResourceManager 与 NodeManager）需要频繁交互（如心跳检测、元数据同步、任务调度）。Hadoop RPC 的设计目标是：

高效性：低延迟、高吞吐量，支持大规模集群的高频通信；
可靠性：确保消息不丢失、不损坏，支持异常重试；
易用性：屏蔽网络通信细节，让开发者像调用本地函数一样调用远程方法；
兼容性：支持跨版本、跨语言（主要是 Java）的通信需求。

Hadoop RPC 的四层架构

Hadoop RPC 采用分层设计，从下到上分为 序列化层、函数调用层、网络传输层 和 服务器端处理框架，每层专注于特定功能，共同支撑远程调用流程。

graph TD
    A[应用层
远程方法调用] --> B[函数调用层
反射+动态代理]
    B --> C[序列化层
对象-字节流转换]
    C --> D[网络传输层
TCP/IP 通信]
    D --> E[服务器端处理框架
Reactor 事件驱动]
    note[四层协同 将本地方法调用转为跨节点通信]

一、序列化层：对象与字节流的转换

序列化层是 RPC 通信的基础，负责将 Java 对象（如方法参数、返回值）转换为可通过网络传输的字节流，以及将接收的字节流反序列化为对象。

阅读全文 »

mybatis之缓存

发表于 2020-10-23 更新于 2025-08-25 分类于 mybatis 阅读次数： Valine：
本文字数： 14k 阅读时长 ≈ 13 分钟

MyBatis 缓存机制深度解析：从 Cache 接口到装饰器模式

MyBatis 缓存是提升查询性能的核心组件，通过减少重复数据库访问，大幅降低系统开销。其缓存体系基于 Cache 接口构建，采用 装饰器模式 实现 “基础存储 + 功能增强” 的灵活扩展，同时通过 CacheKey 保证缓存键的唯一性。从 “缓存体系架构→Cache 接口与实现→CacheKey 生成逻辑→实战配置” 四个维度，彻底拆解 MyBatis 缓存的底层机制。

MyBatis 缓存体系总览

MyBatis 提供 两级缓存，本质上均基于 Cache 接口实现，核心区别在于 “作用范围” 和 “生命周期”：

缓存级别	作用范围	生命周期	默认状态	底层核心实现	典型场景
一级缓存	SqlSession 内部（会话级）	随 SqlSession 关闭而销毁	开启	`PerpetualCache`（HashMap）	同一会话内的重复查询（如单事务内多次查同一数据）
二级缓存	Mapper namespace（接口级）	随 MyBatis 应用生命周期	关闭	`PerpetualCache + 装饰器`（如 LRU 淘汰、序列化）	跨会话的重复查询（如多用户查询同一商品信息）

核心设计思想：装饰器模式

MyBatis 缓存的灵活性源于 装饰器模式：

基础组件：PerpetualCache 实现最基本的缓存存储（基于 HashMap），是所有缓存的 “底层容器”；
装饰器组件：如 LruCache（LRU 淘汰）、BlockingCache（并发控制）、SerializedCache（序列化）等，通过包装 PerpetualCache 或其他装饰器，动态增强缓存功能；
组合能力：可按需组合多个装饰器（如 “LRU 淘汰 + 序列化 + 日志”），满足复杂业务需求。

Cache 接口：缓存的标准定义

Cache 接口是 MyBatis 缓存的顶层规范，定义了缓存的 7 个核心行为，所有缓存实现类均需遵守该接口：

阅读全文 »

hadoop版本

发表于 2020-10-22 更新于 2025-09-19 分类于 hadoop 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Hadoop 1.x 与 2.x 版本对比：架构演进与核心差异解析

Hadoop 从 1.x 到 2.x 的演进是一次架构级别的重大升级，核心目标是解决 1.x 版本的性能瓶颈和单点问题。本文将详细对比两个版本的组成结构、核心缺陷与改进，重点解析 2.x 引入的 YARN 架构如何重塑 Hadoop 的资源管理与任务调度能力。

hadoop1.x版本：基础架构与核心缺陷

Hadoop 1.x 是 Hadoop 的早期版本，奠定了分布式存储与计算的基础，但架构设计存在明显局限性。

1.x 核心组成

Hadoop 1.x 由三个核心模块构成，形成 “存储 - 计算 - 工具” 的基础架构：

Common：提供 Hadoop 各组件通用的工具类（如 I/O 操作、配置管理、安全机制等），是其他模块的基础依赖。
HDFS（Hadoop Distributed File System）：分布式文件系统，负责海量数据的存储，核心组件为 NameNode（主节点）和 DataNode（从节点）。
MapReduce：集 “计算框架” 与 “资源调度” 于一体的模块，负责分布式任务的拆分、并行执行和结果聚合。

1.x 架构缺陷：为何需要升级？

Hadoop 1.x 的 MapReduce 架构存在三大核心问题，严重限制了集群的扩展性和性能：

1. JobTracker 成为系统瓶颈

在 1.x 中，JobTracker 同时承担两大核心职责：

资源管理：负责集群中 CPU、内存等资源的分配与监控；
作业控制：负责 MapReduce 任务的拆分（Map/Reduce 阶段）、任务调度、进度跟踪和容错。

这种 “一身二任” 的设计导致 JobTracker 成为集群的性能瓶颈，尤其在大规模集群（数千节点）中，JobTracker 的内存和 CPU 压力极大，难以支撑高并发任务。

阅读全文 »

Hadoop安全模式详解

一、安全模式的触发时机

二、安全模式的核心作用

ELK 日志管理系统：从架构到实战配置详解

ELK 架构与核心组件

1. Elasticsearch：分布式搜索与存储引擎

2. Logstash：日志采集与处理管道

3. Kibana：日志可视化与分析平台

ELK 核心组件配置实战

1. Elasticsearch 配置（elasticsearch.yml）

Hadoop RPC深度解析：分布式通信的核心机制

Hadoop RPC 的核心目标

Hadoop RPC 的四层架构

一、序列化层：对象与字节流的转换

MyBatis 缓存机制深度解析：从 Cache 接口到装饰器模式

MyBatis 缓存体系总览

核心设计思想：装饰器模式

Cache 接口：缓存的标准定义

Hadoop 1.x 与 2.x 版本对比：架构演进与核心差异解析

hadoop1.x版本：基础架构与核心缺陷

1.x 核心组成

1.x 架构缺陷：为何需要升级？

1. JobTracker 成为系统瓶颈

1. Elasticsearch 配置（`elasticsearch.yml`）