小菜鸟

MySQL安装

发表于 2020-10-30 更新于 2025-08-15 分类于 MySQL 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

MySQL 全平台安装指南（Mac/Linux/Windows）

MySQL 是目前最流行的关系型数据库之一，其安装过程因操作系统而异。本文详细介绍 Mac、Linux、Windows 三大平台的安装步骤、配置方法及常用命令，帮助你快速搭建 MySQL 环境。

Mac 平台安装（Homebrew 方式）

Mac 推荐使用 Homebrew 安装，步骤简单且便于管理。

安装 MySQL

# 安装最新版本
brew install mysql

# 如需指定版本（如 8.0）
brew install mysql@8.0

启动 MySQL 服务

# 启动服务（后台运行）
mysql.server start

# 停止服务
mysql.server stop

# 重启服务
mysql.server restart

安全配置（首次安装必做）

阅读全文 »

spark简介

发表于 2020-10-28 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

spark全面解析：从核心优势到架构与运行模式

Apache Spark 作为大数据领域的主流计算引擎，以其 “快速、通用” 的特性颠覆了传统 MapReduce 的计算范式，成为企业级大数据分析的首选工具。本文从 Spark 的核心优势出发，深入解析其架构组成、核心概念及运行模式，帮助读者建立对 Spark 的系统性认知。

Spark 核心优势：为何超越 MapReduce？

Spark 相较于 Hadoop MapReduce 的革命性提升，源于对大数据计算痛点的精准解决，核心优势体现在以下四方面：

中间结果内存存储，减少磁盘 IO

MapReduce 的瓶颈：每轮 Map 任务的中间结果必须写入 HDFS 磁盘，Reduce 任务需从磁盘读取，大量磁盘 IO 导致效率低下。
Spark 的优化：将中间结果存储在内存中（仅在内存不足时写入磁盘），通过 DAG（有向无环图）引擎串联多阶段任务，避免重复读写 HDFS。例如，一个包含 3 个阶段的任务，MapReduce 需要写 2 次磁盘，而 Spark 可全程内存流转，效率提升 10~100 倍。

高效的数据格式与内存布局

MapReduce 的局限：采用 “Schema On Read” 模式，每次读取数据需重新解析格式，开销大。
Spark 的优化：
- 抽象出 RDD（弹性分布式数据集），支持粗粒度写、细粒度读，减少格式解析开销；
- 允许用户自定义数据分区策略，将关联数据放入同一分区，降低 Shuffle 成本。

灵活的执行策略，避免不必要排序

MapReduce 的强制排序：Reduce 阶段默认对数据排序，即使业务无需排序也会产生额外开销。
Spark 的优化：支持基于 Hash 的分布式聚合（如 groupByKey），无需排序，适合非排序场景（如计数、求和）；通过 DAG 调度器动态优化执行计划，合并相邻任务。

轻量级任务调度，降低启动开销

MapReduce 的进程级调度：每个任务启动独立 JVM 进程，启动和切换成本高，适合长任务（小时级）。
Spark 的线程级调度：基于 AKKA 事件驱动框架，通过线程池复用线程，任务启动毫秒级响应，支持短任务（分钟级甚至秒级）和迭代计算（如机器学习）。

Spark 生态圈与核心组件

Spark 不仅是一个计算引擎，更是一个完整的大数据处理生态系统，涵盖批处理、流处理、SQL 分析、机器学习等场景。

阅读全文 »

安全模式

发表于 2020-10-27 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 2.3k 阅读时长 ≈ 2 分钟

Hadoop安全模式详解

安全模式是 Hadoop HDFS 中的一种特殊运行状态，主要用于保障 NameNode 启动过程中文件系统元数据的一致性和完整性，同时确保数据块的可用性。以下从安全模式的触发时机、核心作用、工作流程、退出条件及相关操作等方面进行详细说明。

一、安全模式的触发时机

安全模式主要在以下场景下触发：

NameNode 启动初期：这是最常见的触发场景。当 NameNode 启动时，会自动进入安全模式，直到完成元数据加载、数据块状态校验等初始化操作后才退出。
手动触发：管理员可通过 HDFS 命令手动将集群切换到安全模式，用于集群维护、故障排查等场景（例如执行hdfs dfsadmin -safemode enter命令）。

二、安全模式的核心作用

元数据一致性保障：NameNode 启动时需将持久化存储的元数据（fsimage）加载到内存，并 replay 编辑日志（edits）中的操作，以恢复最新的文件系统状态。在此过程中，元数据尚未完全就绪，安全模式可防止客户端对文件系统进行修改操作，避免元数据损坏。
数据块可用性校验：NameNode 启动后，需要收集各 DataNode 上报的数据块信息（包括数据块的位置、副本数量等），以确认数据块的完整性和可用性。安全模式下，NameNode 会统计数据块的副本状态，确保关键数据块满足最小副本要求，为后续的正常读写提供基础。

阅读全文 »

ELK

发表于 2020-10-26 更新于 2025-08-23 分类于 Elasticsearch 阅读次数： Valine：
本文字数： 6.7k 阅读时长 ≈ 6 分钟

ELK 日志管理系统：从架构到实战配置详解

在分布式系统中，日志分散在多个服务器节点，传统的单机日志查询方式效率极低。ELK（Elasticsearch、Logstash、Kibana）作为开源日志管理的标杆方案，通过日志采集、处理、存储、检索和可视化的全链路能力，实现了分布式日志的集中化管理。本文将深入解析 ELK 的架构、核心组件功能及实战配置。

ELK 架构与核心组件

ELK 并非单一工具，而是由三个互补组件构成的生态系统，形成 “日志采集→处理→存储→可视化” 的完整闭环：

（ELK 核心链路：日志源 → Logstash/Beats → Elasticsearch → Kibana）

1. Elasticsearch：分布式搜索与存储引擎

核心定位：日志的存储中心和检索引擎，基于 Lucene 实现分布式全文搜索。
关键特性：

分布式架构：自动分片（Shard）和副本（Replica），支持水平扩展和高可用；
实时索引：日志写入后秒级可查，支持复杂的聚合分析（如按时间统计错误数）；
RESTful API：通过 HTTP+JSON 接口操作数据，易用性高；
动态映射：自动识别日志字段类型（如 IP、日期），无需预定义表结构。

2. Logstash：日志采集与处理管道

核心定位：日志的 “搬运工” 和 “清洁工”，负责从多源采集日志、过滤清洗、格式化后转发。
核心组件：

Input：日志输入源（文件、Kafka、数据库、syslog 等）；
Filter：日志处理层（解析非结构化日志、过滤无用字段、类型转换等）；
Output：日志输出目的地（Elasticsearch、Kafka、HDFS 等）。
特点：支持 200 + 插件，灵活性强，但资源消耗较高（适合后端服务器部署）。

3. Kibana：日志可视化与分析平台

核心定位：ELK 的 “前端界面”，提供日志检索、仪表盘、报表等可视化功能。
核心功能：

Discover：实时搜索日志，支持模糊匹配、字段筛选；
Visualize：生成柱状图、折线图、地图等可视化图表；
Dashboard：组合多个图表，构建业务监控面板（如系统错误率趋势、接口响应时间分布）；
Alerting：设置日志阈值告警（如 ERROR 日志 5 分钟内超过 100 条触发告警）。

ELK 核心组件配置实战

1. Elasticsearch 配置（`elasticsearch.yml`）

核心配置集中在集群管理、数据存储和网络设置：

阅读全文 »

Hadoop RPC

发表于 2020-10-24 更新于 2025-07-23 分类于 hadoop 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Hadoop RPC深度解析：分布式通信的核心机制

在分布式系统中，节点间的高效通信是核心需求。Hadoop 作为典型的分布式系统，其内部组件（如 NameNode 与 DataNode、ResourceManager 与 NodeManager）的通信依赖于 Hadoop RPC（Remote Procedure Call，远程过程调用）机制。Hadoop RPC 通过四层架构设计，实现了高效、可靠的跨节点函数调用，本文将深入解析其组成结构、实现原理及核心流程。

Hadoop RPC 的核心目标

在分布式集群中，Hadoop 各组件（如 HDFS 的 NameNode 与 DataNode、YARN 的 ResourceManager 与 NodeManager）需要频繁交互（如心跳检测、元数据同步、任务调度）。Hadoop RPC 的设计目标是：

高效性：低延迟、高吞吐量，支持大规模集群的高频通信；
可靠性：确保消息不丢失、不损坏，支持异常重试；
易用性：屏蔽网络通信细节，让开发者像调用本地函数一样调用远程方法；
兼容性：支持跨版本、跨语言（主要是 Java）的通信需求。

Hadoop RPC 的四层架构

Hadoop RPC 采用分层设计，从下到上分为 序列化层、函数调用层、网络传输层 和 服务器端处理框架，每层专注于特定功能，共同支撑远程调用流程。

graph TD
    A[应用层
远程方法调用] --> B[函数调用层
反射+动态代理]
    B --> C[序列化层
对象-字节流转换]
    C --> D[网络传输层
TCP/IP 通信]
    D --> E[服务器端处理框架
Reactor 事件驱动]
    note[四层协同 将本地方法调用转为跨节点通信]

一、序列化层：对象与字节流的转换

序列化层是 RPC 通信的基础，负责将 Java 对象（如方法参数、返回值）转换为可通过网络传输的字节流，以及将接收的字节流反序列化为对象。

阅读全文 »

MySQL 全平台安装指南（Mac/Linux/Windows）

Mac 平台安装（Homebrew 方式）

安装 MySQL

启动 MySQL 服务

安全配置（首次安装必做）

spark全面解析：从核心优势到架构与运行模式

Spark 核心优势：为何超越 MapReduce？

中间结果内存存储，减少磁盘 IO

高效的数据格式与内存布局

灵活的执行策略，避免不必要排序

轻量级任务调度，降低启动开销

Spark 生态圈与核心组件

Hadoop安全模式详解

一、安全模式的触发时机

二、安全模式的核心作用

ELK 日志管理系统：从架构到实战配置详解

ELK 架构与核心组件

1. Elasticsearch：分布式搜索与存储引擎

2. Logstash：日志采集与处理管道

3. Kibana：日志可视化与分析平台

ELK 核心组件配置实战

1. Elasticsearch 配置（elasticsearch.yml）

Hadoop RPC深度解析：分布式通信的核心机制

Hadoop RPC 的核心目标

Hadoop RPC 的四层架构

一、序列化层：对象与字节流的转换

1. Elasticsearch 配置（`elasticsearch.yml`）