小菜鸟

查看MySql操作日志

发表于 2021-03-15 更新于 2025-08-16 分类于 MySQL 阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

MySQL 操作日志查看与数据恢复：从日志分析到误操作修复

当遇到数据不一致、疑似误删等问题时，MySQL 的二进制日志（binlog）是关键的排查与恢复依据。本文详细介绍如何通过 binlog 查看操作记录、定位误操作，并通过日志进行数据恢复。

二进制日志（binlog）的基本概念

二进制日志（binlog）是 MySQL 记录所有数据变更操作（INSERT/UPDATE/DELETE、CREATE/ALTER 等）的日志文件，不记录查询操作（SELECT）。其核心作用包括：

主从复制（Slave 通过 binlog 同步 Master 数据）。
数据恢复（通过回放 binlog 恢复误操作前的状态）。
审计追踪（记录所有数据变更的时间、用户、操作内容）。

查看 binlog 相关配置

确认 binlog 是否开启

1 2	-- 查看 binlog 启用状态（ON 为开启，OFF 为关闭） show variables like 'log_bin';

若未开启（log_bin = OFF），则无法通过 binlog 追溯操作，需在 my.cnf 中配置开启（重启生效）：

1
2
3

[mysqld]
log_bin = mysql-bin  # 日志文件名前缀（如 mysql-bin.000001）
server-id = 1  # 必须配置，主从复制和 binlog 依赖唯一 server-id

查看当前 binlog 信息

阅读全文 »

log4j2配置

发表于 2021-03-15 更新于 2025-08-22 分类于日志阅读次数： Valine：
本文字数： 9.2k 阅读时长 ≈ 8 分钟

Log4j2 配置详解：从基础到实战的完整指南

Log4j2 作为主流的日志实现框架，以其高性能、灵活的配置和丰富的功能（如异步日志、动态配置）被广泛应用。其配置文件通过 XML、JSON 或 YAML 定义日志的输出目的地、格式、滚动策略等。本文基于 XML 配置格式，详细解析 Log4j2 的配置结构与核心功能。

Log4j2 配置文件基本结构

Log4j2 配置文件的根元素为<Configuration>，包含两大核心子元素：<Appenders>（日志输出目的地）和<Loggers>（日志器，控制日志流向）。基本结构如下：

<?xml version="1.0" encoding="UTF-8"?>
<!-- status：Log4j2自身日志级别（如WARN，避免过多内部日志）；monitorInterval：自动检测配置文件变更的间隔（秒） -->
<Configuration status="WARN" monitorInterval="30">
    <!-- 日志输出目的地集合 -->
    <Appenders>
        <!-- 具体的Appender（如控制台、文件、滚动文件等） -->
        <Appender name="控制台" ...>
            <!-- 过滤器（可选） -->
            <Filters>...</Filters>
            <!-- 日志格式（必填） -->
            <PatternLayout .../>
            <!-- 滚动策略（仅滚动文件Appender需要） -->
            <Policies>...</Policies>
            <!-- 滚动规则（仅滚动文件Appender需要） -->
            <DefaultRolloverStrategy .../>
        </Appender>
    </Appenders>

    <!-- 日志器集合 -->
    <Loggers>
        <!-- 特定类/包的日志器 -->
        <Logger name="com.example" level="INFO" additivity="false">
            <AppenderRef ref="控制台"/> <!-- 关联Appender -->
        </Logger>
        <!-- 根日志器（默认日志器） -->
        <Root level="INFO">
            <AppenderRef ref="控制台"/>
        </Root>
    </Loggers>
</Configuration>

Appenders：日志输出目的地

<Appenders>定义日志的输出位置（如控制台、文件），每个<Appender>需指定name（唯一标识）和具体类型（如Console、File、RollingFile）。

阅读全文 »

flume拓扑结构

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 5.9k 阅读时长 ≈ 5 分钟

flume拓扑结构详解：从简单串联到复杂聚合的完整指南

Flume 作为分布式数据采集工具，其拓扑结构直接决定了数据流转的效率、可靠性和扩展性。官网定义了三种核心拓扑结构：简单串联、复制与多路复用、聚合，分别适用于不同的业务场景。本文将深入解析每种拓扑的原理、配置方法及适用场景，帮助你根据需求设计最优的数据采集链路。

拓扑结构概述

Flume 拓扑结构通过 Agent 串联、组件复用 和 流量分配 实现数据的灵活流转。核心组件关系如下：

Agent：Flume 的基本单位，包含 Source、Channel、Sink；
数据流：数据从 Source 产生，经 Channel 缓冲，由 Sink 发送到下一个目的地（可以是另一个 Agent 的 Source 或存储系统）。

三种拓扑结构的核心差异在于 Agent 之间的连接方式 和 数据分配策略。

简单串联

数据从第一个 Agent 的 Source 流入，经 Sink 发送到第二个 Agent 的 Source，依次传递，最终写入目标存储（如 HDFS、Kafka）。

适用场景

跨网络数据传输：当数据源与目标存储不在同一网络（如边缘节点到中心集群），通过多 Agent 转发跨越网络边界；
分步处理：每级 Agent 负责不同的数据处理（如 Agent1 采集、Agent2 清洗、Agent3 存储）。

阅读全文 »

flume扩展

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 8.1k 阅读时长 ≈ 7 分钟

flume扩展实战：自定义拦截器、Source 与 Sink 全指南

Flume 内置的组件虽然能满足大部分场景，但在复杂业务需求下（如特殊格式数据采集、定制化数据清洗），需要通过自定义组件扩展其功能。本文将详细讲解如何自定义 Flume 拦截器、Source 和 Sink，从代码实现到配置部署，带你掌握 Flume 扩展的核心技巧。

扩展基础：开发环境与依赖

自定义 Flume 组件需基于 Flume 核心 API 开发，需提前准备：

依赖配置

在 pom.xml 中添加 Flume 核心依赖（以 1.9.0 为例）：

<dependency>  
    <groupId>org.apache.flume</groupId>  
    <artifactId>flume-ng-core</artifactId>  
    <version>1.9.0</version>  
    <scope>provided</scope>  <!-- 运行时由 Flume 环境提供 -->  
</dependency>

核心接口

Flume 扩展的核心是实现官方定义的接口，各组件对应的接口如下：

组件类型	需实现的接口 / 继承的类	核心方法
拦截器	`org.apache.flume.interceptor.Interceptor`	`intercept(Event)` 处理单个事件
Source	继承 `AbstractSource`，实现 `PollableSource`	`process()` 产生并发送事件
Sink	继承 `AbstractSink`，实现 `Configurable`	`process()` 从 Channel 消费事件

实战一：自定义拦截器（Interceptor）

拦截器用于在数据从 Source 到 Channel 前对 Event 进行加工（如添加元数据、过滤无效数据）。以下案例实现一个按内容分类的拦截器，为不同类型的 Event 添加 type 头信息。

阅读全文 »

接收处理器

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 4.6k 阅读时长 ≈ 4 分钟

flume接收处理器：构建高可用与高性能的数据链路

在大规模数据采集场景中，单点故障和性能瓶颈是两大核心挑战。Flume 通过 Sink Group + 接收处理器（Processor） 机制，提供了强大的故障转移（Failover）和负载均衡（Load Balancing）能力，确保数据链路的高可用性和吞吐量。本文将深入解析 Flume 接收处理器的工作原理、配置方法及最佳实践，助你构建健壮的数据采集系统。

接收处理器概述

Flume 的接收处理器负责管理 Sink Group 中多个 Sink 的协作方式，主要解决以下问题：

故障转移：当某个 Sink 不可用时，自动将流量切换到其他健康 Sink，避免数据丢失；
负载均衡：将数据均匀分配到多个 Sink，提升整体吞吐量，避免单点性能瓶颈；
优先级管理：为 Sink 分配不同优先级，优先使用高优先级 Sink 处理数据。

Flume 官方提供三种接收处理器：

处理器类型	核心功能	适用场景
DefaultSinkProcessor	单 Sink 处理（不支持组）	简单场景，无需冗余或负载均衡
FailoverSinkProcessor	故障转移（按优先级切换）	需要高可用性的关键链路
LoadBalancingSinkProcessor	负载均衡（轮询或随机）	需要提升吞吐量的高并发场景

阅读全文 »