小菜鸟

flume监控文件写入kafka

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 4.8k 阅读时长 ≈ 4 分钟

flume监控文件写入 Kafka 实战：解耦应用与消息队列的最佳实践

在日志采集场景中，直接让应用程序通过 log4j2 写入 Kafka 会导致应用与 Kafka 强耦合（如 Kafka 故障可能影响应用运行）。更优的方案是：应用程序将日志写入本地文件，通过 Flume 监控文件并异步同步到 Kafka，实现 “应用 - 采集 - 存储” 的解耦。本文将详细讲解 Flume 监控文件写入 Kafka 的完整配置流程与关键参数优化。

方案优势：为什么选择 Flume + Kafka？

相比应用直接写入 Kafka，Flume 作为中间层的优势显著：

解耦依赖：应用仅需写本地文件，无需关心 Kafka 集群状态，降低耦合风险；
缓冲削峰：Flume 的 Channel 可暂存数据，避免 Kafka 峰值压力直接传导至应用；
灵活扩展：通过 Flume 拦截器、过滤器等组件，可在写入前对日志进行清洗、转换；
多源适配：Flume 支持监控文件、目录、网络等多种数据源，统一接入 Kafka。

阅读全文 »

flume监控目录文件

发表于 2021-03-14 更新于 2025-08-26 分类于 flume 阅读次数： Valine：
本文字数： 7.8k 阅读时长 ≈ 7 分钟

flume监控目录文件实战：三种 Source 方案对比与配置指南

在实际业务中，监控目录文件变化并实时采集数据是常见需求（如应用日志、业务数据文件等）。Flume 提供了三种主流方案实现目录文件监控，各有优劣。本文将详细讲解 Exec Source、Spool Dir Source 和 Taildir Source 的配置方法、适用场景及核心参数调优，帮你选择最适合的方案。

三种监控方案对比

在开始配置前，先明确三种 Source 的核心差异，便于根据场景选择：

方案	核心原理	数据可靠性	实时性	适用场景	局限性
Exec Source	执行命令（如 `tail -F`）监听文件	低（易丢失）	高	实时跟踪单个追加文件（如日志文件）	进程重启后丢失偏移量，不支持多文件监控
Spool Dir Source	监控目录新增文件，自动读取并标记，且可以做到断点续传	高	中	批量处理新增文件（如定时生成的报表）	文件一旦放入目录不可修改，延迟较高
Taildir Source	监控多个文件，记录偏移量到文件	高	高	多文件实时跟踪 + 断点续传	配置稍复杂，需维护偏移量文件

阅读全文 »

flume简单配置与执行

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 3.7k 阅读时长 ≈ 3 分钟

flume实战：从零配置到启动运行的完整指南

掌握 Flume 的核心组件后，实际配置和运行才是关键。本文将通过一个简单案例，带你从零开始配置 Flume Agent，理解配置文件的核心逻辑，并通过命令启动采集任务，快速上手 Flume 的使用流程。

flume命令参数解析

在启动 Flume 前，需先了解核心命令参数，确保启动命令正确无误。Flume 启动命令的基本格式为：

1	flume-ng <角色> [参数]

角色 / 参数	说明	示例
`agent`	核心角色，启动一个 Flume Agent（最常用）	`flume-ng agent ...`
`avro-client`	辅助角色，作为 Avro 客户端发送数据到 Agent（用于测试或数据注入）	`flume-ng avro-client ...`
`-c/--conf`	指定配置文件目录（含 `flume-env.sh` 和 `log4j.properties`）	`-c /usr/local/flume/conf`
`-f/--config-file`	指定 Agent 具体配置文件（定义 Source、Channel、Sink 的关联关系）	`-f conf/my-flume.conf`
`-n/--name`	指定 Agent 的名称（必须与配置文件中定义的 Agent 名称一致）	`--name myagent`
`-D`	传递 Java 系统参数（如堆内存配置）	`-Dflume.root.logger=INFO,console`

阅读全文 »

flume简介

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

flume详解：分布式日志采集的核心原理与组件解析

在大数据体系中，日志采集是数据处理的第一步。Flume 作为 Apache 旗下的分布式日志采集工具，以高可用、高可靠、易扩展的特性，成为处理海量日志数据的首选方案。本文将从 Flume 的核心概念、组件架构到关键名词解析，带你全面掌握这款流式数据采集工具的工作原理。

Flume 简介

Flume 是一款开源的分布式数据采集系统，专注于从多种数据源实时采集、聚合并传输数据到存储系统（如 HDFS、Kafka、HBase 等）。其核心优势包括：

高可用：支持故障自动恢复，避免数据丢失；
高可靠：通过持久化通道确保数据不丢失；
分布式架构：可横向扩展，适应海量数据场景；
灵活扩展：支持自定义数据源、传输逻辑和存储目标。

本文基于 Flume 1.9.0 版本展开讲解（可通过官网或包管理工具安装，安装后需在 flume-env.sh 中配置 JAVA_HOME）。

>flume-ng version 
Flume 1.9.0
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: d4fcab4f501d41597bc616921329a4339f73585e
Compiled by fszabo on Mon Dec 17 20:45:25 CET 2018
From source with checksum 35db629a3bda49d23e9b3690c80737f9

阅读全文 »

linux下载软件包

发表于 2021-03-13 更新于 2025-08-05 分类于 linux 阅读次数： Valine：
本文字数： 4.2k 阅读时长 ≈ 4 分钟

Linux 软件包安装全指南：从 RPM、YUM 到源码编译

Linux 系统中软件包的安装与管理是系统运维的基础技能。本文将详细介绍 Linux 中两种核心软件包（源码包与二进制包）的特点及操作方法，包括 RPM 命令、YUM/APT 包管理工具的使用，以及源码包的编译安装流程，帮助你高效管理系统软件。

Linux 软件包的两种类型

Linux 软件包主要分为两类，适用场景和安装方式差异显著：

类型	格式示例	特点	适用场景
源码包	`.tar.gz`、`.tar.bz2`	包含源代码，需编译后安装；跨架构，可自定义配置；安装步骤较复杂。	需要定制功能、优化性能的场景
二进制包	`.rpm`（RedHat 系）、`.deb`（Debian 系）	已编译为可执行文件，安装快速；依赖特定 CPU 架构；依赖关系需手动处理。	快速安装、版本稳定的场景

RPM 包管理（RedHat 系系统：CentOS、RHEL）

RPM（Redhat Package Manager）是 RedHat 系列系统的二进制包管理工具，直接操作 .rpm 格式的软件包。

RPM 包的命名规则

RPM 包名包含丰富信息，格式为：
名称-版本-发布版本.架构.rpm
例如：httpd-2.4.6-97.el7.centos.x86_64.rpm

httpd：软件名称
2.4.6：版本号
97.el7.centos：发布版本（与系统版本相关）
x86_64：适用架构（常见架构见下表）

架构标识	适用 CPU 类型
`noarch`	不依赖架构（如脚本类软件）
`i386/i686`	Intel 32 位 / 64 位兼容 CPU
`x86_64`	AMD/Intel 64 位 CPU
`arm`	ARM 架构（如嵌入式设备、树莓派）

RPM 核心操作命令

（1）安装 RPM 包

阅读全文 »