小菜鸟

flume简介

发表于 2021-03-14 更新于 2025-07-22 分类于 flume 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

flume详解：分布式日志采集的核心原理与组件解析

在大数据体系中，日志采集是数据处理的第一步。Flume 作为 Apache 旗下的分布式日志采集工具，以高可用、高可靠、易扩展的特性，成为处理海量日志数据的首选方案。本文将从 Flume 的核心概念、组件架构到关键名词解析，带你全面掌握这款流式数据采集工具的工作原理。

Flume 简介

Flume 是一款开源的分布式数据采集系统，专注于从多种数据源实时采集、聚合并传输数据到存储系统（如 HDFS、Kafka、HBase 等）。其核心优势包括：

高可用：支持故障自动恢复，避免数据丢失；
高可靠：通过持久化通道确保数据不丢失；
分布式架构：可横向扩展，适应海量数据场景；
灵活扩展：支持自定义数据源、传输逻辑和存储目标。

本文基于 Flume 1.9.0 版本展开讲解（可通过官网或包管理工具安装，安装后需在 flume-env.sh 中配置 JAVA_HOME）。

>flume-ng version 
Flume 1.9.0
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: d4fcab4f501d41597bc616921329a4339f73585e
Compiled by fszabo on Mon Dec 17 20:45:25 CET 2018
From source with checksum 35db629a3bda49d23e9b3690c80737f9

阅读全文 »

linux下载软件包

发表于 2021-03-13 更新于 2025-08-05 分类于 linux 阅读次数： Valine：
本文字数： 4.2k 阅读时长 ≈ 4 分钟

Linux 软件包安装全指南：从 RPM、YUM 到源码编译

Linux 系统中软件包的安装与管理是系统运维的基础技能。本文将详细介绍 Linux 中两种核心软件包（源码包与二进制包）的特点及操作方法，包括 RPM 命令、YUM/APT 包管理工具的使用，以及源码包的编译安装流程，帮助你高效管理系统软件。

Linux 软件包的两种类型

Linux 软件包主要分为两类，适用场景和安装方式差异显著：

类型	格式示例	特点	适用场景
源码包	`.tar.gz`、`.tar.bz2`	包含源代码，需编译后安装；跨架构，可自定义配置；安装步骤较复杂。	需要定制功能、优化性能的场景
二进制包	`.rpm`（RedHat 系）、`.deb`（Debian 系）	已编译为可执行文件，安装快速；依赖特定 CPU 架构；依赖关系需手动处理。	快速安装、版本稳定的场景

RPM 包管理（RedHat 系系统：CentOS、RHEL）

RPM（Redhat Package Manager）是 RedHat 系列系统的二进制包管理工具，直接操作 .rpm 格式的软件包。

RPM 包的命名规则

RPM 包名包含丰富信息，格式为：
名称-版本-发布版本.架构.rpm
例如：httpd-2.4.6-97.el7.centos.x86_64.rpm

httpd：软件名称
2.4.6：版本号
97.el7.centos：发布版本（与系统版本相关）
x86_64：适用架构（常见架构见下表）

架构标识	适用 CPU 类型
`noarch`	不依赖架构（如脚本类软件）
`i386/i686`	Intel 32 位 / 64 位兼容 CPU
`x86_64`	AMD/Intel 64 位 CPU
`arm`	ARM 架构（如嵌入式设备、树莓派）

RPM 核心操作命令

（1）安装 RPM 包

阅读全文 »

循环语句

发表于 2021-03-12 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 3.1k 阅读时长 ≈ 3 分钟

Shell 循环语句：for、while、until 及循环控制

循环是 Shell 脚本中实现重复执行任务的核心结构，Bash 提供了 for、while 和 until 三种循环语句，以及 break、continue 等控制命令。掌握这些工具能高效处理批量任务（如文件处理、日志分析等）。

for 循环：遍历列表或范围

for 循环适合已知循环对象集合的场景，有两种语法形式。

列表遍历语法（基础形式）

for 变量 in 列表
do
  命令1
  命令2
done

列表：可以是直接给出的值、文件通配符、命令输出等。
变量：每次循环从列表中取一个值赋值给变量。

示例 1：遍历固定值列表

#!/bin/bash
# 遍历一周的天数
for day in 周一 周二 周三 周四 周五 周六 周日
do
  echo "今天是 $day"
done

输出：

今天是 周一
今天是 周二
...
今天是 周日

示例 2：遍历文件列表

阅读全文 »

scala简单使用

发表于 2021-03-12 更新于 2025-08-04 分类于 scala 阅读次数： Valine：
本文字数： 1.8k 阅读时长 ≈ 2 分钟

Scala 入门：基础语法与运行机制解析

Scala 作为一门融合了面向对象和函数式编程的多范式语言，因与 Spark 等大数据框架的深度结合而广泛流行。本文从一个简单示例出发，带你快速了解 Scala 的基础语法和运行机制。

第一个 Scala 程序

示例代码：Hello World

object Hello {
  // 定义主方法，程序入口
  def main(args: Array[String]): Unit = {
    println("Hello, Scala!")
  }
}

代码解析

object：声明一个 “伴生对象”（Singleton 对象），类似 Java 中的单例类，整个程序中只存在一个实例。
def：用于定义方法，main 是程序的入口方法（与 Java 类似）。
参数与返回值：
- args: Array[String]：方法参数，args 是参数名，Array[String] 是类型（Scala 中类型写在参数名后，用冒号分隔）。
- : Unit：表示返回值为空，相当于 Java 中的 void。
println：输出语句，底层调用 Scala 标准库的 Predef.println 方法。

编译与运行

编译 Scala 代码

使用 scalac 命令编译 .scala 文件（类似 Java 的 javac）：

阅读全文 »

判断语句

发表于 2021-03-11 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

Shell 中的判断语句：test、[] 与 [[]] 的全面用法

在 Shell 脚本中，判断语句是实现条件逻辑的基础。无论是文件类型检查、权限验证，还是数值 / 字符串比较，都需要通过判断语句实现。本文详细讲解 test 命令、[ ] 和 [[ ]] 三种判断方式的用法及差异。

判断语句的三种形式

Shell 中常用的判断形式有三种，功能类似但语法略有差异：

形式	说明	兼容性
`test 条件`	基础判断命令	所有 Shell 兼容
`[ 条件 ]`	`test` 命令的简化写法（注意空格）	所有 Shell 兼容
`[[ 条件 ]]`	Bash 扩展语法，支持更多特性	仅 Bash、Zsh 等现代 Shell 支持

基本用法示例

三种形式可以互换，结果完全一致：

# 判断文件是否为目录
test -d /etc && echo "是目录" || echo "不是目录"
[ -d /etc ] && echo "是目录" || echo "不是目录"
[[ -d /etc ]] && echo "是目录" || echo "不是目录"

输出均为：是目录

文件类型判断

用于检查文件是否存在及类型（目录、普通文件等），常用选项如下：

阅读全文 »