小菜鸟

hive简介

发表于 2021-04-08 更新于 2025-07-28 分类于 hive 阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

hive全面解析：大数据时代的数据仓库工具

使用的版本是3.1.2

Hive 作为基于 Hadoop 的数据仓库工具，凭借类 SQL 语法和对海量数据的处理能力，成为大数据离线分析的核心组件。本文从概念、特性、优缺点及与传统数据库的差异入手，全面解读 Hive 的核心价值与适用场景。

作为基于 Hadoop 的数据仓库工具，凭借类 SQL 语法和对海量数据的处理能力，成为大数据离线分析的核心组件。本文从概念、特性、优缺点及与传统数据库的差异入手，全面解读 Hive 的核心价值与适用场景。

Hive 核心概念

Hive 是 构建在 Hadoop 之上的分布式数据仓库工具，其核心功能是将结构化数据映射为数据库表，并通过类 SQL 语句（HQL）实现对 Hadoop 中大规模数据的查询和分析。

核心定位

数据存储：依赖 HDFS 存储原始数据，不自带存储引擎；
计算引擎：默认将 HQL 转换为 MapReduce 任务执行（3.0+ 也支持 Tez、Spark 等引擎）；
执行调度：任务运行依赖 YARN 进行资源管理和调度。

用一句话概括：Hive = “SQL 接口 + Hadoop 存储与计算”，让开发者无需编写 MapReduce 代码即可处理海量数据。

核心特性

类 SQL 语法（HQL）：降低大数据分析门槛，熟悉 SQL 的开发者可快速上手；
结构化数据映射：将 HDFS 中的文本文件（如 CSV、TSV）或列式存储文件（如 Parquet、ORC）映射为 “表”，支持定义列名、类型和分隔符；
自定义函数扩展：支持 UDF（用户自定义函数）、UDAF（聚合函数）、UDTF（表生成函数），满足复杂业务需求；
元数据管理：通过 Metastore 存储表结构、分区信息等元数据，支持 MySQL 等关系型数据库作为元数据存储后端。

Hive 的优缺点分析

优点

低学习成本：使用类 SQL 的 HQL 语法，无需掌握 MapReduce、Java 等技术，降低大数据分析门槛；
处理海量数据：依托 Hadoop 的分布式架构，可轻松处理 PB 级甚至 EB 级数据；
高扩展性：支持自定义函数和存储格式，可根据业务需求扩展功能；
与 Hadoop 生态无缝集成：天然支持 HDFS、YARN，可与 Spark、Flink 等计算引擎协同工作；
适合离线分析场景：针对数据仓库的批量处理优化，适合周期性报表生成、历史数据分析等场景。

阅读全文 »

HTTP报文格式

发表于 2021-04-08 更新于 2025-08-03 分类于网络阅读次数： Valine：
本文字数： 4.2k 阅读时长 ≈ 4 分钟

HTTP 报文格式详解

HTTP（Hypertext Transfer Protocol，超文本传输协议）是互联网中用于数据通信的核心协议，其报文格式定义了客户端与服务器之间请求和响应的结构。理解 HTTP 报文格式是解析网络请求、调试接口和优化通信的基础。

HTTP 请求报文格式

HTTP 请求报文由请求行、请求头、空行和请求体四部分组成，结构如下：

<method> <url> <version>  // 请求行
<headers>                  // 请求头（多个键值对）
                           // 空行（分隔请求头与请求体）
<requestbody>              // 请求体（可选）

请求行（Request Line）

请求行是报文的第一行，包含三个关键信息，以空格分隔：

请求方法（Method）：表示客户端希望服务器执行的操作（如 GET、POST）。
URL（Uniform Resource Locator）：请求的资源路径（如/api/user）。
HTTP 版本（Version）：使用的 HTTP 协议版本（如HTTP/1.1、HTTP/2）。

阅读全文 »

消息队列的选型

发表于 2021-04-08 更新于 2025-08-12 分类于消息队列阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

消息队列选型指南：ActiveMQ、RabbitMQ、RocketMQ、Kafka 对比

消息队列的选型需结合业务场景（如吞吐量、延迟、功能需求）、团队技术栈及运维成本综合判断。本文基于四大主流消息队列（ActiveMQ、RabbitMQ、RocketMQ、Kafka）的核心特性，分析其适用场景与优劣势，帮助做出合理选择。

核心特性对比表

特性	ActiveMQ	RabbitMQ	RocketMQ	Kafka
开发语言	Java	Erlang	Java	Scala/Java
协议支持	多协议（JMS、AMQP、MQTT、STOMP 等）	AMQP、MQTT、STOMP 等	自定义协议（兼容 JMS）	自定义协议（基于 TCP）
单机吞吐量	万级（约 1-10k/s）	万级（约 1-20k/s）	10 万级（约 10-100k/s）	10 万级（约 50-200k/s，最高可达百万级）
延迟性能	ms 级	μs 级（微秒级，延迟最低）	ms 级	ms 级（优化后可接近 μs 级）
可用性	高（主从架构）	高（主从 / 集群架构）	极高（分布式集群）	极高（分布式集群，分区容错）
功能特性	支持事务、定时消息、死信队列等	丰富的路由策略、插件机制、管理界面	事务消息、定时消息、重试机制	日志聚合、流处理、分区副本
生态与社区	成熟但更新慢	活跃，文档丰富	阿里维护，中文文档多	非常活跃，大数据领域生态完善
典型场景	传统企业应用、多协议集成	复杂路由场景、低延迟通信	电商、金融等业务系统	日志收集、大数据流处理

各消息队列深度解析

1. ActiveMQ：老牌多协议消息队列

优势：
- 支持多种协议（JMS、AMQP、MQTT 等），适合多系统集成（如传统系统与新系统通信）。
- 功能全面，支持事务消息、定时消息、死信队列等，文档成熟。
劣势：
- 单机吞吐量较低（万级），不适合高并发场景。
- 社区更新缓慢（近年年更新频率降低），对新特性支持不足。
适用场景：
- 传统企业级应用（如 ERP、OA 系统）。
- 需要兼容多协议的异构系统集成。
- 中小规模业务，对吞吐量要求不高。

2. RabbitMQ：高性能与灵活路由的代表

阅读全文 »

监听器

发表于 2021-04-07 更新于 2025-07-31 分类于 zookeeper 阅读次数： Valine：
本文字数： 2.5k 阅读时长 ≈ 2 分钟

ZooKeeper 监听器（Watch）：分布式事件通知机制

ZooKeeper 的监听器（Watch）是实现分布式协同的核心机制，它允许客户端订阅节点的变化，当事件触发时主动接收通知，无需轮询。这种 “事件驱动” 模式大幅提升了分布式系统的响应效率，是配置同步、服务发现等场景的基础。

监听器的底层工作原理

监听器的实现依赖客户端与服务端的协作，核心流程如下：

客户端线程模型
启动 zkCli.sh 或客户端程序时，会创建两个线程：
- Connect 线程：负责与 ZooKeeper 服务端的网络通信（发送请求、接收响应）；
- Listener 线程：专门处理服务端推送的监听事件。
监听注册流程
- 客户端通过读操作（getData、getChildren、exists）注册监听时，Connect 线程会将监听请求（包含节点路径和事件类型）发送给服务端；
- 服务端收到请求后，将监听信息（节点路径、客户端会话 ID、事件类型）存入 监听列表 中。
事件触发与通知
- 当节点发生注册的事件（如数据修改、子节点增删），服务端会从监听列表中找到对应的客户端；
- 服务端通过 Connect 线程将事件通知推送给客户端；
- 客户端的 Listener 线程接收通知，并调用 process() 方法处理（如重新获取数据、再次注册监听）。

Watch 的核心特性

1. 一次性触发（One-time Trigger）

Watch 是 “一次性” 的：触发一次后，服务端会从监听列表中移除该 Watch，后续节点变化不会再通知客户端。

阅读全文 »

zookeeper命令

发表于 2021-04-07 更新于 2025-07-31 分类于 zookeeper 阅读次数： Valine：
本文字数： 3.2k 阅读时长 ≈ 3 分钟

ZooKeeper 命令详解：从基础操作到高级管理

ZooKeeper 提供了丰富的命令接口，用于节点管理、集群监控和权限控制等操作。无论是客户端交互还是服务端监控，掌握这些命令是使用 ZooKeeper 的基础。以下基于 3.6.1 版本，系统梳理常用命令的用法与场景。

四字命令：服务端状态快速查询

四字命令是 ZooKeeper 特有的轻量监控命令，通过 echo 命令 | nc 主机端口 格式执行，需先在 zoo.cfg 中开启白名单：

1	4lw.commands.whitelist=* # 允许所有四字命令（生产环境建议按需开放）

服务状态类命令

命令	功能描述	示例
`ruok`	检查节点是否存活（返回 `imok` 表示正常）	`echo ruok	nc localhost 2181`
`conf`	输出节点的配置信息（如 `dataDir`、`clientPort`）	`echo conf	nc localhost 2181`
`envi`	输出节点的环境变量（如 JVM 参数、操作系统信息）	`echo envi	nc localhost 2181`
`srvr`	输出节点的详细状态（角色、版本、连接数等）	`echo srvr	nc localhost 2181`
`stat`	输出节点状态及客户端连接信息（比 `srvr` 多连接统计）	`echo stat	nc localhost 2181`

客户端连接类命令

命令	功能描述	示例
`cons`	输出所有客户端连接的详细信息（会话 ID、IP、最后操作时间等）	`echo cons	nc localhost 2181`
`dump`	输出未处理的会话节点（临时节点）列表	`echo dump	nc localhost 2181`

监听与监控类命令

命令	功能描述	示例
`wchs`	输出节点的监听统计（总监听数、按节点分组的监听数）	`echo wchs	nc localhost 2181`
`wchc`	按客户端连接分组，输出每个连接的监听列表	`echo wchc	nc localhost 2181`
`wchp`	按节点路径分组，输出每个节点的监听列表	`echo wchp	nc localhost 2181`
`mntr`	输出更详细的监控指标（适合 Prometheus 等工具采集，如 `zk_num_alive_connections`）	`echo mntr	nc localhost 2181`

阅读全文 »