小菜鸟

DataFrame编程

发表于 2021-05-25 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.8k 阅读时长 ≈ 5 分钟

DataFrame编程全解析：结构化数据处理的核心抽象

DataFrame 是 Spark SQL 的核心抽象，它将关系型数据库的结构化查询能力与 Spark 的分布式计算能力相结合，为开发者提供了高效、灵活的数据处理方式。本文将深入探讨 DataFrame 的创建、转换、操作及性能优化，帮助你全面掌握这一强大工具。

DataFrame 基础概念与核心特性

DataFrame 与 RDD 的本质区别

特性	RDD	DataFrame
数据结构	无 schema，仅存储对象集合	有 schema，明确列名和类型
优化机制	依赖手动优化，缺乏查询分析	自动优化执行计划（Catalyst 优化器）
计算方式	基于函数式编程（map、filter 等）	基于关系代数（select、join、groupBy）
序列化方式	对象序列化，开销大	列式存储（如 Parquet），节省空间
适用场景	非结构化数据（如日志、文本）	结构化数据（如数据库表、CSV）

Schema 元信息的重要性

Schema 定义了 DataFrame 各列的名称和类型，使 Spark 能够：

优化内存使用：通过列式存储和类型推断，减少内存占用；
加速查询执行：直接定位所需列，避免全量扫描；
提供类型安全：编译时检查列名和类型，提前发现错误。

DataFrame 的创建与转换

创建 DataFrame 的主要方式

从文件数据源读取

支持 CSV、JSON、Parquet、ORC 等多种格式：

阅读全文 »

sparkSQL简介

发表于 2021-05-25 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

sparkSQL详解：结构化数据处理的核心引擎

Spark SQL 是 Spark 生态中专门用于结构化数据处理的模块，它整合了关系型数据库的 SQL 语法与 Spark 的分布式计算能力，为开发者提供了高效、灵活的结构化数据处理方案。本文将从 Spark SQL 的起源、核心抽象（DataFrame 与 DataSet）、特性优势及基础使用入手，全面解析这一核心模块。

Spark SQL 的起源与演进

诞生背景

在 Spark 早期版本中，RDD 作为核心抽象，虽能处理分布式数据，但缺乏对结构化数据的原生支持。开发者需手动解析数据结构（如 CSV、JSON），编写大量样板代码。为解决这一问题，Spark 团队推出 Spark SQL，目标是：

提供 SQL 接口，降低数据分析门槛（让熟悉 SQL 的开发者快速上手）；
支持结构化数据的高效处理，整合 Spark 的分布式计算能力。

发展历程

早期版本（Shark）：基于 Hive 构建，依赖 Hive 的元数据和查询优化器，但受限于 Hive 的 MapReduce 执行引擎，性能提升有限。
Spark SQL 独立化：为摆脱对 Hive 的依赖，Spark 1.0 后重构为独立模块，引入 Catalyst 优化器和 Tungsten 执行引擎，性能大幅提升。
统一数据抽象：Spark 1.3 引入 DataFrame，Spark 1.6 引入 DataSet，形成 “RDD + DataFrame + DataSet” 的多层次 API 体系。

Spark SQL 的核心特性

多数据源兼容

Spark SQL 支持多种结构化数据源的读写，无需手动转换格式：

文件格式：Parquet、ORC、CSV、JSON、Text 等；
数据库：Hive、MySQL、PostgreSQL 等（通过 JDBC）；
流数据：与 Spark Streaming 整合，处理实时结构化数据。

高性能优化

Spark SQL 引入多项核心技术提升性能：

Catalyst 优化器：基于规则和成本的查询优化器，自动优化 SQL 执行计划；
Tungsten 执行引擎：通过内存管理优化和代码生成（Code Generation）提升执行效率；
列式存储：默认使用 Parquet 列式存储格式，减少 I/O 开销。

多接口支持

Spark SQL 提供多种编程接口，适配不同开发习惯：

阅读全文 »

大M法

发表于 2021-05-24 更新于 2025-08-17 分类于数据结构与算法阅读次数： Valine：
本文字数： 4.7k 阅读时长 ≈ 4 分钟

大 M 法：将非线性约束线性化的线性规划技巧

在实际优化问题中，常遇到 “要么不做，要么必须达到某个阈值” 的非线性约束（如广告投放 “要么不投，要么至少投 100cpm”）。大 M 法（Big M Method）通过引入二进制变量和一个足够大的常数 M，将这类非线性约束转化为线性约束，从而用线性规划求解。本文结合广告投放场景，详细解析大 M 法的应用。

问题场景与核心约束

场景定义

需投放广告至至少 2 个城市，共 3 个城市可选（记为城市 1、2、3）。
每个城市的投放规则：要么不投（投放量 = 0），要么至少投 100cpm（cpm 为投放单位）。
总投放量≥3000cpm，目标是最小化总成本（城市 1、2、3 的单位成本分别为 5、6、23）。

核心非线性约束

每个城市的投放量c_i（i=1,2,3）存在 “0 或≥100” 的非线性选择，即：
c_i = 0 或 c_i ≥ 100

这类约束无法直接用线性规划表达，需通过大 M 法转化。

大 M 法的核心思路

1. 引入二进制变量

为每个城市引入二进制变量ca_i（0 或 1），表示投放决策：

阅读全文 »

hash实现

发表于 2021-05-21 更新于 2025-08-14 分类于 redis 阅读次数： Valine：
本文字数： 2.8k 阅读时长 ≈ 3 分钟

Redis Hash 数据结构实现详解（基于 6.0.10 版本）

Redis 中的 Hash 类型（哈希表）是一种键值对集合，底层采用混合编码策略（ziplist 或 hash table），兼顾内存效率和操作性能。本文结合源码结构，详解其实现机制、编码转换、哈希冲突处理及扩容策略。

Hash 类型的编码策略

Redis 的 Hash 类型根据数据规模自动选择两种编码方式，通过配置参数控制转换阈值：

编码方式	适用场景	转换条件（满足任一即触发）
`OBJ_ENCODING_ZIPLIST`（压缩列表）	元素少且小（键值均为短字符串）	1. 元素数量 > `hash-max-ziplist-entries`（默认 512） 2. 任一键 / 值长度 > `hash-max-ziplist-value`（默认 64 字节）
`OBJ_ENCODING_HT`（哈希表）	元素多或大（键值为长字符串 / 整数）	上述条件触发后，自动转为哈希表编码

两种编码的权衡：

ziplist：连续内存存储，无哈希表元数据开销，内存紧凑（适合小数据），但插入 / 删除需移动元素（O (N) 时间复杂度）。
hash table：哈希表结构，插入 / 删除 / 查询平均 O (1) 时间复杂度（适合大数据），但内存开销较高（需存储指针和哈希表结构）。

哈希表核心源码结构

当 Hash 类型采用 OBJ_ENCODING_HT 编码时，底层依赖 dict（字典）结构体实现，源码如下：

1. `dict`（字典）

typedef struct dict {
    dictType *type;         // 字典类型（包含哈希函数、键值复制/释放函数等）
    void *privdata;         // 私有数据（传给 type 中函数的参数）
    dictht ht[2];           // 两个哈希表（ht[0] 存实际数据，ht[1] 用于扩容/缩容）
    long rehashidx;         // rehash 索引（-1 表示未进行 rehash，否则为当前迁移的数组下标）
    int16_t pauserehash;    // 暂停 rehash 标志（>0 表示暂停）
} dict;

核心作用：管理哈希表的生命周期（创建、插入、查询、扩容等），通过 ht[0] 和 ht[1] 实现动态扩容。

阅读全文 »

网络攻击

发表于 2021-05-20 更新于 2025-08-12 分类于网站攻击与防御阅读次数： Valine：
本文字数： 1.4k 阅读时长 ≈ 1 分钟

网络攻击：被动攻击与主动攻击的分类与特点

网络攻击是指通过网络对目标系统、设备或数据进行未授权的访问、干扰或破坏的行为。根据攻击方式和目标的不同，可分为被动攻击和主动攻击两大类，两者在目标、手段和影响上有显著区别。

被动攻击（Passive Attacks）

被动攻击的核心特点是不直接干扰系统运行，而是通过窃听、监视等方式获取敏感信息，主要破坏数据的保密性。攻击者不会修改数据或中断服务，因此难以被察觉。

主要类型

消息内容监听（Eavesdropping）
- 攻击者通过监听网络传输（如未加密的通信信道），窃取敏感信息（如用户名、密码、交易数据、私人消息等）。
- 示例：在公共 Wi-Fi 中监听 HTTP 明文传输的登录信息，或通过网络嗅探工具（如 Wireshark）捕获未加密的数据包。
业务流分析（Traffic Analysis）
- 攻击者不直接获取消息内容，而是通过分析通信模式（如通信频率、数据量、源地址、目标地址、传输时间等）推断敏感信息。
- 示例：通过分析某公司与银行之间的通信频率和数据量，推测其业务规模或交易周期；通过监测军事基地的网络流量峰值，判断可能的军事行动。

防御手段

加密传输：使用 SSL/TLS 等加密协议对通信内容进行加密（如 HTTPS），使监听的消息无法被解析。
流量混淆：通过随机化数据包大小、添加冗余数据等方式，干扰攻击者的业务流分析。
物理隔离：对敏感网络（如内部办公网）采取物理隔离措施，限制外部访问。

主动攻击（Active Attacks）

主动攻击的核心特点是主动干预系统运行，通过修改数据、伪造身份、中断服务等方式破坏系统的可用性、完整性或真实性，攻击行为通常会对系统造成直接影响，较容易被检测到。

阅读全文 »

DataFrame编程全解析：结构化数据处理的核心抽象

DataFrame 基础概念与核心特性

DataFrame 与 RDD 的本质区别

Schema 元信息的重要性

DataFrame 的创建与转换

创建 DataFrame 的主要方式

从文件数据源读取

sparkSQL详解：结构化数据处理的核心引擎

Spark SQL 的起源与演进

诞生背景

发展历程

Spark SQL 的核心特性

多数据源兼容

高性能优化

多接口支持

大 M 法：将非线性约束线性化的线性规划技巧

问题场景与核心约束

场景定义

核心非线性约束

大 M 法的核心思路

1. 引入二进制变量

Redis Hash 数据结构实现详解（基于 6.0.10 版本）

Hash 类型的编码策略

两种编码的权衡：

哈希表核心源码结构

1. dict（字典）

网络攻击：被动攻击与主动攻击的分类与特点

被动攻击（Passive Attacks）

主要类型

防御手段

主动攻击（Active Attacks）

1. `dict`（字典）