小菜鸟

CPU基础知识

发表于 2021-05-27 更新于 2025-08-03 分类于计算机组成阅读次数： Valine：
本文字数： 2.5k 阅读时长 ≈ 2 分钟

CPU 基础知识：结构、原理与性能解析

CPU（中央处理器）是计算机的核心部件，负责执行指令、处理数据并协调系统各组件工作。其内部结构精密，通过寄存器、控制器、运算器和时钟的协同，实现对整个计算机系统的调度与运算。以下从结构组成、核心功能到性能参数进行详细解析：

CPU 的内部结构与核心组件

CPU 的核心组成包括寄存器、控制器、运算器和时钟，各部分通过内部总线连接，形成一个有机整体：

寄存器：CPU 内部的高速存储单元，用于暂存指令、数据和中间结果。其容量小（通常为几十到几百个字节），但访问速度极快（纳秒级），是 CPU 与内存之间的 “缓冲站”。
控制器：CPU 的 “指挥中心”，负责从内存读取指令、解析指令（确定操作类型和操作对象），并协调运算器、寄存器等部件执行指令。
运算器：负责数据的算术运算（如加减乘除）和逻辑运算（如与、或、非），是 CPU 处理数据的 “加工厂”。
时钟：产生周期性的时钟信号（如 3.0GHz 表示每秒产生 30 亿个时钟脉冲），控制各部件的工作节奏，确保指令执行的时序同步。

运算器：数据处理的核心单元

运算器由多个功能部件组成，协同完成数据运算与暂存：

算术逻辑单元（ALU）：运算器的核心，直接执行算术运算（如3+5）和逻辑运算（如a && b）。
累加寄存器（AC）：通用寄存器，为 ALU 提供操作数和暂存运算结果。例如，执行a + b时，AC 先存放a，与b相加后再存储结果。
数据缓冲寄存器（DR）：作为 CPU 与内存之间的缓冲，写内存时暂存待写入的指令或数据，读内存时暂存刚读取的内容，减少 CPU 与内存的直接交互延迟。
状态条件寄存器（PSW）：存储运算过程中产生的状态标志（如进位C、零标志Z、溢出V）和控制标志（如中断允许I）。例如，运算结果为 0 时，零标志Z会被置为 1，供控制器判断后续操作（如条件跳转）。

控制器：指令执行的 “指挥系统”

控制器的核心功能是取指令、译码、执行（Fetch-Decode-Execute）的循环，确保程序按顺序或条件跳转执行。其关键组件包括：

阅读全文 »

查看端口占用

发表于 2021-05-27 更新于 2025-08-06 分类于 linux 阅读次数： Valine：
本文字数： 1.4k 阅读时长 ≈ 1 分钟

Linux 查看端口占用的两种常用方法：lsof 与 netstat

在 Linux 系统中，查看端口占用情况是排查网络服务故障（如 “端口已被占用” 错误）的基础操作。常用工具包括 lsof（列出打开的文件）和 netstat（网络状态统计），本文将详细介绍两者的用法及场景。

使用 `lsof` 查看端口占用

lsof（List Open Files）是一款功能强大的工具，可列出系统中所有打开的文件（Linux 中 “一切皆文件”，包括网络连接）。其核心优势是能直接关联端口与进程的详细信息。

查看指定端口的占用情况

命令格式：

1	lsof -i :端口号

示例：查看 8010 端口的占用情况

1	lsof -i:8010

输出解析：

1
2
3

COMMAND   PID    USER   FD   TYPE             DEVICE SIZE/OFF NODE NAME
nginx   35653 zhanghe   10u  IPv4 0xcac2e413ddf9c5b9      0t0  TCP *:8010 (LISTEN)
nginx   35654 zhanghe   10u  IPv4 0xcac2e413ddf9c5b9      0t0  TCP *:8010 (LISTEN)

阅读全文 »

MySQL自动备份脚本

发表于 2021-05-26 更新于 2025-08-14 分类于 MySQL 阅读次数： Valine：
本文字数： 4.1k 阅读时长 ≈ 4 分钟

MySQL 自动备份脚本详解

MySQL 备份是保障数据安全的核心手段，mysqldump 工具结合 shell 脚本可实现自动化备份，避免人工操作的疏漏。本文详细解析备份原理、脚本及还原方法，帮助构建可靠的备份策略。

`mysqldump` 核心参数解析

mysqldump 是 MySQL 官方备份工具，支持全库、单库、单表备份，核心参数如下：

参数	作用说明
`-u <user>`	指定数据库用户名。
`-p <password>`	指定用户密码（不建议明文写在命令中，可省略让系统交互输入）。
`-h <host>`	数据库主机地址（默认 localhost）。
`--default-character-set=utf8`	指定字符集（避免中文乱码）。
`--databases <db1 db2>`	备份多个数据库（需列出数据库名）。
`--all-databases`	备份所有数据库（包括系统库如 `mysql`）。
`--ignore-table=<db.table>`	排除指定表（如 `--ignore-table=mysql.events`）。
`--lock-all-tables`	备份前锁定所有表（读锁），确保数据一致性（会阻塞写操作，适合停机备份）。
`--single-transaction`	对 InnoDB 表开启事务备份（不锁表，适合在线备份，保证一致性读）。
`--opt`	启用优化选项（默认开启），包括 `--add-drop-table`、`--add-locks` 等。

关键参数对比（锁表策略）：

场景	推荐参数	优点	缺点
在线业务（不停机）	`--single-transaction`	不阻塞写操作，适合生产环境	仅支持 InnoDB 表，MyISAM 仍会锁表
停机维护	`--lock-all-tables`	支持所有存储引擎，数据绝对一致	锁表期间阻塞所有写操作，影响业务

自动备份脚本

解决密码明文、日志记录、过期清理等问题：

阅读全文 »

自定义函数

发表于 2021-05-25 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.1k 阅读时长 ≈ 5 分钟

spark自定义函数详解：UDF 与 UDAF 实战指南

在 Spark SQL 中，内置函数（如 sum、concat）可满足多数基础需求，但复杂业务场景往往需要自定义逻辑。Spark 支持两种核心自定义函数：用户定义函数（UDF） 和用户定义聚合函数（UDAF）。本文将深入解析两者的实现原理、使用场景及实战案例，帮助你灵活扩展 Spark 的数据处理能力。

自定义函数概述

为什么需要自定义函数？

业务个性化：内置函数无法覆盖复杂业务逻辑（如特殊格式转换、自定义指标计算）；
代码复用：将常用逻辑封装为函数，避免重复开发；
简化 SQL：用自定义函数替代复杂 SQL 子查询，提升可读性。

自定义函数的类型

UDF（User-Defined Function）：一行输入 → 一行输出，如字符串拼接、格式转换；
UDAF（User-Defined Aggregate Function）：多行输入 → 一行输出，如自定义平均值、加权求和。

UDF：用户定义函数（单行处理）

UDF 是最常用的自定义函数类型，用于对单条记录的字段进行转换或计算。其核心是接收一个或多个输入值，返回单个输出值。

UDF 的定义与注册

Scala 实现 UDF

通过 spark.udf.register 方法注册 UDF，支持匿名函数或方法引用：

阅读全文 »

DataSet编程

发表于 2021-05-25 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.2k 阅读时长 ≈ 5 分钟

DataSet编程详解：强类型结构化数据处理的利器

DataSet 是 Spark SQL 中融合了 DataFrame 结构化特性与 RDD 强类型优势的高级抽象。作为 DataFrame 的扩展，DataSet 提供了编译时类型安全，让开发者能以更直观的方式处理复杂领域对象。本文将深入解析 DataSet 的创建、操作、特性及最佳实践，帮助你充分利用这一强大工具。

DataSet 的核心特性与价值

DataSet 与 DataFrame、RDD 的对比

DataSet 是 Spark 1.6 引入的新抽象，填补了 DataFrame 弱类型和 RDD 缺乏结构化优化的空白：

特性	RDD[T]	DataFrame（DataSet[Row]）	DataSet[T]
类型安全	强类型（编译时检查）	弱类型（运行时检查）	强类型（编译时检查）
数据结构	无 schema，依赖类定义	有 schema，Row 类型无具体字段名	有 schema，与类字段一一对应
优化支持	无自动优化	支持 Catalyst 优化器	支持 Catalyst 优化器
API 风格	函数式编程（map、filter）	SQL 风格（select、where）	函数式 + SQL 风格结合
适用场景	非结构化数据处理	通用结构化数据查询	复杂业务对象处理、类型安全需求

DataSet 的核心优势

编译时类型检查：避免因字段名拼写错误或类型不匹配导致的运行时异常；
直观的对象操作：直接通过类的字段名访问数据（如 user.name），无需解析 Row 对象；
优化的执行计划：继承 DataFrame 的 Catalyst 优化器，兼顾类型安全与性能；
与 Scala/Java 无缝集成：支持自定义类和样例类，贴合面向对象编程习惯。

DataSet 的创建方式

DataSet 的创建依赖类型信息，通常需要定义样例类（Case Class）或 Java Bean 作为数据结构模板。以下是常见创建方式：

从序列（Seq）创建

通过 toDS() 方法将样例类序列转换为 DataSet：

阅读全文 »

CPU 基础知识：结构、原理与性能解析

CPU 的内部结构与核心组件

运算器：数据处理的核心单元

控制器：指令执行的 “指挥系统”

Linux 查看端口占用的两种常用方法：lsof 与 netstat

使用 lsof 查看端口占用

查看指定端口的占用情况

MySQL 自动备份脚本详解

mysqldump 核心参数解析

关键参数对比（锁表策略）：

自动备份脚本

spark自定义函数详解：UDF 与 UDAF 实战指南

自定义函数概述

为什么需要自定义函数？

自定义函数的类型

UDF：用户定义函数（单行处理）

UDF 的定义与注册

Scala 实现 UDF

DataSet编程详解：强类型结构化数据处理的利器

DataSet 的核心特性与价值

DataSet 与 DataFrame、RDD 的对比

DataSet 的核心优势

DataSet 的创建方式

从序列（Seq）创建

使用 `lsof` 查看端口占用

`mysqldump` 核心参数解析