小菜鸟

设置ulimit

发表于 2021-06-08 更新于 2025-08-24 分类于 linux 阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

深入理解和配置 CentOS 中的 ulimit：从临时调整到生产环境优化

在 Linux 系统中，ulimit 是控制进程资源使用的关键工具，尤其是最大打开文件数（open files）的限制，直接影响高并发服务（如 Web 服务器、数据库）的稳定性。本文将系统讲解 ulimit 的配置方法和注意事项。

为什么需要调整 ulimit？

默认情况下，CentOS 的 open files 限制为 1024，这在以下场景中会成为瓶颈：

高并发服务：Nginx、Apache 等 Web 服务器需要同时处理大量连接（每个连接对应一个文件句柄）。
数据库服务：MySQL、PostgreSQL 会打开大量数据文件和连接句柄。
分布式系统：Kafka、Elasticsearch 等组件需要维护大量网络连接和文件句柄。

当超过限制时，会出现 too many open files 错误，导致服务异常或连接失败。

ulimit 配置的完整方案

临时调整（当前 shell 会话生效）

# 查看当前 open files 限制
ulimit -n

# 临时修改（同时设置软限制和硬限制）
ulimit -n 655360

# 单独设置软限制（-S）和硬限制（-H）
ulimit -Sn 655360  # 软限制：可临时突破，会警告
ulimit -Hn 1048576 # 硬限制：绝对上限，非 root 无法修改

适用场景：临时测试或紧急调整，无需重启服务。

永久配置（全局生效）

（1）修改 `/etc/security/limits.conf`

这是最常用的全局配置方法，对所有用户生效：

1	sudo vi /etc/security/limits.conf

添加以下配置（格式：用户限制类型限制项数值）：

# 对所有用户设置最大打开文件数（软+硬限制）
* - nofile 655360

# 对 root 用户单独设置更高限制（可选）
root - nofile 1048576

# 限制最大进程数（避免 fork 炸弹）
* - nproc 65535

（2）处理 `limits.d` 目录的覆盖问题

CentOS 会加载 /etc/security/limits.d/ 目录下的配置文件，优先级高于 limits.conf。例如 20-nproc.conf 可能限制进程数，需同步修改：

阅读全文 »

设置网络参数

发表于 2021-06-08 更新于 2025-08-06 分类于 linux 阅读次数： Valine：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

Linux 网络参数优化指南：通过 sysctl.conf 提升系统网络性能

在高并发网络场景（如 Web 服务器、API 网关、数据库集群）中，默认的 Linux 网络参数往往无法满足需求，可能导致连接超时、丢包、性能瓶颈等问题。通过调整 /etc/sysctl.conf 中的核心参数，可以显著提升系统的网络处理能力。本文将详细解析关键网络参数的作用及优化配置。

核心网络队列参数（net.core）

这类参数控制网络接口的数据包接收 / 发送队列，避免因处理速度不足导致丢包。

参数	作用	默认值	推荐配置（高并发场景）
`net.core.netdev_max_backlog`	当网卡接收数据包的速率超过内核处理速率时，允许暂存的最大数据包数（防止丢包）	1000	4096-16384（根据网卡带宽调整，高带宽网卡建议更大）
`net.core.somaxconn`	监听套接字（`listen()`）的最大排队连接数（三次握手未完成的连接）	128	1024-8192（需与应用层监听队列大小配合，如 Nginx 的 `backlog`）

TCP 连接管理参数（net.ipv4.tcp）

1. SYN 握手与防攻击参数

控制 TCP 三次握手过程中的队列和重试策略，平衡安全性与并发能力。

阅读全文 »

sqoop导出

发表于 2021-06-07 更新于 2025-07-27 分类于 sqoop 阅读次数： Valine：
本文字数： 3.4k 阅读时长 ≈ 3 分钟

sqoop导出详解：从 Hadoop 生态到关系型数据库

Sqoop 导出（Export）是将 HDFS、Hive 等分布式存储中的数据同步到关系型数据库（如 MySQL）的核心功能，适用于将大数据分析结果反馈到业务数据库、支持业务决策的场景。本文将详细介绍 Sqoop 导出的操作步骤、核心参数及注意事项，帮助读者高效完成数据导出任务。

Sqoop 导出核心原理

Sqoop 导出与导入的流程类似，均基于 MapReduce 实现，但数据流向相反：

Sqoop 解析导出命令，生成 MapReduce 作业；
Map 任务从 HDFS 或 Hive 读取数据（按指定格式解析）；
通过 JDBC 连接关系型数据库，将数据批量写入目标表；
支持事务或批量提交，确保数据一致性。

导出过程同样仅使用 Map 任务，无 Reduce 阶段，避免数据 shuffle，提升效率。

Sqoop 导出实战示例

从 HDFS 导出到 MySQL

将 HDFS 目录中的数据导出到 MySQL 表，适用于 HDFS 中预处理后的结果同步。

命令示例

sqoop export \  
  --connect jdbc:mysql://localhost:3306/company \  # 数据库连接 URL  
  --username root \                                # 数据库用户名  
  --password 123456 \                              # 数据库密码  
  --table staff \                                  # 目标 MySQL 表名  
  --num-mappers 1 \                                # Map 任务数量（并行度）  
  --export-dir /user/hive/warehouse/staff_hive \   # HDFS 数据源目录  
  --input-fields-terminated-by "\t"                # 输入数据的字段分隔符

阅读全文 »

sqoop导入

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 3.6k 阅读时长 ≈ 3 分钟

sqoop导入全指南：从关系型数据库到 Hadoop 生态

Sqoop 作为 Hadoop 与关系型数据库之间的数据同步工具，其核心功能之一是将关系型数据库（如 MySQL）的数据导入到 HDFS、Hive 等分布式存储系统中。本文将详细介绍 Sqoop 导入的多种场景（全量导入、条件导入、Hive 导入等），并解析核心参数的使用方法，帮助读者灵活应对不同的数据同步需求。

Sqoop 导入核心原理

Sqoop 导入的本质是将 SQL 查询转换为 MapReduce 作业，通过以下步骤完成数据同步：

Sqoop 解析用户输入的 SQL 命令或表信息，生成 MapReduce 作业；
Map 任务通过 JDBC 连接关系型数据库，并行读取数据；
数据被写入目标存储（HDFS 或 Hive），并按指定格式分割（如 \t 分隔）；
若导入 Hive，额外执行 HiveQL 将 HDFS 数据加载到 Hive 表中。

整个过程仅使用 Map 任务（无 Reduce 任务），避免数据 shuffle，提高效率。

Sqoop 导入实战场景

全量导入到 HDFS

将关系型数据库中的整张表数据完整导入到 HDFS 指定目录，适用于初始化数据或全量同步场景。

命令示例

sqoop import \  
  --connect jdbc:mysql://localhost:3306/company \  # 数据库连接 URL  
  --username root \                                # 数据库用户名  
  --password 123456 \                              # 数据库密码  
  --table staff \                                  # 要导入的表名  
  --target-dir /user/sqoop/company \               # HDFS 目标目录  
  --delete-target-dir \                            # 若目标目录存在则删除（避免数据重复）  
  --num-mappers 1 \                                # Map 任务数量（并行度）  
  --fields-terminated-by "\t"                      # 字段分隔符（默认逗号）

关键参数解析

--table：指定源表名，Sqoop 会自动读取表结构并生成对应的数据文件；
--delete-target-dir：防止目标目录已存在导致的导入失败，适合定时全量覆盖场景；
--num-mappers：控制并行度，过多会增加数据库压力，建议根据表大小设置（1-10 为宜）。

阅读全文 »

sqoop配置

发表于 2021-06-07 更新于 2025-07-26 分类于 sqoop 阅读次数： Valine：
本文字数： 3k 阅读时长 ≈ 3 分钟

sqoop配置详解

Sqoop 作为 Hadoop 与关系型数据库的桥梁，其配置直接影响数据同步的稳定性和效率。本文将详细介绍 Sqoop 的核心配置步骤，包括环境变量设置、驱动安装及数据库连接测试，帮助读者快速完成 Sqoop 环境搭建。

核心配置文件：sqoop-env.sh

Sqoop 的环境变量配置通过 sqoop-env.sh 文件实现，该文件定义了 Sqoop 依赖的 Hadoop 生态组件路径。配置前需确保 Hadoop、Hive 等组件已正确安装并能正常运行。

配置步骤

定位配置文件：
Sqoop 的配置文件位于 $SQOOP_HOME/conf/ 目录下，默认提供模板文件 sqoop-env-template.sh，需复制为实际配置文件：
1
2
cd $SQOOP_HOME/conf
cp sqoop-env-template.sh sqoop-env.sh

编辑环境变量：
打开 sqoop-env.sh，添加以下配置（需替换为实际安装路径）：

# Hadoop 公共组件路径（HDFS、YARN 等）  
export HADOOP_COMMON_HOME=/usr/local/myself/hadoop-3.3.0  

# MapReduce 路径（Sqoop 依赖 MapReduce 执行数据同步）  
export HADOOP_MAPRED_HOME=/usr/local/myself/hadoop-3.3.0  

# Hive 路径（若需与 Hive 交互，如导入数据到 Hive 表）  
export HIVE_HOME=/usr/local/myself/apache-hive-3.1.2-bin  

# ZooKeeper 路径（若依赖 ZooKeeper，如与 HBase 交互）  
export ZOOKEEPER_HOME=/usr/local/myself/apache-zookeeper-3.6.1-bin  
export ZOOCFGDIR=/usr/local/myself/apache-zookeeper-3.6.1-bin/conf  

# HBase 路径（若需与 HBase 交互）  
export HBASE_HOME=/usr/local/myself/hbase-2.2.7

阅读全文 »

深入理解和配置 CentOS 中的 ulimit：从临时调整到生产环境优化

为什么需要调整 ulimit？

ulimit 配置的完整方案

临时调整（当前 shell 会话生效）

永久配置（全局生效）

（1）修改 /etc/security/limits.conf

（2）处理 limits.d 目录的覆盖问题

Linux 网络参数优化指南：通过 sysctl.conf 提升系统网络性能

核心网络队列参数（net.core）

TCP 连接管理参数（net.ipv4.tcp）

1. SYN 握手与防攻击参数

sqoop导出详解：从 Hadoop 生态到关系型数据库

Sqoop 导出核心原理

Sqoop 导出实战示例

从 HDFS 导出到 MySQL

命令示例

sqoop导入全指南：从关系型数据库到 Hadoop 生态

Sqoop 导入核心原理

Sqoop 导入实战场景

全量导入到 HDFS

命令示例

关键参数解析

sqoop配置详解

核心配置文件：sqoop-env.sh

配置步骤

（1）修改 `/etc/security/limits.conf`

（2）处理 `limits.d` 目录的覆盖问题