小菜鸟

Nginx查找耗时的接口

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

Nginx查找耗时的接口

# grep 是筛选的域名   awk中的$5是判断的状态码  sort中的15是指的upstream_response_time  当然也可以统计request_time的时间
#!/bin/bash

# 默认配置
LOG_FILE="/var/log/nginx/access.log"  # Nginx日志文件路径
DOMAIN=""                             # 筛选的域名(空表示所有)
STATUS_CODE="200"                     # 状态码(空表示所有)
TOP_N=10                              # 显示前N条
TIME_FIELD="upstream_response_time"   # 统计的时间字段(request_time/upstream_response_time)
TIME_THRESHOLD=0                      # 最小耗时阈值(秒，0表示不限制)

# 显示帮助信息
usage() {
    echo "用法: $0 [选项]"
    echo "分析Nginx日志中耗时较长的接口"
    echo "选项:"
    echo "  -f <日志文件>   指定Nginx日志文件路径(默认: $LOG_FILE)"
    echo "  -d <域名>       筛选特定域名(如 zhhll.icu)"
    echo "  -s <状态码>     筛选特定状态码(如 200, 500)"
    echo "  -n <数量>       显示前N条记录(默认: $TOP_N)"
    echo "  -t <时间字段>   时间字段(request_time/upstream_response_time, 默认: $TIME_FIELD)"
    echo "  -T <阈值>       最小耗时阈值(秒，默认: $TIME_THRESHOLD)"
    echo "  -h              显示帮助信息"
    exit 1
}

# 解析命令行参数
while getopts "f:d:s:n:t:T:h" opt; do
    case $opt in
        f) LOG_FILE="$OPTARG" ;;
        d) DOMAIN="$OPTARG" ;;
        s) STATUS_CODE="$OPTARG" ;;
        n) TOP_N="$OPTARG" ;;
        t) TIME_FIELD="$OPTARG" ;;
        T) TIME_THRESHOLD="$OPTARG" ;;
        h) usage ;;
        *) usage ;;
    esac
done

# 验证时间字段合法性
if [ "$TIME_FIELD" != "request_time" ] && [ "$TIME_FIELD" != "upstream_response_time" ]; then
    echo "错误: 时间字段必须是 request_time 或 upstream_response_time"
    exit 1
fi

# 确定时间字段在日志中的列数(根据实际log_format调整)
# 以下假设为默认combined日志格式扩展，包含upstream_response_time
# 请根据实际日志格式修改字段索引
if [ "$TIME_FIELD" = "request_time" ]; then
    TIME_COLUMN=10  # 假设request_time在第10列
else
    TIME_COLUMN=15  # 假设upstream_response_time在第15列
fi

# 构建筛选条件
FILTER=""
if [ -n "$DOMAIN" ]; then
    FILTER="$FILTER | grep '$DOMAIN'"
fi

if [ -n "$STATUS_CODE" ]; then
    # 假设状态码在第9列(根据实际日志格式调整)
    FILTER="$FILTER | awk '\$9 == $STATUS_CODE {print \$0}'"
fi

# 执行分析命令
echo "分析日志: $LOG_FILE"
echo "筛选条件: 域名=$DOMAIN, 状态码=$STATUS_CODE, 时间字段=$TIME_FIELD, 最小耗时=$TIME_THRESHOLD秒"
echo "----------------------------------------"

eval "cat $LOG_FILE $FILTER | awk -v col=$TIME_COLUMN -v threshold=$TIME_THRESHOLD '
    \$col + 0 >= threshold {  # 转换为数字比较，过滤小于阈值的记录
        print \$col \"\t\" \$7 \"\t\" \$9  # 输出: 耗时 接口路径 状态码
    }
' | sort -k1,1nr | head -n $TOP_N"

echo "----------------------------------------"
echo "字段说明: [耗时(秒)]  [接口路径]  [状态码]"

阅读全文 »

监控CPU利用率

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

硬盘利用率监控脚本：分区级别的磁盘空间预警

使用vmstat来分析CPU使用信息

#!/bin/bash

# 配置参数
CRITICAL_THRESHOLD=80   # 严重报警阈值(%)
WARNING_THRESHOLD=50    # 警告阈值(%)
CHECK_INTERVAL=60       # 检查间隔(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/cpu_monitor.log"
ALERT_HISTORY="/var/log/cpu_alert_history.log"

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
    echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息（兼容多系统）
get_system_info() {
    DATE=$(date +%F" "%H:%M:%S)
    # 兼容CentOS 6/7/8及Ubuntu
    IP=$(hostname -I 2>/dev/null | awk '{print $1}')
    if [ -z "$IP" ]; then
        IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
    fi
    HOSTNAME=$(hostname)
}

# 检查依赖命令
check_dependencies() {
    if ! which vmstat &>/dev/null; then
        log "错误：未找到vmstat命令，请安装procps包"
        echo "Error: vmstat command not found. Please install procps package." >&2
        exit 1
    fi
}

# 获取CPU详细指标
get_cpu_metrics() {
    # 使用vmstat 1 2取第二次采样，避免瞬时值偏差
    VMSTAT_OUTPUT=$(vmstat 1 2 | tail -1)
    US=$(echo $VMSTAT_OUTPUT | awk '{print $13}')  # 用户态CPU
    SY=$(echo $VMSTAT_OUTPUT | awk '{print $14}')  # 系统态CPU
    IDLE=$(echo $VMSTAT_OUTPUT | awk '{print $15}') # 空闲CPU
    WAIT=$(echo $VMSTAT_OUTPUT | awk '{print $16}') # IO等待CPU
    USE=$((US + SY))                               # 总使用率
}

# 检查冷却期
is_in_cooldown() {
    local current_time=$(date +%s)
    local last_alert=$(tail -1 $ALERT_HISTORY 2>/dev/null | awk '{print $1}')
    
    if [ -n "$last_alert" ]; then
        local time_diff=$((current_time - last_alert))
        # 严重报警冷却30分钟，普通警告冷却2小时
        if [ $1 -ge $CRITICAL_THRESHOLD ] && [ $time_diff -lt 1800 ]; then
            return 0
        elif [ $time_diff -lt 7200 ]; then
            return 0
        fi
    fi
    return 1
}

# 记录报警
record_alert() {
    echo "$(date +%s) $1" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
    local level=$1
    local subject="CPU监控报警[$level]：$HOSTNAME($IP)"
    local body="
    服务器CPU使用率异常，请关注！
    
    时间：$DATE
    主机：$HOSTNAME($IP)
    CPU使用率：$USE% (用户态：$US% 系统态：$SY%)
    空闲CPU：$IDLE%
    IO等待：$WAIT%
    
    阈值：警告=$WARNING_THRESHOLD%  严重=$CRITICAL_THRESHOLD%
    "
    
    if ! is_in_cooldown $USE; then
        echo "$body" | mail -s "$subject" $MAIL
        record_alert $USE
        log "发送$level报警邮件至$MAIL"
    else
        log "$level报警处于冷却期，暂不发送邮件"
    fi
}

# 主监控逻辑
main() {
    check_dependencies
    get_system_info
    get_cpu_metrics
    
    # 记录常规状态
    log "CPU状态 - 总使用率：$USE% (用户：$US% 系统：$SY%) 空闲：$IDLE% IO等待：$WAIT%"
    
    # 判断报警级别
    if [ $USE -ge $CRITICAL_THRESHOLD ]; then
        log "CPU严重超载：$USE% >= $CRITICAL_THRESHOLD%"
        send_alert "严重"
    elif [ $USE -ge $WARNING_THRESHOLD ]; then
        log "CPU警告：$USE% >= $WARNING_THRESHOLD%"
        send_alert "警告"
    fi
}

# 运行模式：定时任务单次执行或循环监控
if [ "$1" = "cron" ]; then
    main
else
    while true; do
        main
        sleep $CHECK_INTERVAL
    done
fi

多级阈值报警
区分 “警告”（50%）和 “严重”（80%）两个阈值，根据 CPU 压力等级发送不同紧急程度的报警，避免过度反应或反应不足。
采样优化
使用vmstat 1 2取第二次采样结果，过滤系统瞬时波动影响，使监控数据更准确。
智能冷却机制
严重报警 30 分钟内不重复发送，普通警告 2 小时内不重复发送，平衡报警及时性和减少干扰。
全面指标监控
不仅关注总使用率，还记录用户态 / 系统态 CPU 占比、IO 等待时间（WAIT），帮助定位 CPU 高负载原因（是应用问题还是系统 / IO 问题）。
跨系统兼容
优化 IP 获取方式，兼容 CentOS 6/7/8、Ubuntu 等主流发行版，解决原脚本仅支持 CentOS 6 的局限。
灵活运行模式
支持作为定时任务（cron）运行，或作为独立进程循环监控，适应不同部署场景

监控内存利用率

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 2.6k 阅读时长 ≈ 2 分钟

内存利用率利用率监控脚本：自动报警与状态分析

#!/bin/bash

# 配置参数
THRESHOLD=1024  # 内存报警阈值(MB)
CHECK_INTERVAL=60  # 检查间隔(秒)，如果作为定时任务可注释
MAIL="example@mail.com"  # 接收报警的邮箱
LOG_FILE="/var/log/memory_monitor.log"  # 日志文件路径

# 确保日志文件存在
touch $LOG_FILE
chmod 644 $LOG_FILE

# 日志函数
log() {
    echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
    DATE=$(date +%F" "%H:%M)
    # 兼容不同版本的ifconfig输出
    IP=$(hostname -I | awk '{print $1}')  # 更可靠的IP获取方式
    if [ -z "$IP" ]; then
        IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
    fi
}

# 获取内存信息
get_memory_info() {
    # 使用更详细的内存计算方式
    MEM_INFO=$(free -m | grep Mem)
    TOTAL=$(echo $MEM_INFO | awk '{print $2}')
    USED=$(echo $MEM_INFO | awk '{print $3}')
    FREE=$(echo $MEM_INFO | awk '{print $4}')
    BUFFER=$(echo $MEM_INFO | awk '{print $6}')
    CACHE=$(echo $MEM_INFO | awk '{print $7}')
    # 实际可用内存 = 空闲内存 + 缓冲区 + 缓存
    AVAILABLE=$((FREE + BUFFER + CACHE))
    # 内存使用率(百分比)
    USAGE_RATE=$((USED * 100 / TOTAL))
}

# 发送报警邮件
send_alert() {
    SUBJECT="内存报警: $IP 内存不足"
    BODY="
    服务器内存使用率过高，请及时处理！
    
    日期时间: $DATE
    服务器IP: $IP
    总内存: $TOTAL MB
    已用内存: $USED MB
    空闲内存: $FREE MB
    缓冲内存: $BUFFER MB
    缓存内存: $CACHE MB
    实际可用内存: $AVAILABLE MB
    内存使用率: $USAGE_RATE%
    
    报警阈值: $THRESHOLD MB
    "
    echo "$BODY" | mail -s "$SUBJECT" $MAIL
    log "发送内存报警邮件至 $MAIL"
}

# 主函数
main() {
    get_system_info
    get_memory_info
    
    # 记录内存状态
    log "内存状态 - 总内存: $TOTAL MB, 已用: $USED MB, 可用: $AVAILABLE MB, 使用率: $USAGE_RATE%"
    
    # 检查是否需要报警
    if [ $AVAILABLE -lt $THRESHOLD ]; then
        log "内存不足! 可用内存 $AVAILABLE MB 低于阈值 $THRESHOLD MB"
        send_alert
    fi
}

# 如果作为独立脚本运行，循环监控；如果作为定时任务，只运行一次
if [ "$1" != "cron" ]; then
    while true; do
        main
        sleep $CHECK_INTERVAL
    done
else
    main
fi

脚本优点

精准的内存计算逻辑
不仅简单计算表面空闲内存，还通过 实际可用内存 = 空闲内存 + 缓冲区 + 缓存 的公式，贴合 Linux 内存管理机制（缓存和缓冲区可被系统自动释放），避免误报。同时增加内存使用率百分比，直观反映内存压力。
灵活的运行模式
支持两种运行方式：
- 作为独立进程循环监控（适合临时值守）；
- 作为定时任务通过 crontab 运行（适合长期监控），适配不同场景需求。
完善的日志系统
所有监控状态（正常 / 报警）均记录到日志文件，便于追溯内存变化趋势，为问题分析提供历史数据支持。
健壮的异常处理
- 兼容不同 Linux 发行版的 IP 地址获取方式（hostname -I 与 ifconfig 双重兼容）；
- 自动创建日志文件并设置权限，避免因文件不存在导致脚本报错。
清晰的报警信息
报警邮件包含总内存、已用内存、缓存、使用率等详细指标，而非简单的 “内存不足” 提示，帮助运维人员快速判断问题严重程度
模块化设计
将系统信息获取、内存计算、日志记录、邮件发送等功能拆分为独立函数，便于后续修改或增加新功能（如添加微信 / 短信报警）

使用方法

保存脚本为memory_monitor.sh
修改脚本中的配置参数（尤其是邮箱地址）
赋予执行权限：chmod +x memory_monitor.sh
运行方式：
- 直接运行（循环监控）：./memory_monitor.sh
- 作为定时任务（添加到 crontab）：*/5 * * * * /path/to/memory_monitor.sh cron

注意事项

确保系统已安装mail工具，否则需要先安装（如yum install mailx）
首次使用建议测试邮件发送功能是否正常
根据服务器内存大小调整合适的报警阈值
对于生产环境，建议结合更专业的监控工具（如 Prometheus+Grafana）使用

监控硬盘利用率

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

硬盘利用率监控脚本：分区级别的磁盘空间预警

使用fdisk来分析硬盘使用信息

#!/bin/bash

# 配置参数
THRESHOLD=80          # 磁盘使用率报警阈值(%)
COOLDOWN=3600         # 重复报警冷却时间(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/disk_monitor.log"
ALERT_HISTORY="/var/log/disk_alert_history.log"  # 记录报警历史，用于冷却控制

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
    echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
    DATE=$(date +%F" "%H:%M)
    IP=$(hostname -I | awk '{print $1}')  # 兼容更多系统的IP获取方式
    if [ -z "$IP" ]; then
        IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
    fi
}

# 获取总磁盘信息（兼容sd、vd、nvme等类型）
get_total_disk() {
    TOTAL=$(fdisk -l 2>/dev/null | awk -F'[: ]+' '
        BEGIN{OFS="="}
        /^Disk \/dev\/(sd|vd|nvme)/{  # 支持多种磁盘命名
            size=$3
            if ($4 == "GB") size=$3
            else if ($4 == "TB") size=$3*1024  # 转换TB为GB
            printf "%s=%.0fG,", $2, size
        }
    ')
    # 移除末尾多余的逗号
    TOTAL=${TOTAL%,}
}

# 检查是否在冷却期内
is_in_cooldown() {
    local part=$1
    local current_time=$(date +%s)
    # 查找该分区最后一次报警时间
    local last_alert=$(grep "$part" $ALERT_HISTORY | tail -1 | awk '{print $1}')
    
    if [ -n "$last_alert" ]; then
        local time_diff=$((current_time - last_alert))
        if [ $time_diff -lt $COOLDOWN ]; then
            return 0  # 在冷却期内
        fi
    fi
    return 1  # 不在冷却期内
}

# 记录报警历史
record_alert() {
    local part=$1
    echo "$(date +%s) $part" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
    local part=$1
    local use=$2
    local mount=$3
    
    # 检查冷却期
    if is_in_cooldown "$part"; then
        log "分区 $part 仍在冷却期内，暂不重复报警"
        return
    fi
    
    SUBJECT="磁盘报警: $IP 分区 $part 使用率过高"
    BODY="
    服务器磁盘分区使用率超过阈值，请及时处理！
    
    日期时间: $DATE
    服务器IP: $IP
    总磁盘容量: $TOTAL
    问题分区: $part
    使用率: $use%
    挂载点: $mount
    报警阈值: $THRESHOLD%
    "
    echo "$BODY" | mail -s "$SUBJECT" $MAIL
    record_alert "$part"
    log "已发送 $part 报警邮件至 $MAIL"
}

# 主监控逻辑
main() {
    get_system_info
    get_total_disk
    log "开始磁盘监控检查 - 总磁盘: $TOTAL"
    
    # 遍历所有挂载的磁盘分区（排除tmpfs等虚拟文件系统）
    df -h | awk 'BEGIN{OFS="="}/^\/dev\/(sd|vd|nvme)/{print $1, $5+0, $6}' | while read -r line; do
        PART=$(echo $line | cut -d"=" -f1)
        USE=$(echo $line | cut -d"=" -f2)
        MOUNT=$(echo $line | cut -d"=" -f3)
        
        log "检查分区 $PART - 使用率: $USE% 挂载点: $MOUNT"
        
        if [ $USE -gt $THRESHOLD ]; then
            log "分区 $PART 使用率 $USE% 超过阈值 $THRESHOLD%"
            send_alert "$PART" "$USE" "$MOUNT"
        fi
    done
}

# 执行主函数
main

spark中连接hive

发表于 2021-05-27 更新于 2025-07-29 分类于 spark 阅读次数： Valine：
本文字数： 5.5k 阅读时长 ≈ 5 分钟

spark连接 Hive 全指南：从配置到实战

Spark 与 Hive 的集成是大数据生态中常见的场景，Spark 提供了对 Hive 元数据和数据的无缝访问能力，允许用户通过 Spark SQL 操作 Hive 表数据。本文将详细讲解 Spark 连接 Hive 的配置步骤、访问方式及常见问题解决，帮助你快速实现两者的集成。

Spark 与 Hive 集成的核心原理

Spark 连接 Hive 的本质是通过共享 Hive 元数据实现数据访问：

元数据（Metastore）：Hive 的元数据存储在关系型数据库（如 MySQL）中，记录了表结构、分区信息等；
数据存储：Hive 表数据通常存储在 HDFS 或对象存储（如 S3）中，格式包括 Parquet、ORC、CSV 等；
Spark 角色：Spark 作为计算引擎，通过读取 Hive 元数据定位数据位置，直接操作底层数据文件，替代 Hive 的 MapReduce 执行引擎。

Spark 连接 Hive 的前置条件

在配置集成前，需确保以下环境就绪：

Hive 环境正常运行：
- Hive Metastore 服务已启动（负责元数据管理）；
- Hive 表数据已存储在 HDFS 或其他存储系统中。
Spark 环境准备：
- 下载与 Hive 版本兼容的 Spark 发行版（推荐 Spark 2.4+ 搭配 Hive 2.3+）；
- 确保 Spark 节点能访问 Hive Metastore 和 HDFS 集群。
依赖组件：
- MySQL 驱动（Hive Metastore 若使用 MySQL 存储元数据）；
- Hadoop 配置文件（core-site.xml、hdfs-site.xml）。

Spark 连接 Hive 的配置步骤

集成 Hive 元数据配置

复制 Hive 配置文件

将 Hive 的核心配置文件复制到 Spark 的 conf 目录，确保 Spark 能读取 Hive 元数据信息：

阅读全文 »