0%

Nginx查找耗时的接口

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
# grep 是筛选的域名   awk中的$5是判断的状态码  sort中的15是指的upstream_response_time  当然也可以统计request_time的时间
#!/bin/bash

# 默认配置
LOG_FILE="/var/log/nginx/access.log" # Nginx日志文件路径
DOMAIN="" # 筛选的域名(空表示所有)
STATUS_CODE="200" # 状态码(空表示所有)
TOP_N=10 # 显示前N条
TIME_FIELD="upstream_response_time" # 统计的时间字段(request_time/upstream_response_time)
TIME_THRESHOLD=0 # 最小耗时阈值(秒,0表示不限制)

# 显示帮助信息
usage() {
echo "用法: $0 [选项]"
echo "分析Nginx日志中耗时较长的接口"
echo "选项:"
echo " -f <日志文件> 指定Nginx日志文件路径(默认: $LOG_FILE)"
echo " -d <域名> 筛选特定域名(如 zhhll.icu)"
echo " -s <状态码> 筛选特定状态码(如 200, 500)"
echo " -n <数量> 显示前N条记录(默认: $TOP_N)"
echo " -t <时间字段> 时间字段(request_time/upstream_response_time, 默认: $TIME_FIELD)"
echo " -T <阈值> 最小耗时阈值(秒,默认: $TIME_THRESHOLD)"
echo " -h 显示帮助信息"
exit 1
}

# 解析命令行参数
while getopts "f:d:s:n:t:T:h" opt; do
case $opt in
f) LOG_FILE="$OPTARG" ;;
d) DOMAIN="$OPTARG" ;;
s) STATUS_CODE="$OPTARG" ;;
n) TOP_N="$OPTARG" ;;
t) TIME_FIELD="$OPTARG" ;;
T) TIME_THRESHOLD="$OPTARG" ;;
h) usage ;;
*) usage ;;
esac
done

# 验证时间字段合法性
if [ "$TIME_FIELD" != "request_time" ] && [ "$TIME_FIELD" != "upstream_response_time" ]; then
echo "错误: 时间字段必须是 request_time 或 upstream_response_time"
exit 1
fi

# 确定时间字段在日志中的列数(根据实际log_format调整)
# 以下假设为默认combined日志格式扩展,包含upstream_response_time
# 请根据实际日志格式修改字段索引
if [ "$TIME_FIELD" = "request_time" ]; then
TIME_COLUMN=10 # 假设request_time在第10列
else
TIME_COLUMN=15 # 假设upstream_response_time在第15列
fi

# 构建筛选条件
FILTER=""
if [ -n "$DOMAIN" ]; then
FILTER="$FILTER | grep '$DOMAIN'"
fi

if [ -n "$STATUS_CODE" ]; then
# 假设状态码在第9列(根据实际日志格式调整)
FILTER="$FILTER | awk '\$9 == $STATUS_CODE {print \$0}'"
fi

# 执行分析命令
echo "分析日志: $LOG_FILE"
echo "筛选条件: 域名=$DOMAIN, 状态码=$STATUS_CODE, 时间字段=$TIME_FIELD, 最小耗时=$TIME_THRESHOLD秒"
echo "----------------------------------------"

eval "cat $LOG_FILE $FILTER | awk -v col=$TIME_COLUMN -v threshold=$TIME_THRESHOLD '
\$col + 0 >= threshold { # 转换为数字比较,过滤小于阈值的记录
print \$col \"\t\" \$7 \"\t\" \$9 # 输出: 耗时 接口路径 状态码
}
' | sort -k1,1nr | head -n $TOP_N"

echo "----------------------------------------"
echo "字段说明: [耗时(秒)] [接口路径] [状态码]"

阅读全文 »

硬盘利用率监控脚本:分区级别的磁盘空间预警

使用vmstat来分析CPU使用信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
#!/bin/bash

# 配置参数
CRITICAL_THRESHOLD=80 # 严重报警阈值(%)
WARNING_THRESHOLD=50 # 警告阈值(%)
CHECK_INTERVAL=60 # 检查间隔(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/cpu_monitor.log"
ALERT_HISTORY="/var/log/cpu_alert_history.log"

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息(兼容多系统)
get_system_info() {
DATE=$(date +%F" "%H:%M:%S)
# 兼容CentOS 6/7/8及Ubuntu
IP=$(hostname -I 2>/dev/null | awk '{print $1}')
if [ -z "$IP" ]; then
IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
fi
HOSTNAME=$(hostname)
}

# 检查依赖命令
check_dependencies() {
if ! which vmstat &>/dev/null; then
log "错误:未找到vmstat命令,请安装procps包"
echo "Error: vmstat command not found. Please install procps package." >&2
exit 1
fi
}

# 获取CPU详细指标
get_cpu_metrics() {
# 使用vmstat 1 2取第二次采样,避免瞬时值偏差
VMSTAT_OUTPUT=$(vmstat 1 2 | tail -1)
US=$(echo $VMSTAT_OUTPUT | awk '{print $13}') # 用户态CPU
SY=$(echo $VMSTAT_OUTPUT | awk '{print $14}') # 系统态CPU
IDLE=$(echo $VMSTAT_OUTPUT | awk '{print $15}') # 空闲CPU
WAIT=$(echo $VMSTAT_OUTPUT | awk '{print $16}') # IO等待CPU
USE=$((US + SY)) # 总使用率
}

# 检查冷却期
is_in_cooldown() {
local current_time=$(date +%s)
local last_alert=$(tail -1 $ALERT_HISTORY 2>/dev/null | awk '{print $1}')

if [ -n "$last_alert" ]; then
local time_diff=$((current_time - last_alert))
# 严重报警冷却30分钟,普通警告冷却2小时
if [ $1 -ge $CRITICAL_THRESHOLD ] && [ $time_diff -lt 1800 ]; then
return 0
elif [ $time_diff -lt 7200 ]; then
return 0
fi
fi
return 1
}

# 记录报警
record_alert() {
echo "$(date +%s) $1" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
local level=$1
local subject="CPU监控报警[$level]:$HOSTNAME($IP)"
local body="
服务器CPU使用率异常,请关注!

时间:$DATE
主机:$HOSTNAME($IP)
CPU使用率:$USE% (用户态:$US% 系统态:$SY%)
空闲CPU:$IDLE%
IO等待:$WAIT%

阈值:警告=$WARNING_THRESHOLD% 严重=$CRITICAL_THRESHOLD%
"

if ! is_in_cooldown $USE; then
echo "$body" | mail -s "$subject" $MAIL
record_alert $USE
log "发送$level报警邮件至$MAIL"
else
log "$level报警处于冷却期,暂不发送邮件"
fi
}

# 主监控逻辑
main() {
check_dependencies
get_system_info
get_cpu_metrics

# 记录常规状态
log "CPU状态 - 总使用率:$USE% (用户:$US% 系统:$SY%) 空闲:$IDLE% IO等待:$WAIT%"

# 判断报警级别
if [ $USE -ge $CRITICAL_THRESHOLD ]; then
log "CPU严重超载:$USE% >= $CRITICAL_THRESHOLD%"
send_alert "严重"
elif [ $USE -ge $WARNING_THRESHOLD ]; then
log "CPU警告:$USE% >= $WARNING_THRESHOLD%"
send_alert "警告"
fi
}

# 运行模式:定时任务单次执行或循环监控
if [ "$1" = "cron" ]; then
main
else
while true; do
main
sleep $CHECK_INTERVAL
done
fi

  1. 多级阈值报警
    区分 “警告”(50%)和 “严重”(80%)两个阈值,根据 CPU 压力等级发送不同紧急程度的报警,避免过度反应或反应不足。
  2. 采样优化
    使用vmstat 1 2取第二次采样结果,过滤系统瞬时波动影响,使监控数据更准确。
  3. 智能冷却机制
    严重报警 30 分钟内不重复发送,普通警告 2 小时内不重复发送,平衡报警及时性和减少干扰。
  4. 全面指标监控
    不仅关注总使用率,还记录用户态 / 系统态 CPU 占比、IO 等待时间(WAIT),帮助定位 CPU 高负载原因(是应用问题还是系统 / IO 问题)。
  5. 跨系统兼容
    优化 IP 获取方式,兼容 CentOS 6/7/8、Ubuntu 等主流发行版,解决原脚本仅支持 CentOS 6 的局限。
  6. 灵活运行模式
    支持作为定时任务(cron)运行,或作为独立进程循环监控,适应不同部署场景

内存利用率利用率监控脚本:自动报警与状态分析

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
#!/bin/bash

# 配置参数
THRESHOLD=1024 # 内存报警阈值(MB)
CHECK_INTERVAL=60 # 检查间隔(秒),如果作为定时任务可注释
MAIL="example@mail.com" # 接收报警的邮箱
LOG_FILE="/var/log/memory_monitor.log" # 日志文件路径

# 确保日志文件存在
touch $LOG_FILE
chmod 644 $LOG_FILE

# 日志函数
log() {
echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
DATE=$(date +%F" "%H:%M)
# 兼容不同版本的ifconfig输出
IP=$(hostname -I | awk '{print $1}') # 更可靠的IP获取方式
if [ -z "$IP" ]; then
IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
fi
}

# 获取内存信息
get_memory_info() {
# 使用更详细的内存计算方式
MEM_INFO=$(free -m | grep Mem)
TOTAL=$(echo $MEM_INFO | awk '{print $2}')
USED=$(echo $MEM_INFO | awk '{print $3}')
FREE=$(echo $MEM_INFO | awk '{print $4}')
BUFFER=$(echo $MEM_INFO | awk '{print $6}')
CACHE=$(echo $MEM_INFO | awk '{print $7}')
# 实际可用内存 = 空闲内存 + 缓冲区 + 缓存
AVAILABLE=$((FREE + BUFFER + CACHE))
# 内存使用率(百分比)
USAGE_RATE=$((USED * 100 / TOTAL))
}

# 发送报警邮件
send_alert() {
SUBJECT="内存报警: $IP 内存不足"
BODY="
服务器内存使用率过高,请及时处理!

日期时间: $DATE
服务器IP: $IP
总内存: $TOTAL MB
已用内存: $USED MB
空闲内存: $FREE MB
缓冲内存: $BUFFER MB
缓存内存: $CACHE MB
实际可用内存: $AVAILABLE MB
内存使用率: $USAGE_RATE%

报警阈值: $THRESHOLD MB
"
echo "$BODY" | mail -s "$SUBJECT" $MAIL
log "发送内存报警邮件至 $MAIL"
}

# 主函数
main() {
get_system_info
get_memory_info

# 记录内存状态
log "内存状态 - 总内存: $TOTAL MB, 已用: $USED MB, 可用: $AVAILABLE MB, 使用率: $USAGE_RATE%"

# 检查是否需要报警
if [ $AVAILABLE -lt $THRESHOLD ]; then
log "内存不足! 可用内存 $AVAILABLE MB 低于阈值 $THRESHOLD MB"
send_alert
fi
}

# 如果作为独立脚本运行,循环监控;如果作为定时任务,只运行一次
if [ "$1" != "cron" ]; then
while true; do
main
sleep $CHECK_INTERVAL
done
else
main
fi

脚本优点

  1. 精准的内存计算逻辑
    不仅简单计算表面空闲内存,还通过 实际可用内存 = 空闲内存 + 缓冲区 + 缓存 的公式,贴合 Linux 内存管理机制(缓存和缓冲区可被系统自动释放),避免误报。同时增加内存使用率百分比,直观反映内存压力。
  2. 灵活的运行模式
    支持两种运行方式:
    • 作为独立进程循环监控(适合临时值守);
    • 作为定时任务通过 crontab 运行(适合长期监控),适配不同场景需求。
  3. 完善的日志系统
    所有监控状态(正常 / 报警)均记录到日志文件,便于追溯内存变化趋势,为问题分析提供历史数据支持。
  4. 健壮的异常处理
    • 兼容不同 Linux 发行版的 IP 地址获取方式(hostname -Iifconfig 双重兼容);
    • 自动创建日志文件并设置权限,避免因文件不存在导致脚本报错。
  5. 清晰的报警信息
    报警邮件包含总内存、已用内存、缓存、使用率等详细指标,而非简单的 “内存不足” 提示,帮助运维人员快速判断问题严重程度
  6. 模块化设计
    将系统信息获取、内存计算、日志记录、邮件发送等功能拆分为独立函数,便于后续修改或增加新功能(如添加微信 / 短信报警)

使用方法

  1. 保存脚本为memory_monitor.sh
  2. 修改脚本中的配置参数(尤其是邮箱地址)
  3. 赋予执行权限:chmod +x memory_monitor.sh
  4. 运行方式:
    • 直接运行(循环监控):./memory_monitor.sh
    • 作为定时任务(添加到 crontab):*/5 * * * * /path/to/memory_monitor.sh cron

注意事项

  1. 确保系统已安装mail工具,否则需要先安装(如yum install mailx
  2. 首次使用建议测试邮件发送功能是否正常
  3. 根据服务器内存大小调整合适的报警阈值
  4. 对于生产环境,建议结合更专业的监控工具(如 Prometheus+Grafana)使用

硬盘利用率监控脚本:分区级别的磁盘空间预警

使用fdisk来分析硬盘使用信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
#!/bin/bash

# 配置参数
THRESHOLD=80 # 磁盘使用率报警阈值(%)
COOLDOWN=3600 # 重复报警冷却时间(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/disk_monitor.log"
ALERT_HISTORY="/var/log/disk_alert_history.log" # 记录报警历史,用于冷却控制

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
DATE=$(date +%F" "%H:%M)
IP=$(hostname -I | awk '{print $1}') # 兼容更多系统的IP获取方式
if [ -z "$IP" ]; then
IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
fi
}

# 获取总磁盘信息(兼容sd、vd、nvme等类型)
get_total_disk() {
TOTAL=$(fdisk -l 2>/dev/null | awk -F'[: ]+' '
BEGIN{OFS="="}
/^Disk \/dev\/(sd|vd|nvme)/{ # 支持多种磁盘命名
size=$3
if ($4 == "GB") size=$3
else if ($4 == "TB") size=$3*1024 # 转换TB为GB
printf "%s=%.0fG,", $2, size
}
')
# 移除末尾多余的逗号
TOTAL=${TOTAL%,}
}

# 检查是否在冷却期内
is_in_cooldown() {
local part=$1
local current_time=$(date +%s)
# 查找该分区最后一次报警时间
local last_alert=$(grep "$part" $ALERT_HISTORY | tail -1 | awk '{print $1}')

if [ -n "$last_alert" ]; then
local time_diff=$((current_time - last_alert))
if [ $time_diff -lt $COOLDOWN ]; then
return 0 # 在冷却期内
fi
fi
return 1 # 不在冷却期内
}

# 记录报警历史
record_alert() {
local part=$1
echo "$(date +%s) $part" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
local part=$1
local use=$2
local mount=$3

# 检查冷却期
if is_in_cooldown "$part"; then
log "分区 $part 仍在冷却期内,暂不重复报警"
return
fi

SUBJECT="磁盘报警: $IP 分区 $part 使用率过高"
BODY="
服务器磁盘分区使用率超过阈值,请及时处理!

日期时间: $DATE
服务器IP: $IP
总磁盘容量: $TOTAL
问题分区: $part
使用率: $use%
挂载点: $mount
报警阈值: $THRESHOLD%
"
echo "$BODY" | mail -s "$SUBJECT" $MAIL
record_alert "$part"
log "已发送 $part 报警邮件至 $MAIL"
}

# 主监控逻辑
main() {
get_system_info
get_total_disk
log "开始磁盘监控检查 - 总磁盘: $TOTAL"

# 遍历所有挂载的磁盘分区(排除tmpfs等虚拟文件系统)
df -h | awk 'BEGIN{OFS="="}/^\/dev\/(sd|vd|nvme)/{print $1, $5+0, $6}' | while read -r line; do
PART=$(echo $line | cut -d"=" -f1)
USE=$(echo $line | cut -d"=" -f2)
MOUNT=$(echo $line | cut -d"=" -f3)

log "检查分区 $PART - 使用率: $USE% 挂载点: $MOUNT"

if [ $USE -gt $THRESHOLD ]; then
log "分区 $PART 使用率 $USE% 超过阈值 $THRESHOLD%"
send_alert "$PART" "$USE" "$MOUNT"
fi
done
}

# 执行主函数
main

spark连接 Hive 全指南:从配置到实战

Spark 与 Hive 的集成是大数据生态中常见的场景,Spark 提供了对 Hive 元数据和数据的无缝访问能力,允许用户通过 Spark SQL 操作 Hive 表数据。本文将详细讲解 Spark 连接 Hive 的配置步骤、访问方式及常见问题解决,帮助你快速实现两者的集成。

Spark 与 Hive 集成的核心原理

Spark 连接 Hive 的本质是通过共享 Hive 元数据实现数据访问:

  • 元数据(Metastore):Hive 的元数据存储在关系型数据库(如 MySQL)中,记录了表结构、分区信息等;
  • 数据存储:Hive 表数据通常存储在 HDFS 或对象存储(如 S3)中,格式包括 Parquet、ORC、CSV 等;
  • Spark 角色:Spark 作为计算引擎,通过读取 Hive 元数据定位数据位置,直接操作底层数据文件,替代 Hive 的 MapReduce 执行引擎。

Spark 连接 Hive 的前置条件

在配置集成前,需确保以下环境就绪:

  1. Hive 环境正常运行
    • Hive Metastore 服务已启动(负责元数据管理);
    • Hive 表数据已存储在 HDFS 或其他存储系统中。
  2. Spark 环境准备
    • 下载与 Hive 版本兼容的 Spark 发行版(推荐 Spark 2.4+ 搭配 Hive 2.3+);
    • 确保 Spark 节点能访问 Hive Metastore 和 HDFS 集群。
  3. 依赖组件
    • MySQL 驱动(Hive Metastore 若使用 MySQL 存储元数据);
    • Hadoop 配置文件(core-site.xmlhdfs-site.xml)。

Spark 连接 Hive 的配置步骤

集成 Hive 元数据配置

复制 Hive 配置文件

将 Hive 的核心配置文件复制到 Spark 的 conf 目录,确保 Spark 能读取 Hive 元数据信息:

阅读全文 »