0%

服务注册中心:微服务架构的 “导航系统”

在微服务架构中,服务数量庞大且动态变化(上线、下线、扩容、迁移),传统的硬编码服务地址或静态负载均衡已无法满足需求。服务注册中心作为微服务的 “导航系统”,负责服务的注册、发现和健康管理,是实现服务动态协同的核心组件。

为什么需要服务注册中心?

在单体应用或小规模服务中,可通过硬编码地址或负载均衡设备(如 Nginx)管理服务,但在微服务架构下存在明显缺陷:

  1. 服务地址动态变化:微服务频繁扩容、缩容或迁移,硬编码地址需手动更新,易出错;
  2. 单点故障风险:依赖单一负载均衡设备(如 F5、Nginx),可能成为系统瓶颈或单点故障;
  3. 服务健康管理:无法自动检测服务是否可用,可能将请求路由到已宕机的服务。

服务注册中心通过以下方式解决这些问题:

  • 动态管理服务地址,服务启动时自动注册,下线时自动注销;
  • 提供服务发现机制,消费者无需知晓具体地址,通过服务名即可查询可用实例;
  • 内置健康检查,剔除不可用服务,确保请求路由到健康实例。

服务注册中心的核心流程

服务注册中心的工作流程围绕服务注册服务发现健康检查三个核心环节展开:

核心角色

  • 服务提供者(Provider):提供业务接口的微服务(如用户服务、订单服务);
  • 服务消费者(Consumer):调用其他服务的微服务(如订单服务调用用户服务);
  • 注册中心(Registry):协调服务提供者和消费者的中间组件(如 Eureka、Consul)。

工作流程

阅读全文 »

负载均衡算法:从集中式到进程内的策略解析

负载均衡(Load Balancing)是分布式系统中优化资源利用率、提高系统可用性的关键技术。其核心是将请求合理分配到多个服务实例,避免单点过载。根据实现方式,负载均衡可分为集中式进程内两类,每种方式都包含多种经典算法。

负载均衡的两种实现方式

1. 集中式负载均衡

  • 原理:在服务消费者与提供者之间部署独立的负载均衡设施(硬件或软件),由该设施统一接收请求并转发至服务实例。
  • 典型案例:
    • 硬件:F5 负载均衡器(性能强、成本高,适用于大型企业);
    • 软件:Nginx(通过upstream配置实现 HTTP 层负载均衡)、HAProxy(支持 TCP/HTTP 协议)。
  • 特点:
    • 负载均衡逻辑与业务解耦,便于统一管理和监控;
    • 存在单点风险(需集群部署解决);
    • 额外的网络跳转可能增加延迟。

2. 进程内负载均衡

  • 原理:将负载均衡逻辑集成到服务消费者的进程中,消费者直接从服务注册中心获取可用服务列表,自主选择实例发起请求。

  • 典型案例:

    • Ribbon(Spring Cloud 早期默认负载均衡组件);
    • Spring Cloud LoadBalancer(Spring Cloud 官方推荐的替代者)。
  • 特点:

阅读全文 »

Nginx查找耗时的接口

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
# grep 是筛选的域名   awk中的$5是判断的状态码  sort中的15是指的upstream_response_time  当然也可以统计request_time的时间
#!/bin/bash

# 默认配置
LOG_FILE="/var/log/nginx/access.log" # Nginx日志文件路径
DOMAIN="" # 筛选的域名(空表示所有)
STATUS_CODE="200" # 状态码(空表示所有)
TOP_N=10 # 显示前N条
TIME_FIELD="upstream_response_time" # 统计的时间字段(request_time/upstream_response_time)
TIME_THRESHOLD=0 # 最小耗时阈值(秒,0表示不限制)

# 显示帮助信息
usage() {
echo "用法: $0 [选项]"
echo "分析Nginx日志中耗时较长的接口"
echo "选项:"
echo " -f <日志文件> 指定Nginx日志文件路径(默认: $LOG_FILE)"
echo " -d <域名> 筛选特定域名(如 zhhll.icu)"
echo " -s <状态码> 筛选特定状态码(如 200, 500)"
echo " -n <数量> 显示前N条记录(默认: $TOP_N)"
echo " -t <时间字段> 时间字段(request_time/upstream_response_time, 默认: $TIME_FIELD)"
echo " -T <阈值> 最小耗时阈值(秒,默认: $TIME_THRESHOLD)"
echo " -h 显示帮助信息"
exit 1
}

# 解析命令行参数
while getopts "f:d:s:n:t:T:h" opt; do
case $opt in
f) LOG_FILE="$OPTARG" ;;
d) DOMAIN="$OPTARG" ;;
s) STATUS_CODE="$OPTARG" ;;
n) TOP_N="$OPTARG" ;;
t) TIME_FIELD="$OPTARG" ;;
T) TIME_THRESHOLD="$OPTARG" ;;
h) usage ;;
*) usage ;;
esac
done

# 验证时间字段合法性
if [ "$TIME_FIELD" != "request_time" ] && [ "$TIME_FIELD" != "upstream_response_time" ]; then
echo "错误: 时间字段必须是 request_time 或 upstream_response_time"
exit 1
fi

# 确定时间字段在日志中的列数(根据实际log_format调整)
# 以下假设为默认combined日志格式扩展,包含upstream_response_time
# 请根据实际日志格式修改字段索引
if [ "$TIME_FIELD" = "request_time" ]; then
TIME_COLUMN=10 # 假设request_time在第10列
else
TIME_COLUMN=15 # 假设upstream_response_time在第15列
fi

# 构建筛选条件
FILTER=""
if [ -n "$DOMAIN" ]; then
FILTER="$FILTER | grep '$DOMAIN'"
fi

if [ -n "$STATUS_CODE" ]; then
# 假设状态码在第9列(根据实际日志格式调整)
FILTER="$FILTER | awk '\$9 == $STATUS_CODE {print \$0}'"
fi

# 执行分析命令
echo "分析日志: $LOG_FILE"
echo "筛选条件: 域名=$DOMAIN, 状态码=$STATUS_CODE, 时间字段=$TIME_FIELD, 最小耗时=$TIME_THRESHOLD秒"
echo "----------------------------------------"

eval "cat $LOG_FILE $FILTER | awk -v col=$TIME_COLUMN -v threshold=$TIME_THRESHOLD '
\$col + 0 >= threshold { # 转换为数字比较,过滤小于阈值的记录
print \$col \"\t\" \$7 \"\t\" \$9 # 输出: 耗时 接口路径 状态码
}
' | sort -k1,1nr | head -n $TOP_N"

echo "----------------------------------------"
echo "字段说明: [耗时(秒)] [接口路径] [状态码]"

阅读全文 »

硬盘利用率监控脚本:分区级别的磁盘空间预警

使用vmstat来分析CPU使用信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
#!/bin/bash

# 配置参数
CRITICAL_THRESHOLD=80 # 严重报警阈值(%)
WARNING_THRESHOLD=50 # 警告阈值(%)
CHECK_INTERVAL=60 # 检查间隔(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/cpu_monitor.log"
ALERT_HISTORY="/var/log/cpu_alert_history.log"

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息(兼容多系统)
get_system_info() {
DATE=$(date +%F" "%H:%M:%S)
# 兼容CentOS 6/7/8及Ubuntu
IP=$(hostname -I 2>/dev/null | awk '{print $1}')
if [ -z "$IP" ]; then
IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
fi
HOSTNAME=$(hostname)
}

# 检查依赖命令
check_dependencies() {
if ! which vmstat &>/dev/null; then
log "错误:未找到vmstat命令,请安装procps包"
echo "Error: vmstat command not found. Please install procps package." >&2
exit 1
fi
}

# 获取CPU详细指标
get_cpu_metrics() {
# 使用vmstat 1 2取第二次采样,避免瞬时值偏差
VMSTAT_OUTPUT=$(vmstat 1 2 | tail -1)
US=$(echo $VMSTAT_OUTPUT | awk '{print $13}') # 用户态CPU
SY=$(echo $VMSTAT_OUTPUT | awk '{print $14}') # 系统态CPU
IDLE=$(echo $VMSTAT_OUTPUT | awk '{print $15}') # 空闲CPU
WAIT=$(echo $VMSTAT_OUTPUT | awk '{print $16}') # IO等待CPU
USE=$((US + SY)) # 总使用率
}

# 检查冷却期
is_in_cooldown() {
local current_time=$(date +%s)
local last_alert=$(tail -1 $ALERT_HISTORY 2>/dev/null | awk '{print $1}')

if [ -n "$last_alert" ]; then
local time_diff=$((current_time - last_alert))
# 严重报警冷却30分钟,普通警告冷却2小时
if [ $1 -ge $CRITICAL_THRESHOLD ] && [ $time_diff -lt 1800 ]; then
return 0
elif [ $time_diff -lt 7200 ]; then
return 0
fi
fi
return 1
}

# 记录报警
record_alert() {
echo "$(date +%s) $1" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
local level=$1
local subject="CPU监控报警[$level]:$HOSTNAME($IP)"
local body="
服务器CPU使用率异常,请关注!

时间:$DATE
主机:$HOSTNAME($IP)
CPU使用率:$USE% (用户态:$US% 系统态:$SY%)
空闲CPU:$IDLE%
IO等待:$WAIT%

阈值:警告=$WARNING_THRESHOLD% 严重=$CRITICAL_THRESHOLD%
"

if ! is_in_cooldown $USE; then
echo "$body" | mail -s "$subject" $MAIL
record_alert $USE
log "发送$level报警邮件至$MAIL"
else
log "$level报警处于冷却期,暂不发送邮件"
fi
}

# 主监控逻辑
main() {
check_dependencies
get_system_info
get_cpu_metrics

# 记录常规状态
log "CPU状态 - 总使用率:$USE% (用户:$US% 系统:$SY%) 空闲:$IDLE% IO等待:$WAIT%"

# 判断报警级别
if [ $USE -ge $CRITICAL_THRESHOLD ]; then
log "CPU严重超载:$USE% >= $CRITICAL_THRESHOLD%"
send_alert "严重"
elif [ $USE -ge $WARNING_THRESHOLD ]; then
log "CPU警告:$USE% >= $WARNING_THRESHOLD%"
send_alert "警告"
fi
}

# 运行模式:定时任务单次执行或循环监控
if [ "$1" = "cron" ]; then
main
else
while true; do
main
sleep $CHECK_INTERVAL
done
fi

  1. 多级阈值报警
    区分 “警告”(50%)和 “严重”(80%)两个阈值,根据 CPU 压力等级发送不同紧急程度的报警,避免过度反应或反应不足。
  2. 采样优化
    使用vmstat 1 2取第二次采样结果,过滤系统瞬时波动影响,使监控数据更准确。
  3. 智能冷却机制
    严重报警 30 分钟内不重复发送,普通警告 2 小时内不重复发送,平衡报警及时性和减少干扰。
  4. 全面指标监控
    不仅关注总使用率,还记录用户态 / 系统态 CPU 占比、IO 等待时间(WAIT),帮助定位 CPU 高负载原因(是应用问题还是系统 / IO 问题)。
  5. 跨系统兼容
    优化 IP 获取方式,兼容 CentOS 6/7/8、Ubuntu 等主流发行版,解决原脚本仅支持 CentOS 6 的局限。
  6. 灵活运行模式
    支持作为定时任务(cron)运行,或作为独立进程循环监控,适应不同部署场景

硬盘利用率监控脚本:分区级别的磁盘空间预警

使用fdisk来分析硬盘使用信息

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
#!/bin/bash

# 配置参数
THRESHOLD=80 # 磁盘使用率报警阈值(%)
COOLDOWN=3600 # 重复报警冷却时间(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/disk_monitor.log"
ALERT_HISTORY="/var/log/disk_alert_history.log" # 记录报警历史,用于冷却控制

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
DATE=$(date +%F" "%H:%M)
IP=$(hostname -I | awk '{print $1}') # 兼容更多系统的IP获取方式
if [ -z "$IP" ]; then
IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
fi
}

# 获取总磁盘信息(兼容sd、vd、nvme等类型)
get_total_disk() {
TOTAL=$(fdisk -l 2>/dev/null | awk -F'[: ]+' '
BEGIN{OFS="="}
/^Disk \/dev\/(sd|vd|nvme)/{ # 支持多种磁盘命名
size=$3
if ($4 == "GB") size=$3
else if ($4 == "TB") size=$3*1024 # 转换TB为GB
printf "%s=%.0fG,", $2, size
}
')
# 移除末尾多余的逗号
TOTAL=${TOTAL%,}
}

# 检查是否在冷却期内
is_in_cooldown() {
local part=$1
local current_time=$(date +%s)
# 查找该分区最后一次报警时间
local last_alert=$(grep "$part" $ALERT_HISTORY | tail -1 | awk '{print $1}')

if [ -n "$last_alert" ]; then
local time_diff=$((current_time - last_alert))
if [ $time_diff -lt $COOLDOWN ]; then
return 0 # 在冷却期内
fi
fi
return 1 # 不在冷却期内
}

# 记录报警历史
record_alert() {
local part=$1
echo "$(date +%s) $part" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
local part=$1
local use=$2
local mount=$3

# 检查冷却期
if is_in_cooldown "$part"; then
log "分区 $part 仍在冷却期内,暂不重复报警"
return
fi

SUBJECT="磁盘报警: $IP 分区 $part 使用率过高"
BODY="
服务器磁盘分区使用率超过阈值,请及时处理!

日期时间: $DATE
服务器IP: $IP
总磁盘容量: $TOTAL
问题分区: $part
使用率: $use%
挂载点: $mount
报警阈值: $THRESHOLD%
"
echo "$BODY" | mail -s "$SUBJECT" $MAIL
record_alert "$part"
log "已发送 $part 报警邮件至 $MAIL"
}

# 主监控逻辑
main() {
get_system_info
get_total_disk
log "开始磁盘监控检查 - 总磁盘: $TOTAL"

# 遍历所有挂载的磁盘分区(排除tmpfs等虚拟文件系统)
df -h | awk 'BEGIN{OFS="="}/^\/dev\/(sd|vd|nvme)/{print $1, $5+0, $6}' | while read -r line; do
PART=$(echo $line | cut -d"=" -f1)
USE=$(echo $line | cut -d"=" -f2)
MOUNT=$(echo $line | cut -d"=" -f3)

log "检查分区 $PART - 使用率: $USE% 挂载点: $MOUNT"

if [ $USE -gt $THRESHOLD ]; then
log "分区 $PART 使用率 $USE% 超过阈值 $THRESHOLD%"
send_alert "$PART" "$USE" "$MOUNT"
fi
done
}

# 执行主函数
main