小菜鸟

服务注册中心

发表于 2021-05-28 更新于 2025-08-21 分类于微服务阅读次数： Valine：
本文字数： 2.1k 阅读时长 ≈ 2 分钟

服务注册中心：微服务架构的 “导航系统”

在微服务架构中，服务数量庞大且动态变化（上线、下线、扩容、迁移），传统的硬编码服务地址或静态负载均衡已无法满足需求。服务注册中心作为微服务的 “导航系统”，负责服务的注册、发现和健康管理，是实现服务动态协同的核心组件。

为什么需要服务注册中心？

在单体应用或小规模服务中，可通过硬编码地址或负载均衡设备（如 Nginx）管理服务，但在微服务架构下存在明显缺陷：

服务地址动态变化：微服务频繁扩容、缩容或迁移，硬编码地址需手动更新，易出错；
单点故障风险：依赖单一负载均衡设备（如 F5、Nginx），可能成为系统瓶颈或单点故障；
服务健康管理：无法自动检测服务是否可用，可能将请求路由到已宕机的服务。

服务注册中心通过以下方式解决这些问题：

动态管理服务地址，服务启动时自动注册，下线时自动注销；
提供服务发现机制，消费者无需知晓具体地址，通过服务名即可查询可用实例；
内置健康检查，剔除不可用服务，确保请求路由到健康实例。

服务注册中心的核心流程

服务注册中心的工作流程围绕服务注册、服务发现和健康检查三个核心环节展开：

核心角色

服务提供者（Provider）：提供业务接口的微服务（如用户服务、订单服务）；
服务消费者（Consumer）：调用其他服务的微服务（如订单服务调用用户服务）；
注册中心（Registry）：协调服务提供者和消费者的中间组件（如 Eureka、Consul）。

工作流程

阅读全文 »

负载均衡算法

发表于 2021-05-28 更新于 2025-08-20 分类于微服务阅读次数： Valine：
本文字数： 2k 阅读时长 ≈ 2 分钟

负载均衡算法：从集中式到进程内的策略解析

负载均衡（Load Balancing）是分布式系统中优化资源利用率、提高系统可用性的关键技术。其核心是将请求合理分配到多个服务实例，避免单点过载。根据实现方式，负载均衡可分为集中式和进程内两类，每种方式都包含多种经典算法。

负载均衡的两种实现方式

1. 集中式负载均衡

原理：在服务消费者与提供者之间部署独立的负载均衡设施（硬件或软件），由该设施统一接收请求并转发至服务实例。
典型案例：
- 硬件：F5 负载均衡器（性能强、成本高，适用于大型企业）；
- 软件：Nginx（通过upstream配置实现 HTTP 层负载均衡）、HAProxy（支持 TCP/HTTP 协议）。
特点：
- 负载均衡逻辑与业务解耦，便于统一管理和监控；
- 存在单点风险（需集群部署解决）；
- 额外的网络跳转可能增加延迟。

2. 进程内负载均衡

原理：将负载均衡逻辑集成到服务消费者的进程中，消费者直接从服务注册中心获取可用服务列表，自主选择实例发起请求。
典型案例：
- Ribbon（Spring Cloud 早期默认负载均衡组件）；
- Spring Cloud LoadBalancer（Spring Cloud 官方推荐的替代者）。
特点：

阅读全文 »

Nginx查找耗时的接口

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 2.9k 阅读时长 ≈ 3 分钟

Nginx查找耗时的接口

# grep 是筛选的域名   awk中的$5是判断的状态码  sort中的15是指的upstream_response_time  当然也可以统计request_time的时间
#!/bin/bash

# 默认配置
LOG_FILE="/var/log/nginx/access.log"  # Nginx日志文件路径
DOMAIN=""                             # 筛选的域名(空表示所有)
STATUS_CODE="200"                     # 状态码(空表示所有)
TOP_N=10                              # 显示前N条
TIME_FIELD="upstream_response_time"   # 统计的时间字段(request_time/upstream_response_time)
TIME_THRESHOLD=0                      # 最小耗时阈值(秒，0表示不限制)

# 显示帮助信息
usage() {
    echo "用法: $0 [选项]"
    echo "分析Nginx日志中耗时较长的接口"
    echo "选项:"
    echo "  -f <日志文件>   指定Nginx日志文件路径(默认: $LOG_FILE)"
    echo "  -d <域名>       筛选特定域名(如 zhhll.icu)"
    echo "  -s <状态码>     筛选特定状态码(如 200, 500)"
    echo "  -n <数量>       显示前N条记录(默认: $TOP_N)"
    echo "  -t <时间字段>   时间字段(request_time/upstream_response_time, 默认: $TIME_FIELD)"
    echo "  -T <阈值>       最小耗时阈值(秒，默认: $TIME_THRESHOLD)"
    echo "  -h              显示帮助信息"
    exit 1
}

# 解析命令行参数
while getopts "f:d:s:n:t:T:h" opt; do
    case $opt in
        f) LOG_FILE="$OPTARG" ;;
        d) DOMAIN="$OPTARG" ;;
        s) STATUS_CODE="$OPTARG" ;;
        n) TOP_N="$OPTARG" ;;
        t) TIME_FIELD="$OPTARG" ;;
        T) TIME_THRESHOLD="$OPTARG" ;;
        h) usage ;;
        *) usage ;;
    esac
done

# 验证时间字段合法性
if [ "$TIME_FIELD" != "request_time" ] && [ "$TIME_FIELD" != "upstream_response_time" ]; then
    echo "错误: 时间字段必须是 request_time 或 upstream_response_time"
    exit 1
fi

# 确定时间字段在日志中的列数(根据实际log_format调整)
# 以下假设为默认combined日志格式扩展，包含upstream_response_time
# 请根据实际日志格式修改字段索引
if [ "$TIME_FIELD" = "request_time" ]; then
    TIME_COLUMN=10  # 假设request_time在第10列
else
    TIME_COLUMN=15  # 假设upstream_response_time在第15列
fi

# 构建筛选条件
FILTER=""
if [ -n "$DOMAIN" ]; then
    FILTER="$FILTER | grep '$DOMAIN'"
fi

if [ -n "$STATUS_CODE" ]; then
    # 假设状态码在第9列(根据实际日志格式调整)
    FILTER="$FILTER | awk '\$9 == $STATUS_CODE {print \$0}'"
fi

# 执行分析命令
echo "分析日志: $LOG_FILE"
echo "筛选条件: 域名=$DOMAIN, 状态码=$STATUS_CODE, 时间字段=$TIME_FIELD, 最小耗时=$TIME_THRESHOLD秒"
echo "----------------------------------------"

eval "cat $LOG_FILE $FILTER | awk -v col=$TIME_COLUMN -v threshold=$TIME_THRESHOLD '
    \$col + 0 >= threshold {  # 转换为数字比较，过滤小于阈值的记录
        print \$col \"\t\" \$7 \"\t\" \$9  # 输出: 耗时 接口路径 状态码
    }
' | sort -k1,1nr | head -n $TOP_N"

echo "----------------------------------------"
echo "字段说明: [耗时(秒)]  [接口路径]  [状态码]"

阅读全文 »

监控CPU利用率

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 3.3k 阅读时长 ≈ 3 分钟

硬盘利用率监控脚本：分区级别的磁盘空间预警

使用vmstat来分析CPU使用信息

#!/bin/bash

# 配置参数
CRITICAL_THRESHOLD=80   # 严重报警阈值(%)
WARNING_THRESHOLD=50    # 警告阈值(%)
CHECK_INTERVAL=60       # 检查间隔(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/cpu_monitor.log"
ALERT_HISTORY="/var/log/cpu_alert_history.log"

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
    echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息（兼容多系统）
get_system_info() {
    DATE=$(date +%F" "%H:%M:%S)
    # 兼容CentOS 6/7/8及Ubuntu
    IP=$(hostname -I 2>/dev/null | awk '{print $1}')
    if [ -z "$IP" ]; then
        IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
    fi
    HOSTNAME=$(hostname)
}

# 检查依赖命令
check_dependencies() {
    if ! which vmstat &>/dev/null; then
        log "错误：未找到vmstat命令，请安装procps包"
        echo "Error: vmstat command not found. Please install procps package." >&2
        exit 1
    fi
}

# 获取CPU详细指标
get_cpu_metrics() {
    # 使用vmstat 1 2取第二次采样，避免瞬时值偏差
    VMSTAT_OUTPUT=$(vmstat 1 2 | tail -1)
    US=$(echo $VMSTAT_OUTPUT | awk '{print $13}')  # 用户态CPU
    SY=$(echo $VMSTAT_OUTPUT | awk '{print $14}')  # 系统态CPU
    IDLE=$(echo $VMSTAT_OUTPUT | awk '{print $15}') # 空闲CPU
    WAIT=$(echo $VMSTAT_OUTPUT | awk '{print $16}') # IO等待CPU
    USE=$((US + SY))                               # 总使用率
}

# 检查冷却期
is_in_cooldown() {
    local current_time=$(date +%s)
    local last_alert=$(tail -1 $ALERT_HISTORY 2>/dev/null | awk '{print $1}')
    
    if [ -n "$last_alert" ]; then
        local time_diff=$((current_time - last_alert))
        # 严重报警冷却30分钟，普通警告冷却2小时
        if [ $1 -ge $CRITICAL_THRESHOLD ] && [ $time_diff -lt 1800 ]; then
            return 0
        elif [ $time_diff -lt 7200 ]; then
            return 0
        fi
    fi
    return 1
}

# 记录报警
record_alert() {
    echo "$(date +%s) $1" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
    local level=$1
    local subject="CPU监控报警[$level]：$HOSTNAME($IP)"
    local body="
    服务器CPU使用率异常，请关注！
    
    时间：$DATE
    主机：$HOSTNAME($IP)
    CPU使用率：$USE% (用户态：$US% 系统态：$SY%)
    空闲CPU：$IDLE%
    IO等待：$WAIT%
    
    阈值：警告=$WARNING_THRESHOLD%  严重=$CRITICAL_THRESHOLD%
    "
    
    if ! is_in_cooldown $USE; then
        echo "$body" | mail -s "$subject" $MAIL
        record_alert $USE
        log "发送$level报警邮件至$MAIL"
    else
        log "$level报警处于冷却期，暂不发送邮件"
    fi
}

# 主监控逻辑
main() {
    check_dependencies
    get_system_info
    get_cpu_metrics
    
    # 记录常规状态
    log "CPU状态 - 总使用率：$USE% (用户：$US% 系统：$SY%) 空闲：$IDLE% IO等待：$WAIT%"
    
    # 判断报警级别
    if [ $USE -ge $CRITICAL_THRESHOLD ]; then
        log "CPU严重超载：$USE% >= $CRITICAL_THRESHOLD%"
        send_alert "严重"
    elif [ $USE -ge $WARNING_THRESHOLD ]; then
        log "CPU警告：$USE% >= $WARNING_THRESHOLD%"
        send_alert "警告"
    fi
}

# 运行模式：定时任务单次执行或循环监控
if [ "$1" = "cron" ]; then
    main
else
    while true; do
        main
        sleep $CHECK_INTERVAL
    done
fi

多级阈值报警
区分 “警告”（50%）和 “严重”（80%）两个阈值，根据 CPU 压力等级发送不同紧急程度的报警，避免过度反应或反应不足。
采样优化
使用vmstat 1 2取第二次采样结果，过滤系统瞬时波动影响，使监控数据更准确。
智能冷却机制
严重报警 30 分钟内不重复发送，普通警告 2 小时内不重复发送，平衡报警及时性和减少干扰。
全面指标监控
不仅关注总使用率，还记录用户态 / 系统态 CPU 占比、IO 等待时间（WAIT），帮助定位 CPU 高负载原因（是应用问题还是系统 / IO 问题）。
跨系统兼容
优化 IP 获取方式，兼容 CentOS 6/7/8、Ubuntu 等主流发行版，解决原脚本仅支持 CentOS 6 的局限。
灵活运行模式
支持作为定时任务（cron）运行，或作为独立进程循环监控，适应不同部署场景

监控硬盘利用率

发表于 2021-05-27 更新于 2025-08-06 分类于 shell 阅读次数： Valine：
本文字数： 2.7k 阅读时长 ≈ 2 分钟

硬盘利用率监控脚本：分区级别的磁盘空间预警

使用fdisk来分析硬盘使用信息

#!/bin/bash

# 配置参数
THRESHOLD=80          # 磁盘使用率报警阈值(%)
COOLDOWN=3600         # 重复报警冷却时间(秒)
MAIL="example@mail.com"
LOG_FILE="/var/log/disk_monitor.log"
ALERT_HISTORY="/var/log/disk_alert_history.log"  # 记录报警历史，用于冷却控制

# 初始化文件
touch $LOG_FILE $ALERT_HISTORY
chmod 644 $LOG_FILE $ALERT_HISTORY

# 日志函数
log() {
    echo "[$(date +%F" "%H:%M:%S)] $1" >> $LOG_FILE
}

# 获取系统信息
get_system_info() {
    DATE=$(date +%F" "%H:%M)
    IP=$(hostname -I | awk '{print $1}')  # 兼容更多系统的IP获取方式
    if [ -z "$IP" ]; then
        IP=$(ifconfig | grep 'inet ' | grep -v '127.0.0.1' | head -1 | awk '{print $2}')
    fi
}

# 获取总磁盘信息（兼容sd、vd、nvme等类型）
get_total_disk() {
    TOTAL=$(fdisk -l 2>/dev/null | awk -F'[: ]+' '
        BEGIN{OFS="="}
        /^Disk \/dev\/(sd|vd|nvme)/{  # 支持多种磁盘命名
            size=$3
            if ($4 == "GB") size=$3
            else if ($4 == "TB") size=$3*1024  # 转换TB为GB
            printf "%s=%.0fG,", $2, size
        }
    ')
    # 移除末尾多余的逗号
    TOTAL=${TOTAL%,}
}

# 检查是否在冷却期内
is_in_cooldown() {
    local part=$1
    local current_time=$(date +%s)
    # 查找该分区最后一次报警时间
    local last_alert=$(grep "$part" $ALERT_HISTORY | tail -1 | awk '{print $1}')
    
    if [ -n "$last_alert" ]; then
        local time_diff=$((current_time - last_alert))
        if [ $time_diff -lt $COOLDOWN ]; then
            return 0  # 在冷却期内
        fi
    fi
    return 1  # 不在冷却期内
}

# 记录报警历史
record_alert() {
    local part=$1
    echo "$(date +%s) $part" >> $ALERT_HISTORY
}

# 发送报警邮件
send_alert() {
    local part=$1
    local use=$2
    local mount=$3
    
    # 检查冷却期
    if is_in_cooldown "$part"; then
        log "分区 $part 仍在冷却期内，暂不重复报警"
        return
    fi
    
    SUBJECT="磁盘报警: $IP 分区 $part 使用率过高"
    BODY="
    服务器磁盘分区使用率超过阈值，请及时处理！
    
    日期时间: $DATE
    服务器IP: $IP
    总磁盘容量: $TOTAL
    问题分区: $part
    使用率: $use%
    挂载点: $mount
    报警阈值: $THRESHOLD%
    "
    echo "$BODY" | mail -s "$SUBJECT" $MAIL
    record_alert "$part"
    log "已发送 $part 报警邮件至 $MAIL"
}

# 主监控逻辑
main() {
    get_system_info
    get_total_disk
    log "开始磁盘监控检查 - 总磁盘: $TOTAL"
    
    # 遍历所有挂载的磁盘分区（排除tmpfs等虚拟文件系统）
    df -h | awk 'BEGIN{OFS="="}/^\/dev\/(sd|vd|nvme)/{print $1, $5+0, $6}' | while read -r line; do
        PART=$(echo $line | cut -d"=" -f1)
        USE=$(echo $line | cut -d"=" -f2)
        MOUNT=$(echo $line | cut -d"=" -f3)
        
        log "检查分区 $PART - 使用率: $USE% 挂载点: $MOUNT"
        
        if [ $USE -gt $THRESHOLD ]; then
            log "分区 $PART 使用率 $USE% 超过阈值 $THRESHOLD%"
            send_alert "$PART" "$USE" "$MOUNT"
        fi
    done
}

# 执行主函数
main