系统指标

核心可靠性指标的定义与关联

平均无故障时间（MTTF，Mean Time To Failure）
- 定义：系统在发生故障前，平均能够正常运行的时间。
- 公式：MTTF = 1/λ（λ 为失效率，即单位时间内发生故障的概率，λ 越大，系统越容易出故障）。
- 适用场景：主要用于描述不可修复系统（如一次性传感器、某些消费电子元件）的可靠性，即从开始使用到首次故障的平均时间。
平均故障修复时间（MTTR，Mean Time To Repair）
- 定义：系统发生故障后，平均需要多长时间才能修复并恢复正常运行（包括诊断、维修、恢复等全过程）。
- 公式：MTTR = 1/μ（μ 为修复率，即单位时间内修复故障的概率，μ 越大，修复速度越快）。
- 意义：反映系统的可维护性，MTTR 越小，系统故障后的恢复能力越强。
平均故障间隔时间（MTBF，Mean Time Between Failures）
- 定义：对于可修复系统，两次连续故障之间的平均时间间隔。
- 公式：MTBF = MTTF + MTTR
  （即 “平均无故障时间” 加上 “平均修复时间”，代表从一次故障恢复后到下一次故障发生的平均间隔）。
系统可用性（Availability）
- 定义：系统在任意时刻能够正常运行的概率，是衡量系统 “可用时间占比” 的核心指标。
- 公式：可用性 = MTTF / (MTTF + MTTR) × 100%
  （即 “正常运行时间” 与 “总时间（正常运行 + 故障修复）” 的比值）。
- 简化场景：当 MTTR 远小于 MTTF 时（如 MTTR 仅为几分钟，MTTF 为数千小时），可近似认为MTBF ≈ MTTF，因此可用性也可简化为MTBF / (MTBF + MTTR) ≈ MTTF / (MTTF + 0) = MTTF / MTBF，这也是实际工程中常用的近似计算方式。

可靠性、可用性、可维护性的关联公式

可靠性：通常用 “无故障运行的概率” 表示，简化为 MTTF / (1 + MTTF)（更准确的定义需结合概率分布，如指数分布下的可靠性函数为R(t) = e^(-λt)，当 t=1 时近似为1/(1+λ) = MTTF/(1+MTTF)）。
可用性：如上述公式，MTBF / (1 + MTBF) 是基于MTBF ≈ MTTF的简化表达，核心反映 “可用时间占比”。
可维护性：衡量系统被修复的难易程度，简化为 1/(1 + MTTR)（MTTR 越小，可维护性越高）。

实际应用场景

对于服务器、通信设备等可修复系统，重点关注 MTBF 和可用性（如要求 “五个九” 可用性，即 99.999%，意味着每年故障时间不超过 5.25 分钟）。
对于芯片、传感器等不可修复元件，重点关注 MTTF，用于评估其使用寿命。
MTTR 则常用于衡量运维效率，例如云服务厂商会通过优化故障诊断流程降低 MTTR，从而提升整体可用性。