可靠性

Reliability

系統穩定運行不故障的程度

詳細解釋

AI 系統在生產環境中持續穩定運行、正確響應的能力,涉及可用性、一致性、容錯性、可預測性等多維度。

關鍵指標:

  • 可用性(Uptime):99.9%(三個 9)、99.99%(四個 9)
  • 錯誤率:請求失敗比例、異常輸出比例
  • 延遲一致性:P99、P999 延遲(最慢 1%、0.1% 請求)
  • 輸出一致性:相同輸入產生穩定輸出(溫度=0 時)

工程實踐:

  • 冗餘部署:多實例、多區域、多模型供應商
  • 降級策略:主模型失敗時用輕量備份模型
  • 熔斷機制:錯誤率超閾值時暫停服務
  • 超時控制:防止請求卡住
  • 重試邏輯:指數退避,避免雪崩

AI 特有的可靠性挑戰:

  • 模型漂移:性能隨時間退化
  • 對抗輸入:惡意輸入導致錯誤
  • 幻覺:輸出看似合理但錯誤
  • 邊緣情況:未見過的輸入類型
  • 資源消耗:長輸入導致 OOM

測試方法:

  • 混沌工程:故意製造故障測試恢復
  • 負載測試:高併發下的穩定性
  • 長跑測試:持續運行數天觀察內存洩漏
  • 對抗測試:異常輸入的處理

與安全性的區別:

  • 可靠性:系統不崩潰、正確運行
  • 安全性:不被攻擊、數據不洩露

這是「AI 產品化」的基礎—— 實驗室模型與生產系統的差距。

探索更多AI詞彙

查看所有分類,繼續學習AI知識