詳細解釋
AI 系統在生產環境中持續穩定運行、正確響應的能力,涉及可用性、一致性、容錯性、可預測性等多維度。
關鍵指標:
- 可用性(Uptime):99.9%(三個 9)、99.99%(四個 9)
- 錯誤率:請求失敗比例、異常輸出比例
- 延遲一致性:P99、P999 延遲(最慢 1%、0.1% 請求)
- 輸出一致性:相同輸入產生穩定輸出(溫度=0 時)
工程實踐:
- 冗餘部署:多實例、多區域、多模型供應商
- 降級策略:主模型失敗時用輕量備份模型
- 熔斷機制:錯誤率超閾值時暫停服務
- 超時控制:防止請求卡住
- 重試邏輯:指數退避,避免雪崩
AI 特有的可靠性挑戰:
- 模型漂移:性能隨時間退化
- 對抗輸入:惡意輸入導致錯誤
- 幻覺:輸出看似合理但錯誤
- 邊緣情況:未見過的輸入類型
- 資源消耗:長輸入導致 OOM
測試方法:
- 混沌工程:故意製造故障測試恢復
- 負載測試:高併發下的穩定性
- 長跑測試:持續運行數天觀察內存洩漏
- 對抗測試:異常輸入的處理
與安全性的區別:
- 可靠性:系統不崩潰、正確運行
- 安全性:不被攻擊、數據不洩露
這是「AI 產品化」的基礎—— 實驗室模型與生產系統的差距。