散熱節流

Thermal Throttling

過熱時降頻

詳細解釋

散熱節流(Thermal Throttling)是現代計算設備(尤其是圖形處理單元 (GPU / 圖形處理器)CPU (中央處理器))的一種自我保護機制。當處理器溫度超過安全閾值時,系統會自動降低時脈頻率和電壓,以減少熱量產生,防止硬體損壞。

運作原理:

  • 溫度監測:晶片內建溫度傳感器實時監控
  • 動態調整:當溫度達到警戒線(通常85-95°C),自動降頻
  • 恢復機制:溫度下降後自動恢復正常頻率

對AI訓練的影響:

  • 分散式訓練 中,單卡節流會拖慢整體進度
  • 長時間微調 (模型微調)可能觸發節流,影響訓練穩定性
  • 持續節流會導致性能波動,影響實驗可重複性

解決方案:

  • 改善機箱散熱風道設計
  • 使用水冷或更高級的散熱方案
  • 降低批次大小或調整訓練參數減少發熱
  • 在雲端使用專業級GPU 叢集 (GPU Cluster)避免此問題

探索更多AI詞彙

查看所有分類,繼續學習AI知識