詳細解釋
散熱節流(Thermal Throttling)是現代計算設備(尤其是圖形處理單元 (GPU / 圖形處理器)和CPU (中央處理器))的一種自我保護機制。當處理器溫度超過安全閾值時,系統會自動降低時脈頻率和電壓,以減少熱量產生,防止硬體損壞。
運作原理:
- 溫度監測:晶片內建溫度傳感器實時監控
- 動態調整:當溫度達到警戒線(通常85-95°C),自動降頻
- 恢復機制:溫度下降後自動恢復正常頻率
對AI訓練的影響:
解決方案:
- 改善機箱散熱風道設計
- 使用水冷或更高級的散熱方案
- 降低批次大小或調整訓練參數減少發熱
- 在雲端使用專業級GPU 叢集 (GPU Cluster)避免此問題