2初級訓練與優化
FP32 (單精度浮點 / Float32)
FP32 (Single Precision / Float32)
32 位元單精度浮點數格式,為深度學習預設權重與計算精度,較 量化 (模型量化) (Quantization Aware Training) 省記憶體但較慢。
詳細解釋
FP32(float32、單精度)為 32 位元浮點格式(1 符號位、8 指數位、23 尾數位),是多數程式語言與 機器學習 (ML) 框架的預設浮點型別。深度學習中權重、激活與梯度常以 FP32 儲存與計算,精度與數值範圍較足夠,但記憶體與算力需求高。
為加速與省記憶體,常改用 混合精度(FP32+FP16)或 量化 (模型量化) (Quantization Aware Training)(INT8/4)。與 混合精度、量化 (模型量化) (Quantization Aware Training) 相關。