詳細解釋
QLoRA(Quantized LoRA)是結合量化和LoRA的高效微調方法,讓消費級GPU能微調大模型。
技術組合:
- 低秩適配 (LoRA):低秩適配,只訓練適配器
- 4-bit量化:模型權重量化到4-bit
- 雙量化:量化常數也量化
- 分頁優化器:CPU卸載優化器狀態
記憶體節省:
- 65B模型:仅需48GB顯存(原需>130GB)
- 33B模型:可在24GB消費級GPU
- 13B模型:可在12-16GB GPU
與標準LoRA的對比:
- 標準LoRA:需要加載FP16模型
- QLoRA:加載4-bit模型,更省記憶體
- 效果:通常無損或損失很小
使用方式:
- Hugging Face PEFT + bitsandbytes
- 簡單配置:load_in_4bit=True
- 訓練代碼與LoRA基本相同
適用場景:
- 單卡微調大模型
- 個人開發者、小團隊
- 快速原型、概念驗證
是讓大模型微調民主化的關鍵技術,使個人GPU成為可能。