QLoRA

QLoRA

量化LoRA降低顯存需求

詳細解釋

QLoRA(Quantized LoRA)是結合量化和LoRA的高效微調方法,讓消費級GPU能微調大模型。

技術組合:

  • 低秩適配 (LoRA):低秩適配,只訓練適配器
  • 4-bit量化:模型權重量化到4-bit
  • 雙量化:量化常數也量化
  • 分頁優化器:CPU卸載優化器狀態

記憶體節省:

  • 65B模型:仅需48GB顯存(原需>130GB)
  • 33B模型:可在24GB消費級GPU
  • 13B模型:可在12-16GB GPU

與標準LoRA的對比:

  • 標準LoRA:需要加載FP16模型
  • QLoRA:加載4-bit模型,更省記憶體
  • 效果:通常無損或損失很小

使用方式:

  • Hugging Face PEFT + bitsandbytes
  • 簡單配置:load_in_4bit=True
  • 訓練代碼與LoRA基本相同

適用場景:

  • 單卡微調大模型
  • 個人開發者、小團隊
  • 快速原型、概念驗證

是讓大模型微調民主化的關鍵技術,使個人GPU成為可能。

探索更多AI詞彙

查看所有分類,繼續學習AI知識