詳細解釋
BitNet是極低位元LLM架構,將權重量化到1位(或1.58位),理論上可在CPU上高效運行。
核心:
- 極端量化:權重只有-1, 0, +1(三值)
- 激活:保持高精度(8位或FP16)
- 僅在矩陣乘法時量化
- 可訓練:從頭訓練三值權重
優勢(理論):
- 記憶體省:權重極小(30B模型只需幾GB)
- 速度快:位運算可極快
- 能耗低:適合邊緣設備
現狀:
- 論文發表(Microsoft 2024)
- 品質:70B BitNet接近FP16 Llama 2
- 實際速度:優化仍需時間
- 開源實現:bitnet.cpp等
與其他量化的對比:
- 標準量化:FP16→INT8/INT4
- BitNet:訓練時就三值
- 更極端,挑戰更大
意義:
- 挑戰「大模型必須大記憶體」假設
- 可能實現手機運行大模型
- 民主化的極致
是量化 (模型量化) (Quantization Aware Training)和高效LLM的前沿研究。