詳細解釋
Language Processing Unit(語言處理單元)的縮寫,專為 LLM 推理優化的專用芯片,由 Groq 等公司開發。與通用 GPU 相對,LPU 犧牲靈活性換取極致推理速度。
技術特點:
- 張量流架構:數據流經芯片時完成計算,無需反覆讀寫內存(減少 memory bottleneck)
- 編譯時優化:針對特定模型(Llama、Mixtral)預編譯計算圖
- 高帶寬:芯片間互聯帶寬遠超 NVLink
- 確定性延遲:無緩存未命中,延遲可預測
性能聲稱(Groq):
- Llama 2 70B:首 token 延遲 100ms,生成速度 500+ tokens/秒
- 相比 A100:快 10-100 倍
- 吞吐量:單機架構支持數千並發用戶
局限:
- 靈活性:僅支持編譯過的模型,新模型需等待 Groq 支持
- 訓練:LPUs 僅做推理,不支持訓練
- 生態:軟體工具鏈遠不如 NVIDIA 成熟
- 成本:硬件採購成本,雖然推理成本低但門檻高
商業模式:
- Groq Cloud:API 訪問,$0.10/百萬 tokens(極具競爭力)
- 本地部署:大型企業採購 Groq 硬件
與 GPU 的對比:
- GPU:通用、訓練推理皆可、生態成熟、靈活
- LPU:專用推理、極致速度、較低能耗(每 token)
這是 AI 芯片多樣化趨勢的代表—— 不再滿足於通用 GPU,針對特定工作負載設計專用硬件。