語言處理單元

LPU (Language Processing Unit)

專為 LLM 設計的專用晶片

詳細解釋

Language Processing Unit(語言處理單元)的縮寫,專為 LLM 推理優化的專用芯片,由 Groq 等公司開發。與通用 GPU 相對,LPU 犧牲靈活性換取極致推理速度。

技術特點:

  • 張量流架構:數據流經芯片時完成計算,無需反覆讀寫內存(減少 memory bottleneck)
  • 編譯時優化:針對特定模型(Llama、Mixtral)預編譯計算圖
  • 高帶寬:芯片間互聯帶寬遠超 NVLink
  • 確定性延遲:無緩存未命中,延遲可預測

性能聲稱(Groq):

  • Llama 2 70B:首 token 延遲 100ms,生成速度 500+ tokens/秒
  • 相比 A100:快 10-100 倍
  • 吞吐量:單機架構支持數千並發用戶

局限:

  • 靈活性:僅支持編譯過的模型,新模型需等待 Groq 支持
  • 訓練:LPUs 僅做推理,不支持訓練
  • 生態:軟體工具鏈遠不如 NVIDIA 成熟
  • 成本:硬件採購成本,雖然推理成本低但門檻高

商業模式:

  • Groq Cloud:API 訪問,$0.10/百萬 tokens(極具競爭力)
  • 本地部署:大型企業採購 Groq 硬件

與 GPU 的對比:

  • GPU:通用、訓練推理皆可、生態成熟、靈活
  • LPU:專用推理、極致速度、較低能耗(每 token)

這是 AI 芯片多樣化趨勢的代表—— 不再滿足於通用 GPU,針對特定工作負載設計專用硬件。

探索更多AI詞彙

查看所有分類,繼續學習AI知識