Mixtral 8x22B

Mixtral 8x22B

高效率的 MoE 開源模型

詳細解釋

Mistral AI 於 2024 年 4 月發布的開源 MoE(混合專家)模型,總參數 141B,但每個 token 僅激活 39B,在保持高性能的同時降低推理成本。

架構特點:

  • 8 個專家網絡,每次路由到 2 個
  • 上下文窗口 64K(後續更新支援 256K)
  • 多語言:支援英法德西意等歐洲語言
  • 開源:Apache 2.0 許可,可商用

性能定位:MMLU 得分 77.6%,介於 Llama 2 70B(69%)和 GPT-3.5(70%)之間,但推理速度更快(激活參數少)。特別擅長數學和代碼(GSM8K 和 HumanEval 上超越 GPT-3.5)。

Mistral 的商業策略是「開源引流,閉源收費」:Mixtral 8x22B 開源建立聲譽,同時提供 API 服務(Mistral Large)給需要最強性能的企業。這與 Meta 的 Llama 策略類似,但 Mistral 作為初創公司更靈活。

部署需求:約 90GB VRAM(FP16),或 45GB(4-bit 量化),適合高端消費級 GPU 或雲端實例。對於需要開源、可私有化部署、歐洲合規(GDPR)的企業,是 GPT-4 的有力替代。

探索更多AI詞彙

查看所有分類,繼續學習AI知識