LMSYS Chatbot Arena

LMSYS Chatbot Arena

盲測大模型排行榜

詳細解釋

加州大學伯克利分校 LMSYS Org 於 2023 年 5 月推出的眾包 LLM 評測平台,採用「盲測對戰」模式:用戶同時與兩個匿名模型對話,投票選出更好的,Elo 評分系統計算排名。

機制設計解決了傳統基準的問題:

  • 避免「考試刷題」:模型可能在靜態測試集上過擬合,但難以欺騙真實用戶
  • 多維度評估:開放式問題涵蓋創意寫作、編碼、邏輯推理、知識問答
  • 動態更新:新模型隨時加入,排名實時調整

當前排名(2024 年底):

  • 閉源:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 交替領先
  • 開源:Llama 3.1 405B、Qwen 2.5 72B、Mixtral 8x22B 競爭激烈

影響力:成為 LLM 領域的「標準」排名,被媒體、投資者、企業採購廣泛引用。模型的「Arena Elo」成為性能代名詞。

技術細節:

  • 已收集 100 萬+ 人類對比投票
  • 使用 Bradley-Terry 模型計算勝率
  • 置信區間顯示統計顯著性
  • 可視化工具分析模型在不同類別(編碼、數學、創意寫作)的強弱

局限:

  • 用戶群體偏技術(主要訪問者是 AI 研究者和開發者)
  • 偏好可能偏向「聽話、禮貌」而非「最準確」
  • 無法測試比 GPT-4 更強的模型(用戶無法區分兩個都很強的模型)

衍生產品:Chatbot Arena 網站本身成為「免費試用最新模型」的入口,用戶可體驗尚未公開 API 的研究模型。

探索更多AI詞彙

查看所有分類,繼續學習AI知識