長上下文

Long Context

支持超長輸入的LLM能力

詳細解釋

長上下文(Long Context)是語言模型支援處理極長文本(數萬至數百萬token)的能力,是現代LLM的重要競爭維度。

技術挑戰:

  • 計算複雜度:注意力是O(n²),長度翻倍計算增4倍
  • 記憶體需求:KV Cache隨長度線性增長
  • 位置編碼:傳統方法難以外推
  • 資訊檢索:長序列中找關鍵資訊

解決方案:

應用場景:

  • 整本書分析:法律文檔、研究論文
  • 程式碼庫理解:跨檔案分析
  • 長對話:客服、治療對話歷史
  • 多模態:長影片分析

代表模型:

  • Claude 3:200K
  • Gemini 1.5:1M
  • Llama 3:128K
  • 國產:Qwen、ChatGLM長上下文版

是模型能力的重要指標。

探索更多AI詞彙

查看所有分類,繼續學習AI知識