詳細解釋
長上下文(Long Context)是語言模型支援處理極長文本(數萬至數百萬token)的能力,是現代LLM的重要競爭維度。
技術挑戰:
- 計算複雜度:注意力是O(n²),長度翻倍計算增4倍
- 記憶體需求:KV Cache隨長度線性增長
- 位置編碼:傳統方法難以外推
- 資訊檢索:長序列中找關鍵資訊
解決方案:
- 高效注意力:Flash Attention、稀疏注意力
- 改進位置編碼:旋轉位置嵌入、線性偏置注意力支持外推
- 分層處理:先摘要再處理
- 檢索增強:檢索增強生成 (RAG)只載入相關部分
應用場景:
- 整本書分析:法律文檔、研究論文
- 程式碼庫理解:跨檔案分析
- 長對話:客服、治療對話歷史
- 多模態:長影片分析
代表模型:
- Claude 3:200K
- Gemini 1.5:1M
- Llama 3:128K
- 國產:Qwen、ChatGLM長上下文版
是模型能力的重要指標。