🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

3中級基礎概念

遺忘曲線（AI）

NIAH (Needle in a Haystack)

測試模型在長文中的關鍵信息檢索能力

詳細解釋

Needle in a Haystack（大海撈針測試）的縮寫，用於評估 LLM 的長上下文窗口能力的測試方法。

測試方法：

在非常長的文檔（如 100K tokens）中隨機插入一個特定事實（「針」）
問模型關於這個事實的問題
檢查模型能否從大量無關信息（「乾草堆」）中找到並正確回答

為何重要：

長上下文不等於有效利用：許多模型聲稱支持 128K，但實際上會「遺忘」中間內容
實際應用：法律合同審查、代碼庫理解、多輪對話都需要真正的長程注意力

測試變體：

多針測試：插入多個事實，測試同時回憶多個信息點
深度測試：針放在不同深度（開頭、中間、結尾、特定百分比處）
干擾測試：周圍放置相似但錯誤的信息，測試區分能力

當前表現（2024）：

GPT-4、Claude 3.5：在 128K 上下文內表現良好
開源模型：Llama 3.1 在 128K 表現優秀，但早期版本（如 Llama 2）在 8K+ 就明顯下降
Gemini 1.5 Pro：聲稱 2M 上下文，NIAH 測試表現良好

局限性：NIAH 僅測試「信息檢索」，不測試「長程推理」（如理解第 1 頁和第 100 頁的關聯）。

相關詞彙

上下文窗口 (語境窗口)3

語言模型能同時處理的最大token數量

大型語言模型 (大語言模型 / 大模型)1

在大量文本數據上訓練、能理解和生成自然語言的AI模型

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙