詳細解釋
最大token數(Max Tokens)是設定語言模型生成回應時的最大長度限制,是控制輸出和成本的重要參數。
作用機制:
- 硬停止:生成達到設定值時立即停止
- 成本關聯:token越多,API費用越高
- 記憶體關聯:長輸出需要更多計算資源
設定考量:
- 太短:回答被截斷,資訊不完整
- 太長:浪費token,增加成本,可能偏題
- 適中:根據任務選擇(摘要100-200,文章500-1000)
與上下文窗口 (語境窗口)的關係:
- Context Window:模型能看到的總輸入長度
- Max Tokens:模型能生成的輸出長度
- 兩者相加應小於模型的總容量
實務建議:
- 聊天對話:500-1000 tokens
- 程式生成:1000-2000 tokens
- 長文創作:4000+ tokens(如果模型支援)
- 摘要任務:200-500 tokens