Token 消耗

Token Burn

大量消耗 Token 的操作

詳細解釋

調用 LLM API 時消耗的 token 數量及相應成本。這是 AI 應用的核心經濟指標,直接影響產品單位經濟學。

成本結構:

  • 輸入 token:提示(系統消息、上下文、用戶輸入)按輸入價格計費
  • 輸出 token:模型生成內容按輸出價格計費(通常輸出比輸入貴 2-4 倍)
  • 緩存命中:部分平台對重複輸入給予折扣(提示緩存)

優化策略:

  • 提示壓縮:刪除冗余上下文,使用更簡潔的表達
  • 選擇模型:簡單任務用 GPT-3.5($0.002/K tokens)而非 GPT-4($0.03/K)
  • 緩存:存儲常見查詢結果,避免重複調用
  • 流式處理:邊生成邊處理,用戶可提前終止不必要生成
  • 批處理:累積請求一次性發送(若延遲允許)

監測工具:

  • LangSmith、Weights & Biases:追踪每次調用的 token 和成本
  • Helicone:開源 LLM 可觀測性平台
  • OpenAI Dashboard:查看 API 使用量和成本

商業影響:

  • AI 初創的 COGS(銷貨成本)中 LLM API 可能佔 30-70%
  • 定價策略:訂閱制 vs 用量制,需精確估算 token burn
  • 利潤壓力:隨著競爭加劇,token 價格下降,但優化仍是競爭優勢

「Token 經濟學」是 AI 產品經理和工程師必須掌握的知識——每個功能決策都應考慮對 token burn 的影響。

探索更多AI詞彙

查看所有分類,繼續學習AI知識