詳細解釋
調用 LLM API 時消耗的 token 數量及相應成本。這是 AI 應用的核心經濟指標,直接影響產品單位經濟學。
成本結構:
- 輸入 token:提示(系統消息、上下文、用戶輸入)按輸入價格計費
- 輸出 token:模型生成內容按輸出價格計費(通常輸出比輸入貴 2-4 倍)
- 緩存命中:部分平台對重複輸入給予折扣(提示緩存)
優化策略:
- 提示壓縮:刪除冗余上下文,使用更簡潔的表達
- 選擇模型:簡單任務用 GPT-3.5($0.002/K tokens)而非 GPT-4($0.03/K)
- 緩存:存儲常見查詢結果,避免重複調用
- 流式處理:邊生成邊處理,用戶可提前終止不必要生成
- 批處理:累積請求一次性發送(若延遲允許)
監測工具:
- LangSmith、Weights & Biases:追踪每次調用的 token 和成本
- Helicone:開源 LLM 可觀測性平台
- OpenAI Dashboard:查看 API 使用量和成本
商業影響:
- AI 初創的 COGS(銷貨成本)中 LLM API 可能佔 30-70%
- 定價策略:訂閱制 vs 用量制,需精確估算 token burn
- 利潤壓力:隨著競爭加劇,token 價格下降,但優化仍是競爭優勢
「Token 經濟學」是 AI 產品經理和工程師必須掌握的知識——每個功能決策都應考慮對 token burn 的影響。