詳細解釋
2022 年成立的平台,專注開源模型推理和訓練,提供比主流雲端更便宜的 GPU 價格和優化的開源模型 API。
核心產品:
- 推理 API:Llama、Mixtral、Qwen 等開源模型的託管服務
- 微調:低秩適配(LoRA)和全量微調
- 訓練:分布式大模型訓練(最高 200B 參數)
- 無服務器:按需擴展,無需管理基礎設施
價格優勢:
- 比 AWS/GCP/Azure 便宜 2-5 倍
- 比 OpenAI API 便宜 10-100 倍(開源 vs 閉源)
- 共享 GPU:開發者間共享,降低成本
技術特點:
- FlashAttention:優化的注意力計算
- Continuous Batching:提高 GPU 利用率
- 量化:INT8/INT4 推理降低成本
模型覆蓋:
- 文本:Llama 2/3、Mixtral、Falcon、Qwen
- 圖像:SDXL、Stable Diffusion 3
- 代碼:CodeLlama、DeepSeek-Coder
- 嵌入:BGE、E5
定價模式:
- 推理:按 token(輸入/輸出分開)
- 訓練:按 GPU 小時
- 訂閱:月費降低單位成本
與競品對比:
- vs Fireworks:Together 更側重開源社群,Fireworks 更側重速度
- vs Replicate:Together 更專注 LLM,Replicate 更多樣
- vs 自建:省去運維,但靈活性降低
這是「開源 AI 雲端」的代表—— 讓開源模型像閉源模型一樣易用,推動開源生態商業化。