詳細解釋
2022 年成立的 AI 推理平台,主打「最快的開源模型 API」,由前 Meta AI 工程師創立。承諾比自建 GPU 或競爭對手快 10-100 倍的延遲。
技術賣點:
- 定制推理引擎:自研 kernel 優化,針對特定模型(Llama、Mixtral、SDXL)深度優化
- 持續批處理:動態組合請求,最大化 GPU 利用率
- 量化優化:專有量化技術(FP8、INT8)在保持質量的同時加速
- 冷啟動優化:模型加載時間從數分鐘降到數秒
產品:
- Serverless API:按 token 付費,適合不定流量
- 專用部署:預留 GPU,保證延遲 SLA
- 微調即服務:用戶數據微調開源模型並部署
性能聲稱:
- Llama 2 70B:首 token 延遲 < 100ms(業界通常 1-3 秒)
- 生成速度:每秒數千 tokens
- 吞吐量:單 GPU 支持數百並發請求
與競品對比:
- Together AI:類似定位,Fireworks 聲稱速度更快
- Groq:Groq 使用專用芯片(LPU),Fireworks 使用優化的 NVIDIA GPU
- 雲端巨頭(AWS、GCP):Fireworks 專注 AI 推理,聲稱更優化
定價:通常比 OpenAI GPT-4 便宜 5-10 倍,比自建 GPU 集群便宜 70%+。