詳細解釋
DeepSeek(量化幻方)於 2023-2024 年發布的開源代碼專用模型系列,在代碼生成、數學推理上達到或超越 CodeLlama、GPT-3.5 水平。
技術特點:
- 專用預訓練:在 2T tokens 代碼數據上訓練(Python、Java、C++、JavaScript 等 80+ 語言)
- 填空訓練(FIM):支持中間填充(Infilling),適合代碼補全
- 長上下文:16K(早期)到 64K(v2)
- 尺寸:1.3B、5.7B、6.7B、33B 多個版本
性能(HumanEval):
- DeepSeek-Coder-V2 33B:90%+(超越 GPT-3.5,接近 GPT-4)
- 小模型(1.3B)也具競爭力,適合邊緣部署
與競品對比:
- vs CodeLlama:DeepSeek 在中文代碼註釋、亞洲編程習慣上更好
- vs GPT-4:免費、可私有化部署,單項編碼任務接近但通用能力差距大
- vs Copilot:本地運行,無需訂閱,但無 IDE 深度整合
商業模式:
- 模型權重:完全開源(MIT 許可),可商用
- API 服務:DeepSeek 官方提供 API(價格極具競爭力)
- 企業:私有化部署、定製微調
公司背景:
- 量化幻方(中國頂級量化對沖基金)的 AI 部門
- 2023 年成立,聚焦大模型研究和開源
- 策略:用開源模型建立影響力,API 服務變現
這是中國開源 AI 的代表作,證明了中國在基礎模型上的實力,也推動了「代碼模型」領域的開源競爭。