DeepSeek-Coder

DeepSeek-Coder

專門優化程式碼的模型

詳細解釋

DeepSeek(量化幻方)於 2023-2024 年發布的開源代碼專用模型系列,在代碼生成、數學推理上達到或超越 CodeLlama、GPT-3.5 水平。

技術特點:

  • 專用預訓練:在 2T tokens 代碼數據上訓練(Python、Java、C++、JavaScript 等 80+ 語言)
  • 填空訓練(FIM):支持中間填充(Infilling),適合代碼補全
  • 長上下文:16K(早期)到 64K(v2)
  • 尺寸:1.3B、5.7B、6.7B、33B 多個版本

性能(HumanEval):

  • DeepSeek-Coder-V2 33B:90%+(超越 GPT-3.5,接近 GPT-4)
  • 小模型(1.3B)也具競爭力,適合邊緣部署

與競品對比:

  • vs CodeLlama:DeepSeek 在中文代碼註釋、亞洲編程習慣上更好
  • vs GPT-4:免費、可私有化部署,單項編碼任務接近但通用能力差距大
  • vs Copilot:本地運行,無需訂閱,但無 IDE 深度整合

商業模式:

  • 模型權重:完全開源(MIT 許可),可商用
  • API 服務:DeepSeek 官方提供 API(價格極具競爭力)
  • 企業:私有化部署、定製微調

公司背景:

  • 量化幻方(中國頂級量化對沖基金)的 AI 部門
  • 2023 年成立,聚焦大模型研究和開源
  • 策略:用開源模型建立影響力,API 服務變現

這是中國開源 AI 的代表作,證明了中國在基礎模型上的實力,也推動了「代碼模型」領域的開源競爭。

探索更多AI詞彙

查看所有分類,繼續學習AI知識