詳細解釋
阿里巴巴通義千問團隊於 2024 年 9 月發布的開源模型系列,包含 0.5B 到 72B 參數的多個尺寸,以及專門的編碼模型(Qwen2.5-Coder)和數學模型(Qwen2.5-Math)。
核心改進:
- 預訓練數據:從 7T tokens 提升到 18T,質量更高(更好的過濾和去重)
- 指令遵循:系統提示遵從度顯著提升,更少「忽視系統提示」的情況
- 長上下文:全系列支援 128K,部分實驗版本達 1M tokens
- 多語言:中英外,對日韓德法西等語言支援明顯增強
性能定位:
- Qwen2.5-72B-Instruct:MMLU 80.4%,接近 Llama 3.1 70B,超越 GPT-3.5
- Qwen2.5-Coder-32B:HumanEval 84.1%,接近 GPT-4o 水平
- 小模型:0.5B 和 1.5B 版本適合移動端部署
開放生態:
- 權重:Apache 2.0 許可
- 工具鏈:vLLM、Ollama、llama.cpp 原生支援
- 微調框架:通義官方的 Qwen-LoRA、Axolotl 整合
商業意義:阿里雲提供 API 服務(按 token 計費),但開源權重讓企業可私有化部署,滿足中國數據合規要求。在中文語境理解和中式代碼風格上,優於 Llama 和 Mistral。