詳細解釋
在本地設備(個人電腦、手機、私有服務器)上運行 AI 模型,而非調用雲端 API 的模式。這是對「雲端 AI」的反向運動。
驅動因素:
- 隱私:敏感數據(醫療記錄、商業機密)不出設備
- 成本:高頻率使用時,本地運行比 API 調用便宜
- 離線:無網絡環境(飛機、偏遠地區)可用
- 控制:完全掌控模型行為,不受供應商政策變化影響
- 延遲:本地響應通常快於網絡往返
技術條件(2024):
- 模型壓縮:4-bit 量化讓 70B 模型可在消費級 GPU(RTX 4090 24GB)運行
- 推理框架:llama.cpp、Ollama、LM Studio、Jan.ai 降低使用門檻
- 硬件進步:Apple Silicon(統一內存)、高通 NPU(手機端側)
- 小模型能力:Phi-3、Llama 3.2 1B 等小模型可用性提升
工具生態:
- Ollama:最簡單的本地模型管理(一條命令運行)
- LM Studio:圖形界面,適合非技術用戶
- Jan.ai:開源,強調隱私
- LoRA 適配器:本地微調,個性化模型
局限:
- 性能:本地模型通常弱於雲端最強模型(GPT-4、Claude 3.5)
- 硬件成本:高端 GPU 仍昂貴
- 技術門檻:量化、上下文管理、故障排除需一定知識
商業模式:
- 硬件:Apple、高通推銷 AI PC/手機概念
- 軟體:部分工具(LM Studio)開始收費
- 混合:本地輕量模型 + 雲端重任務
這是 AI 「去中心化」的趨勢—— 從少數雲端巨頭控制,轉向個人掌控。