詳細解釋
在終端設備(手機、PC、IoT)本地運行生成式 AI 模型,而非雲端 API,這是 2024 年最熱門的 AI 部署趨勢。
驅動因素:
- 隱私:數據不出設備(醫療、個人照片)
- 延遲:無網絡往返,即時響應
- 離線:無網絡環境可用
- 成本:高頻使用時本地更便宜
- 個性化:模型微調到個人數據
技術條件(2024):
- 模型壓縮:量化(4-bit)、剪枝、蒸餾
- 高效架構:MobileLLM、Phi-3 等邊緣優化模型
- 硬件 NPU:Apple Neural Engine、高通 Hexagon、Intel NPU
- 推理框架:ML Kit、Core ML、ONNX Runtime、llama.cpp
當前能力:
- 文本:7B 模型可在高端手機運行(速度可接受)
- 圖像:SDXL 1-base 可在 M2 Mac 實時生成
- 語音:Whisper 小模型實時轉錄
- 視頻:仍困難,需雲端
平台支持:
- Apple:Core ML、Neural Engine、MLX 框架
- Google:Android ML、Gemini Nano(設備端)
- 高通:AI Stack,支持主流模型
- 三星:Galaxy AI,混合雲端-設備
挑戰:
- 性能:設備端模型 < 雲端最強模型
- 內存:7B 4-bit 仍需 4GB+,手機吃緊
- 電池:持續推理耗電快
- 散熱:長時間推理發熱
商業模式:
- 硬件賣點:AI 成為手機/PC 差異化功能
- 混合訂閱:免費設備端 + 付費雲端高級
這是「AI 民主化」的關鍵—— 從雲端巨頭控制到個人設備掌控。