詳細解釋
神經處理單元(Neural Processing Unit, NPU)是專門設計用於加速神經網絡計算的硬體芯片,比通用CPU/GPU更適合AI推理和訓練。
與其他處理器的對比:
- CPU:通用計算,單線程性能強,但並行AI計算效率低
- GPU:大規模並行,適合訓練,但功耗高
- NPU:專為矩陣乘法和卷積優化,推理效率最高
- TPU:Google的NPU實現
設計特點:
- 矩陣加速器:大規模矩陣乘法單元(如4K×4K)
- 低精度支持:INT8/INT4甚至二值化計算
- 數據流優化:減少數據移動(記憶體牆問題)
- 脈動陣列(脈動陣列):數據流動計算
- 稀疏性利用:跳過零值計算
應用場景:
- 智能手機:Apple (蘋果與 AI) Neural Engine、高通 (與 AI) Hexagon
- 自動駕駛:特斯拉 (與 AI/自駕) FSD Chip、NVIDIA (與 AI 硬體/軟體) Drive
- 雲推理:Google (與 AI/ML) TPU、AWS (亞馬遜雲端運算服務) Inferentia
- 邊緣設備:攝像頭、IoT設備的智能處理
- 數據中心:推理服務的性價比優化
性能指標:
- TOPS:每秒萬億次操作(主要衡量矩陣乘法)
- 能效比:TOPS/W,NPU通常比GPU高10-50倍
- 延遲:單樣本推理時間
- 吞吐量:批次處理能力
主要廠商:
- NVIDIA (與 AI 硬體/軟體):雖以GPU聞名,但加入Tensor Core(類NPU單元)
- 英特爾 (與 AI/ML):Habana Gaudi、Movidius
- Google (與 AI/ML):TPU系列
- Apple (蘋果與 AI):A系列芯片Neural Engine
- 高通 (與 AI):Hexagon DSP
- 華為 (與 AI/ML):昇騰(Ascend)系列
- 三星 (與 AI):NPU單元
編程模型:
- 通常需要專用編譯器:將模型轉換為NPU指令
- ONNX:跨平台中間表示
- 供應商SDK:各廠商的優化工具
NPU是AI大規模部署的關鍵硬體基礎。