神經處理單元

NPU

專為神經網絡運算設計的處理器

詳細解釋

神經處理單元(Neural Processing Unit, NPU)是專門設計用於加速神經網絡計算的硬體芯片,比通用CPU/GPU更適合AI推理和訓練。

與其他處理器的對比:

  • CPU:通用計算,單線程性能強,但並行AI計算效率低
  • GPU:大規模並行,適合訓練,但功耗高
  • NPU:專為矩陣乘法和卷積優化,推理效率最高
  • TPU:Google的NPU實現

設計特點:

  • 矩陣加速器:大規模矩陣乘法單元(如4K×4K)
  • 低精度支持:INT8/INT4甚至二值化計算
  • 數據流優化:減少數據移動(記憶體牆問題)
  • 脈動陣列(脈動陣列):數據流動計算
  • 稀疏性利用:跳過零值計算

應用場景:

性能指標:

  • TOPS:每秒萬億次操作(主要衡量矩陣乘法)
  • 能效比:TOPS/W,NPU通常比GPU高10-50倍
  • 延遲:單樣本推理時間
  • 吞吐量:批次處理能力

主要廠商:

編程模型:

  • 通常需要專用編譯器:將模型轉換為NPU指令
  • ONNX:跨平台中間表示
  • 供應商SDK:各廠商的優化工具

NPU是AI大規模部署的關鍵硬體基礎。

探索更多AI詞彙

查看所有分類,繼續學習AI知識