硬體與部署
Hardware & Deployment
GPU、TPU、推論、MLOps等運算基礎設施
共 91 個詞彙
文件系統
File System
組織和管理電腦檔案的系統
可靠性
Reliability
系統穩定運行不故障的程度
吞吐量
Throughput
單位時間內處理的請求數
延遲
Latency
從請求到獲得回應的時間
訓練 (模型訓練)
Training (Model Training)
用數據調整模型參數的過程
雲端運算
Cloud Computing
透過網路使用遠端運算資源
圖形處理單元 (GPU / 圖形處理器)
GPU (Graphics Processing Unit)
專用於並行運算的硬體,AI訓練與推論的關鍵
CPU (中央處理器)
CPU (Central Processing Unit)
中央處理器,電腦的主要計算元件
可擴展性
Scalability
系統隨負載增長而擴充的能力
本地 AI
Local AI
離線在本機運行的 AI
自動擴展
Auto-scaling
依負載自動擴縮
冷啟動
Cold Start
服務初次載入時的延遲問題
冷啟動問題
Cold Start Problem
推薦或推論服務的冷啟動
批次推論
Batch Inference
一次處理多個請求
每秒Token數
TPS
Token per second,推論速度
版本控制
Version Control
追蹤程式碼與模型變更的工具與實踐
持續整合部署
CI/CD
自動化測試與部署的實踐
特殊應用積體電路
ASIC
專用硬體晶片
神經處理單元
NPU
專為神經網絡運算設計的處理器
張量處理單元 (TPU / 張量處理器)
TPU (Tensor Processing Unit)
Google專為深度學習設計的運算硬體
推論延遲
Inference Latency
從請求到回應的時間
產出物註冊表
Artifact Registry
管理模型與資料版本
散熱節流
Thermal Throttling
過熱時降頻
無伺服器
Serverless
無需管理伺服器的按需執行模式
無伺服器 AI
Serverless AI
按需擴展的 AI 推論服務
無伺服器GPU
Serverless GPU
按需GPU運算
量化版模型
Quantized Model
如 GGUF/EXL2 的壓縮格式
微服務
Microservices
將應用拆為獨立可部署的小服務
裝置端推論
On-device Inference
在本地裝置上推論
模型快取
Model Caching
快取已載入的模型
模型服務
Model Serving
將模型部署為可調用API的過程
模型A/B測試
A/B Testing for Models
比較不同模型版本
檢查點保存
Checkpointing
訓練中保存模型快照
邊緣AI
Edge AI
在裝置端而非雲端運行的AI推論
邊緣TPU
Edge TPU
Google邊緣推論晶片
CUDA
CUDA
NVIDIA的GPU並行運算平台與編程模型
CUDA核心
CUDA Cores
NVIDIA GPU的並行運算單元
Docker
Docker
容器化部署的標準工具
FLOPS
Floating Point Operations Per Second
每秒浮點運算次數,衡量計算性能的指標
GPU記憶體
GPU Memory
GPU的VRAM容量
TFLOPS
TFLOPS
每秒兆次浮點運算
VRAM
Video RAM
GPU專用記憶體,影響可載入的模型大小
上下文緩存
Context Caching
快取長文本以降低成本
互連頻寬
Interconnect Bandwidth
裝置間通訊速率
金絲雀部署
Canary Deployment
漸進式流量切換
計算受限
Compute-bound
受運算能力限制
特徵存儲
Feature Store
集中管理特徵的儲存
記憶體受限
Memory-bound
受記憶體頻寬限制
記憶體頻寬
Memory Bandwidth
記憶體與處理器間的數據傳輸速率
智能體生命週期管理
Agent Lifecycle Management
Agent 從開發到退役的完整管理
路由
Router
決定將請求發給大模型或小模型的組件
模型量化
Model Quantization
壓縮模型權重精度
模型漂移
Model Drift
模型表現隨時間退化
模型漂移監控
Model Drift Monitoring
持續監測模型效能衰減
機器學習運維
MLOps
將ML模型從開發到部署的運維實踐
藍綠部署
Blue-Green Deployment
雙環境切換部署
FP16
FP16
16位元浮點數,常用於訓練與推論
FPGA
FPGA
現場可程式邏輯
GPU虛擬化
GPU Virtualization
虛擬分割GPU資源
INT8
INT8
8位元整數,用於模型量化
Kubernetes
Kubernetes
容器編排與管理平台
NVLink
NVLink
NVIDIA高速GPU互連
Tensor核心
Tensor Cores
專為矩陣運算的GPU單元
TOPS
TOPS
每秒兆次運算
內存運算
In-Memory Computing
在記憶體中計算
分散式訓練
Distributed Training
跨多機多卡訓練
多實例GPU
MIG
Multi-Instance GPU,A100等分片
投機執行
Speculative Execution
推論加速技術
投機採樣
Speculative Decoding
用小模型預測、大模型驗證以加速生成
前置緩存
Prefix Caching
緩存 prompt 前段的 KV
流水線並行
Pipeline Parallelism
按層切分模型的並行
脈動陣列
Systolic Array
TPU核心的矩陣運算架構
高頻寬記憶體
HBM
HBM3/HBM3e,GPU高速記憶體
張量並行
Tensor Parallelism
在張量維度上切分
混合運算
Hybrid Computing
量子運算 + AI + 超算的結合
量子 AI
Quantum AI
量子運算與 AI 的結合
語言處理單元
LPU (Language Processing Unit)
專為 LLM 設計的專用晶片
數據並行
Data Parallelism
將不同批次分配到多GPU並行訓練
模型並行
Model Parallelism
將大模型切分到多裝置訓練
隨機捨入
Stochastic Rounding
低精度訓練的捨入方式
類神經形態晶片
Neuromorphic Chip
模擬大腦的晶片
邏輯量子位元
Logical Qubits
經錯誤校正的量子位元
BF16
Bfloat16
腦浮點16位格式
Blackwell 架構
Blackwell Architecture
NVIDIA 下一代 GPU 架構
Flash Attention
Flash Attention
加速注意力計算的記憶體高效實現
FP8
FP8
8位浮點格式
FSDP
Fully Sharded Data Parallel
全分片數據並行
HBM3e
HBM3e
高頻寬記憶體第三代增強版
INT4
INT4
4位整數量化
KV快取
KV Cache
快取注意力Key/Value以加速LLM生成
ZeRO優化器
ZeRO
消除優化器狀態冗餘