硬體與部署

Hardware & Deployment

GPU、TPU、推論、MLOps等運算基礎設施

共 91 個詞彙

全部基礎概念模型架構技術工具應用場景產業術語變現方法訓練與優化硬體與部署倫理與安全

CPU (中央處理器)

CPU (Central Processing Unit)

中央處理器，電腦的主要計算元件

硬體與部署查看詳情

可靠性

Reliability

系統穩定運行不故障的程度

硬體與部署查看詳情

吞吐量

Throughput

單位時間內處理的請求數

硬體與部署查看詳情

圖形處理單元 (GPU / 圖形處理器)

GPU (Graphics Processing Unit)

專用於並行運算的硬體，AI訓練與推論的關鍵

硬體與部署查看詳情

延遲

Latency

從請求到獲得回應的時間

硬體與部署查看詳情

文件系統

File System

組織和管理電腦檔案的系統

硬體與部署查看詳情

訓練 (模型訓練)

Training (Model Training)

用數據調整模型參數的過程

硬體與部署查看詳情

雲端運算

Cloud Computing

透過網路使用遠端運算資源

硬體與部署查看詳情

CUDA

NVIDIA的GPU並行運算平台與編程模型

硬體與部署查看詳情

CUDA核心

CUDA Cores

NVIDIA GPU的並行運算單元

硬體與部署查看詳情

Docker

容器化部署的標準工具

硬體與部署查看詳情

FLOPS

Floating Point Operations Per Second

每秒浮點運算次數，衡量計算性能的指標

硬體與部署查看詳情

GPU記憶體

GPU Memory

GPU的VRAM容量

硬體與部署查看詳情

TFLOPS

每秒兆次浮點運算

硬體與部署查看詳情

VRAM

Video RAM

GPU專用記憶體，影響可載入的模型大小

硬體與部署查看詳情

冷啟動

Cold Start

服務初次載入時的延遲問題

硬體與部署查看詳情

冷啟動問題

Cold Start Problem

推薦或推論服務的冷啟動

硬體與部署查看詳情

可擴展性

Scalability

系統隨負載增長而擴充的能力

硬體與部署查看詳情

張量處理單元 (TPU / 張量處理器)

TPU (Tensor Processing Unit)

Google專為深度學習設計的運算硬體

硬體與部署查看詳情

微服務

Microservices

將應用拆為獨立可部署的小服務

硬體與部署查看詳情

批次推論

Batch Inference

一次處理多個請求

硬體與部署查看詳情

持續整合部署

CI/CD

自動化測試與部署的實踐

硬體與部署查看詳情

推論延遲

Inference Latency

從請求到回應的時間

硬體與部署查看詳情

散熱節流

Thermal Throttling

過熱時降頻

硬體與部署查看詳情

本地 AI

Local AI

離線在本機運行的 AI

硬體與部署查看詳情

模型A/B測試

A/B Testing for Models

比較不同模型版本

硬體與部署查看詳情

模型快取

Model Caching

快取已載入的模型

硬體與部署查看詳情

模型服務

Model Serving

將模型部署為可調用API的過程

硬體與部署查看詳情

檢查點保存

Checkpointing

訓練中保存模型快照

硬體與部署查看詳情

每秒Token數

TPS

Token per second，推論速度

硬體與部署查看詳情

無伺服器

Serverless

無需管理伺服器的按需執行模式

硬體與部署查看詳情

無伺服器 AI

Serverless AI

按需擴展的 AI 推論服務

硬體與部署查看詳情

無伺服器GPU

Serverless GPU

按需GPU運算

硬體與部署查看詳情

版本控制

Version Control

追蹤程式碼與模型變更的工具與實踐

硬體與部署查看詳情

特殊應用積體電路

ASIC

專用硬體晶片

硬體與部署查看詳情

產出物註冊表

Artifact Registry

管理模型與資料版本

硬體與部署查看詳情

神經處理單元

NPU

專為神經網絡運算設計的處理器

硬體與部署查看詳情

自動擴展

Auto-scaling

依負載自動擴縮

硬體與部署查看詳情

裝置端推論

On-device Inference

在本地裝置上推論

硬體與部署查看詳情

邊緣AI

Edge AI

在裝置端而非雲端運行的AI推論

硬體與部署查看詳情

邊緣TPU

Edge TPU

Google邊緣推論晶片

硬體與部署查看詳情

量化版模型

Quantized Model

如 GGUF/EXL2 的壓縮格式

硬體與部署查看詳情

FP16

16位元浮點數，常用於訓練與推論

硬體與部署查看詳情

FPGA

現場可程式邏輯

硬體與部署查看詳情

GPU虛擬化

GPU Virtualization

虛擬分割GPU資源

硬體與部署查看詳情

INT8

8位元整數，用於模型量化

硬體與部署查看詳情

Kubernetes

容器編排與管理平台

硬體與部署查看詳情

NVLink

NVIDIA高速GPU互連

硬體與部署查看詳情

Tensor核心

Tensor Cores

專為矩陣運算的GPU單元

硬體與部署查看詳情

TOPS

每秒兆次運算

硬體與部署查看詳情

上下文緩存

Context Caching

快取長文本以降低成本

硬體與部署查看詳情

互連頻寬

Interconnect Bandwidth

裝置間通訊速率

硬體與部署查看詳情

智能體生命週期管理

Agent Lifecycle Management

Agent 從開發到退役的完整管理

硬體與部署查看詳情

模型漂移

Model Drift

模型表現隨時間退化

硬體與部署查看詳情

模型漂移監控

Model Drift Monitoring

持續監測模型效能衰減

硬體與部署查看詳情

模型量化

Model Quantization

壓縮模型權重精度

硬體與部署查看詳情

機器學習運維

MLOps

將ML模型從開發到部署的運維實踐

硬體與部署查看詳情

特徵存儲

Feature Store

集中管理特徵的儲存

硬體與部署查看詳情

藍綠部署

Blue-Green Deployment

雙環境切換部署

硬體與部署查看詳情

計算受限

Compute-bound

受運算能力限制

硬體與部署查看詳情

記憶體受限

Memory-bound

受記憶體頻寬限制

硬體與部署查看詳情

記憶體頻寬

Memory Bandwidth

記憶體與處理器間的數據傳輸速率

硬體與部署查看詳情

路由

Router

決定將請求發給大模型或小模型的組件

硬體與部署查看詳情

金絲雀部署

Canary Deployment

漸進式流量切換

硬體與部署查看詳情

BF16

Bfloat16

腦浮點16位格式

硬體與部署查看詳情

Blackwell 架構

Blackwell Architecture

NVIDIA 下一代 GPU 架構

硬體與部署查看詳情

Flash Attention

加速注意力計算的記憶體高效實現

硬體與部署查看詳情

FP8

8位浮點格式

硬體與部署查看詳情

FSDP

Fully Sharded Data Parallel

全分片數據並行

硬體與部署查看詳情

HBM3e

高頻寬記憶體第三代增強版

硬體與部署查看詳情

INT4

4位整數量化

硬體與部署查看詳情

KV快取

KV Cache

快取注意力Key/Value以加速LLM生成

硬體與部署查看詳情

ZeRO優化器

ZeRO

消除優化器狀態冗餘

硬體與部署查看詳情

內存運算

In-Memory Computing

在記憶體中計算

硬體與部署查看詳情

分散式訓練

Distributed Training

跨多機多卡訓練

硬體與部署查看詳情

前置緩存

Prefix Caching

緩存 prompt 前段的 KV

硬體與部署查看詳情

多實例GPU

MIG

Multi-Instance GPU，A100等分片

硬體與部署查看詳情

張量並行

Tensor Parallelism

在張量維度上切分

硬體與部署查看詳情

投機執行

Speculative Execution

推論加速技術

硬體與部署查看詳情

投機採樣

Speculative Decoding

用小模型預測、大模型驗證以加速生成

硬體與部署查看詳情

數據並行

Data Parallelism

將不同批次分配到多GPU並行訓練

硬體與部署查看詳情

模型並行

Model Parallelism

將大模型切分到多裝置訓練

硬體與部署查看詳情

流水線並行

Pipeline Parallelism

按層切分模型的並行

硬體與部署查看詳情

混合運算

Hybrid Computing

量子運算 + AI + 超算的結合

硬體與部署查看詳情

脈動陣列

Systolic Array

TPU核心的矩陣運算架構

硬體與部署查看詳情

語言處理單元

LPU (Language Processing Unit)

專為 LLM 設計的專用晶片

硬體與部署查看詳情

邏輯量子位元

Logical Qubits

經錯誤校正的量子位元

硬體與部署查看詳情

量子 AI

Quantum AI

量子運算與 AI 的結合

硬體與部署查看詳情

隨機捨入

Stochastic Rounding

低精度訓練的捨入方式

硬體與部署查看詳情

類神經形態晶片

Neuromorphic Chip

模擬大腦的晶片

硬體與部署查看詳情

高頻寬記憶體

HBM

HBM3/HBM3e，GPU高速記憶體

硬體與部署查看詳情