硬體與部署

Hardware & Deployment

GPU、TPU、推論、MLOps等運算基礎設施

91 個詞彙

文件系統

File System

1

組織和管理電腦檔案的系統

硬體與部署查看詳情

可靠性

Reliability

1

系統穩定運行不故障的程度

硬體與部署查看詳情

吞吐量

Throughput

1

單位時間內處理的請求數

硬體與部署查看詳情

延遲

Latency

1

從請求到獲得回應的時間

硬體與部署查看詳情

訓練 (模型訓練)

Training (Model Training)

1

用數據調整模型參數的過程

硬體與部署查看詳情

雲端運算

Cloud Computing

1

透過網路使用遠端運算資源

硬體與部署查看詳情

圖形處理單元 (GPU / 圖形處理器)

GPU (Graphics Processing Unit)

1

專用於並行運算的硬體,AI訓練與推論的關鍵

硬體與部署查看詳情

CPU (中央處理器)

CPU (Central Processing Unit)

1

中央處理器,電腦的主要計算元件

硬體與部署查看詳情

可擴展性

Scalability

2

系統隨負載增長而擴充的能力

硬體與部署查看詳情

本地 AI

Local AI

2

離線在本機運行的 AI

硬體與部署查看詳情

自動擴展

Auto-scaling

2

依負載自動擴縮

硬體與部署查看詳情

冷啟動

Cold Start

2

服務初次載入時的延遲問題

硬體與部署查看詳情

冷啟動問題

Cold Start Problem

2

推薦或推論服務的冷啟動

硬體與部署查看詳情

批次推論

Batch Inference

2

一次處理多個請求

硬體與部署查看詳情

每秒Token數

TPS

2

Token per second,推論速度

硬體與部署查看詳情

版本控制

Version Control

2

追蹤程式碼與模型變更的工具與實踐

硬體與部署查看詳情

持續整合部署

CI/CD

2

自動化測試與部署的實踐

硬體與部署查看詳情

特殊應用積體電路

ASIC

2

專用硬體晶片

硬體與部署查看詳情

神經處理單元

NPU

2

專為神經網絡運算設計的處理器

硬體與部署查看詳情

張量處理單元 (TPU / 張量處理器)

TPU (Tensor Processing Unit)

2

Google專為深度學習設計的運算硬體

硬體與部署查看詳情

推論延遲

Inference Latency

2

從請求到回應的時間

硬體與部署查看詳情

產出物註冊表

Artifact Registry

2

管理模型與資料版本

硬體與部署查看詳情

散熱節流

Thermal Throttling

2

過熱時降頻

硬體與部署查看詳情

無伺服器

Serverless

2

無需管理伺服器的按需執行模式

硬體與部署查看詳情

無伺服器 AI

Serverless AI

2

按需擴展的 AI 推論服務

硬體與部署查看詳情

無伺服器GPU

Serverless GPU

2

按需GPU運算

硬體與部署查看詳情

量化版模型

Quantized Model

2

如 GGUF/EXL2 的壓縮格式

硬體與部署查看詳情

微服務

Microservices

2

將應用拆為獨立可部署的小服務

硬體與部署查看詳情

裝置端推論

On-device Inference

2

在本地裝置上推論

硬體與部署查看詳情

模型快取

Model Caching

2

快取已載入的模型

硬體與部署查看詳情

模型服務

Model Serving

2

將模型部署為可調用API的過程

硬體與部署查看詳情

模型A/B測試

A/B Testing for Models

2

比較不同模型版本

硬體與部署查看詳情

檢查點保存

Checkpointing

2

訓練中保存模型快照

硬體與部署查看詳情

邊緣AI

Edge AI

2

在裝置端而非雲端運行的AI推論

硬體與部署查看詳情

邊緣TPU

Edge TPU

2

Google邊緣推論晶片

硬體與部署查看詳情

CUDA

CUDA

2

NVIDIA的GPU並行運算平台與編程模型

硬體與部署查看詳情

CUDA核心

CUDA Cores

2

NVIDIA GPU的並行運算單元

硬體與部署查看詳情

Docker

Docker

2

容器化部署的標準工具

硬體與部署查看詳情

FLOPS

Floating Point Operations Per Second

2

每秒浮點運算次數,衡量計算性能的指標

硬體與部署查看詳情

GPU記憶體

GPU Memory

2

GPU的VRAM容量

硬體與部署查看詳情

TFLOPS

TFLOPS

2

每秒兆次浮點運算

硬體與部署查看詳情

VRAM

Video RAM

2

GPU專用記憶體,影響可載入的模型大小

硬體與部署查看詳情

上下文緩存

Context Caching

3

快取長文本以降低成本

硬體與部署查看詳情

互連頻寬

Interconnect Bandwidth

3

裝置間通訊速率

硬體與部署查看詳情

金絲雀部署

Canary Deployment

3

漸進式流量切換

硬體與部署查看詳情

計算受限

Compute-bound

3

受運算能力限制

硬體與部署查看詳情

特徵存儲

Feature Store

3

集中管理特徵的儲存

硬體與部署查看詳情

記憶體受限

Memory-bound

3

受記憶體頻寬限制

硬體與部署查看詳情

記憶體頻寬

Memory Bandwidth

3

記憶體與處理器間的數據傳輸速率

硬體與部署查看詳情

智能體生命週期管理

Agent Lifecycle Management

3

Agent 從開發到退役的完整管理

硬體與部署查看詳情

路由

Router

3

決定將請求發給大模型或小模型的組件

硬體與部署查看詳情

模型量化

Model Quantization

3

壓縮模型權重精度

硬體與部署查看詳情

模型漂移

Model Drift

3

模型表現隨時間退化

硬體與部署查看詳情

模型漂移監控

Model Drift Monitoring

3

持續監測模型效能衰減

硬體與部署查看詳情

機器學習運維

MLOps

3

將ML模型從開發到部署的運維實踐

硬體與部署查看詳情

藍綠部署

Blue-Green Deployment

3

雙環境切換部署

硬體與部署查看詳情

FP16

FP16

3

16位元浮點數,常用於訓練與推論

硬體與部署查看詳情

FPGA

FPGA

3

現場可程式邏輯

硬體與部署查看詳情

GPU虛擬化

GPU Virtualization

3

虛擬分割GPU資源

硬體與部署查看詳情

INT8

INT8

3

8位元整數,用於模型量化

硬體與部署查看詳情

Kubernetes

Kubernetes

3

容器編排與管理平台

硬體與部署查看詳情

NVLink

NVLink

3

NVIDIA高速GPU互連

硬體與部署查看詳情

Tensor核心

Tensor Cores

3

專為矩陣運算的GPU單元

硬體與部署查看詳情

TOPS

TOPS

3

每秒兆次運算

硬體與部署查看詳情

內存運算

In-Memory Computing

4

在記憶體中計算

硬體與部署查看詳情

分散式訓練

Distributed Training

4

跨多機多卡訓練

硬體與部署查看詳情

多實例GPU

MIG

4

Multi-Instance GPU,A100等分片

硬體與部署查看詳情

投機執行

Speculative Execution

4

推論加速技術

硬體與部署查看詳情

投機採樣

Speculative Decoding

4

用小模型預測、大模型驗證以加速生成

硬體與部署查看詳情

前置緩存

Prefix Caching

4

緩存 prompt 前段的 KV

硬體與部署查看詳情

流水線並行

Pipeline Parallelism

4

按層切分模型的並行

硬體與部署查看詳情

脈動陣列

Systolic Array

4

TPU核心的矩陣運算架構

硬體與部署查看詳情

高頻寬記憶體

HBM

4

HBM3/HBM3e,GPU高速記憶體

硬體與部署查看詳情

張量並行

Tensor Parallelism

4

在張量維度上切分

硬體與部署查看詳情

混合運算

Hybrid Computing

4

量子運算 + AI + 超算的結合

硬體與部署查看詳情

量子 AI

Quantum AI

4

量子運算與 AI 的結合

硬體與部署查看詳情

語言處理單元

LPU (Language Processing Unit)

4

專為 LLM 設計的專用晶片

硬體與部署查看詳情

數據並行

Data Parallelism

4

將不同批次分配到多GPU並行訓練

硬體與部署查看詳情

模型並行

Model Parallelism

4

將大模型切分到多裝置訓練

硬體與部署查看詳情

隨機捨入

Stochastic Rounding

4

低精度訓練的捨入方式

硬體與部署查看詳情

類神經形態晶片

Neuromorphic Chip

4

模擬大腦的晶片

硬體與部署查看詳情

邏輯量子位元

Logical Qubits

4

經錯誤校正的量子位元

硬體與部署查看詳情

BF16

Bfloat16

4

腦浮點16位格式

硬體與部署查看詳情

Blackwell 架構

Blackwell Architecture

4

NVIDIA 下一代 GPU 架構

硬體與部署查看詳情

Flash Attention

Flash Attention

4

加速注意力計算的記憶體高效實現

硬體與部署查看詳情

FP8

FP8

4

8位浮點格式

硬體與部署查看詳情

FSDP

Fully Sharded Data Parallel

4

全分片數據並行

硬體與部署查看詳情

HBM3e

HBM3e

4

高頻寬記憶體第三代增強版

硬體與部署查看詳情

INT4

INT4

4

4位整數量化

硬體與部署查看詳情

KV快取

KV Cache

4

快取注意力Key/Value以加速LLM生成

硬體與部署查看詳情

ZeRO優化器

ZeRO

4

消除優化器狀態冗餘

硬體與部署查看詳情