訓練與優化

Training & Optimization

模型訓練、損失函數、優化器與評估指標

共 134 個詞彙

全部基礎概念模型架構技術工具應用場景產業術語變現方法訓練與優化硬體與部署倫理與安全

模型訓練

Model Training

以資料與損失函數透過 [[backpropagation]]、[[gradient-descent]] 等更新參數，使模型擬合目標的過程；含 [[distributed-training]]、[[mixed-precision-training]] 等。

訓練與優化查看詳情

測試集

Test Set

用於最終評估的未參與訓練數據

訓練與優化查看詳情

準確率

Accuracy

預測正確的樣本比例

訓練與優化查看詳情

線性迴歸

Linear Regression

以特徵的線性組合預測連續目標的 [[machine-learning]] 方法，常用最小二乘或 [[gradient-descent]] 求解。

訓練與優化查看詳情

訓練集

Training Set

用於訓練模型的數據子集

訓練與優化查看詳情

詮釋資料

Metadata

描述數據屬性的資料

訓練與優化查看詳情

資料標註

Data Labeling

為數據添加標籤的過程

訓練與優化查看詳情

驗證集

Validation Set

用於調參與早停的數據子集

訓練與優化查看詳情

AWQ (激活感知權重量化)

AWQ (Activation-Aware Weight Quantization)

依激活重要性保留部分權重、其餘壓成 4 bit 的 LLM 量化方法，與 GPTQ 並列常用

訓練與優化查看詳情

BERTScore (語義相似度評估)

BERTScore

以 [[bert]] 等模型的 [[embedding]] 計算候選與參考文本語義相似度的自動評估指標，優於 BLEU/ROUGE。

訓練與優化查看詳情

DBSCAN (密度聚類)

DBSCAN (Density-Based Clustering)

依密度聚類的無監督演算法，不需預設簇數，可找出任意形狀簇並標記離群點。

訓練與優化查看詳情

Elo等級分

Elo Rating

模型對戰強弱排名

訓練與優化查看詳情

F1分數

F1 Score

精確率與召回率的調和平均

訓練與優化查看詳情

FP32 (單精度浮點 / Float32)

FP32 (Single Precision / Float32)

32 位元單精度浮點數格式，為深度學習預設權重與計算精度，較 [[quantization]] 省記憶體但較慢。

訓練與優化查看詳情

GPTQ (訓練後四比特權重量化)

GPTQ (GPT Quantization)

針對生成式預訓練模型的訓練後量化方法，將權重壓至 4 bit 並以 Hessian 近似最小化誤差

訓練與優化查看詳情

Lasso (L1 正則化迴歸)

Lasso (L1 Regularized Regression)

加入 L1 懲罰的線性迴歸，係數可壓縮為 0，具特徵選擇效果；與 [[regularization]]、Ridge 同屬正則化方法。

訓練與優化查看詳情

LightGBM (輕量梯度提升)

LightGBM

Microsoft 的梯度提升決策樹框架，採 GOSS 與 EFB 加速，支援分散式與 [[gpu]]，常與 [[xgboost]]、[[random-forest]] 並列。

訓練與優化查看詳情

LMSYS Chatbot Arena

盲測大模型排行榜

訓練與優化查看詳情

RMSprop

依梯度平方的指數移動平均做 per-parameter 縮放的自適應 [[gradient-descent]] 優化器，為 [[adam]] 的前身之一。

訓練與優化查看詳情

SMOTE (合成少數過採樣)

SMOTE

對少數類在特徵空間中做 k 近鄰插值以合成新樣本，緩解類別不平衡的過採樣方法，常用於 [[machine-learning]] 分類。

訓練與優化查看詳情

Xavier 初始化

Xavier Initialization

依層的輸入與輸出維度設定權重方差，使前向與反向時訊號方差維持穩定，常用於 [[neural-network]] 與 [[he-initialization]] 對比。

訓練與優化查看詳情

不平衡數據

Imbalanced Data

類別分布不均的訓練數據

訓練與優化查看詳情

二元交叉熵

Binary Cross-Entropy

二分類常用的損失函數

訓練與優化查看詳情

交叉熵

Cross-Entropy

分類任務的標準損失

訓練與優化查看詳情

交叉驗證

Cross-validation

輪流將數據分為訓練與驗證集的評估方法

訓練與優化查看詳情

利用率

Utilization

資源被有效使用的比例，如 [[gpu]] 利用率（算力或記憶體使用率），用於 [[profiler]] 與 [[roofline-model]] 效能分析。

訓練與優化查看詳情

卸載 (Offloading)

Offloading

將 [[gpu]] 記憶體不足的張量或狀態暫存到 CPU/磁碟，以換取更大模型或 batch，常用於 [[llm]] 訓練與 [[inference]]。

訓練與優化查看詳情

去重處理 (Dedup) (Near Dedup)

Deduplication (Near Dedup)

移除訓練集重複

訓練與優化查看詳情

召回率

Recall

實際正例中被正確預測的比例

訓練與優化查看詳情

合成數據

Synthetic Data

由AI或模擬生成的訓練數據

訓練與優化查看詳情

均方誤差

MSE

預測與真實值差平方的平均

訓練與優化查看詳情

學習率

Learning Rate

梯度下降時每步更新參數的步長

訓練與優化查看詳情

學習率排程

Learning Rate Scheduler

動態調整學習率

訓練與優化查看詳情

學習率調度

Learning Rate Schedule

訓練過程中調整學習率的方法

訓練與優化查看詳情

平均絕對誤差

MAE

預測與真實差絕對值的平均

訓練與優化查看詳情

批次大小

Batch Size

每次梯度更新使用的樣本數量

訓練與優化查看詳情

損失函數 (Loss Scaling)

Loss Function (Loss Scaling)

衡量模型預測與真實值差異的指標

訓練與優化查看詳情

收斂

Convergence

訓練過程中損失趨於穩定的狀態

訓練與優化查看詳情

數據策展

Data Curating

高品質數據的篩選與清洗

訓練與優化查看詳情

早停法

Early Stopping

驗證集表現不再提升時停止訓練

訓練與優化查看詳情

時間序列

Time Series

按時間排列的數據

訓練與優化查看詳情

標準化

Standardization

將數據轉為零均值單位方差

訓練與優化查看詳情

權重衰減

Weight Decay

L2正則化防止過擬合

訓練與優化查看詳情

欠擬合 (擬合不足)

Underfitting

模型過於簡單無法捕捉數據規律

訓練與優化查看詳情

正規化

Normalization

將數據縮放至特定範圍的預處理

訓練與優化查看詳情

混合精度訓練

Mixed Precision Training

以 FP16/BF16 為主、FP32 為輔的 [[neural-network]] 訓練方式，搭配 loss scaling 以兼顧速度與數值穩定；與 [[mixed-precision]] 同義。

訓練與優化查看詳情

混淆矩陣

Confusion Matrix

展示分類預測與真實標籤對應的表格

訓練與優化查看詳情

特徵工程

Feature Engineering

從原始數據構造有意義特徵的過程

訓練與優化查看詳情

特徵選擇

Feature Selection

選取最有預測力的特徵子集

訓練與優化查看詳情

目標函數

Objective Function

優化問題中要最大化或最小化的函數

訓練與優化查看詳情

精確率

Precision

預測為正例中實際為正的比例

訓練與優化查看詳情

維度縮減

Dimensionality Reduction

降低特徵維度保留關鍵資訊

訓練與優化查看詳情

線上學習

Online Learning

模型依序接收樣本或資料流並即時更新參數的 [[machine-learning]] 設定，與批量訓練相對；常見於串流與即時系統。

訓練與優化查看詳情

訓練週期

Epoch

模型遍歷完整訓練集一次的單位

訓練與優化查看詳情

資料並行 (Data Parallel)

Data Parallelism (DP)

[[distributed-training]] 方式：每張 GPU 持有一份完整模型副本，各自處理不同資料分片，再同步梯度。

訓練與優化查看詳情

資料增強

Data Augmentation

透過變換擴充訓練數據的方法

訓練與優化查看詳情

資料探勘

Data Mining

從大數據中發掘 patterns 的過程

訓練與優化查看詳情

資料管線

Data Pipeline

數據從採集到模型輸入的處理流程

訓練與優化查看詳情

資料預處理

Data Preprocessing

訓練前清洗與轉換原始數據的步驟

訓練與優化查看詳情

超參數

Hyperparameter

訓練前需人為設定的模型配置參數

訓練與優化查看詳情

連續批次 (Continuous Batching)

Continuous Batching

[[llm]] [[inference]] 優化：每步解碼後可替換已完成序列為新請求，提高 GPU 利用率與吞吐。

訓練與優化查看詳情

過擬合 (過度擬合 / 過適)

Overfitting

模型過度擬合訓練數據而喪失泛化能力

訓練與優化查看詳情

離群值

Outlier

與多數數據顯著不同的樣本

訓練與優化查看詳情

AdamW

帶權重衰減的Adam優化器

訓練與優化查看詳情

Adam優化器

Adam Optimizer

結合動量與自適應學習率的常用優化器

訓練與優化查看詳情

ADASYN (自適應合成採樣)

ADASYN (Adaptive Synthetic Sampling)

針對不平衡資料的過採樣方法，依少數類樣本難度自適應生成合成樣本。

訓練與優化查看詳情

Apriori 演算法 (關聯規則挖掘)

Apriori Algorithm

用於頻繁項集挖掘與關聯規則學習的經典無監督演算法，常見於購物籃分析。

訓練與優化查看詳情

AUC-ROC

分類模型排序能力的曲線下面積

訓練與優化查看詳情

BLEU分數

BLEU Score

評估機器翻譯質量的自動指標

訓練與優化查看詳情

EasyEnsemble (簡易集成)

EasyEnsemble

對多數類重複隨機欠採樣產生多個平衡子集，再訓練集成分類器，用於不平衡分類。

訓練與優化查看詳情

GSM8K

數學推理評估基準

訓練與優化查看詳情

He 初始化 (Kaiming 初始化)

He Initialization (Kaiming Initialization)

針對 [[relu]] 設計的權重初始化，方差為 √(2/n_in)，使深層網路前向與反向時激活與梯度方差穩定。

訓練與優化查看詳情

Huber損失

Huber Loss

結合MSE與MAE的魯棒損失

訓練與優化查看詳情

HumanEval

程式碼生成評估基準

訓練與優化查看詳情

L1正規化

L1 Regularization

Lasso，促進稀疏解

訓練與優化查看詳情

L2正規化

L2 Regularization

Ridge，權重衰減

訓練與優化查看詳情

Medusa (推論加速)

Medusa

為 [[llm]] 設計的推論加速方法：以多頭解碼一次產出多個候選 token，再以驗證頭篩選，可減少 [[inference]] 步數。

訓練與優化查看詳情

MMLU

綜合知識評估基準

訓練與優化查看詳情

MT-Bench

對話能力評測

訓練與優化查看詳情

Perplexity 指標

Perplexity (metric)

衡量語言模型預測不確定性的評估指標

訓練與優化查看詳情

Roofline 模型

Roofline Model

以算力與記憶體頻寬為上限評估運算效能的分析模型，可判斷 [[gpu]] 或 kernel 是算力受限還是頻寬受限。

訓練與優化查看詳情

ROUGE分數

ROUGE Score

評估文本摘要質量的指標

訓練與優化查看詳情

SimCLR (對比式自監督學習)

SimCLR

以同一影像的不同 augmentation 為正樣本、其餘為負樣本的 [[contrastive-learning]] 框架，無需標籤即可學到視覺表徵；[[clip]] 前身之一。

訓練與優化查看詳情

中央極限定理 (CLT)

Central Limit Theorem (CLT)

樣本平均的分布隨樣本數增大趨近常態，不論母體分布為何，為統計推論與 [[machine-learning]] 評估的基礎。

訓練與優化查看詳情

主成分分析

PCA

用於降維的線性變換方法

訓練與優化查看詳情

偏差-方差權衡

Bias-Variance Tradeoff

模型複雜度與泛化能力的取捨

訓練與優化查看詳情

全域最小值

Global Minimum

函數的整體最小值

訓練與優化查看詳情

剪枝

Pruning

移除模型中冗餘參數以壓縮模型

訓練與優化查看詳情

動量

Momentum

利用歷史梯度的加速項

訓練與優化查看詳情

區域最小值

Local Minimum

鄰域內的最小值

訓練與優化查看詳情

反向傳播 (倒傳遞)

Backpropagation

訓練神經網絡時計算梯度的核心算法

訓練與優化查看詳情

平坦最小值 (Flat Minima)

Flat Minima

損失曲面中曲率較小、參數微擾對損失影響小的區域，實務上常與較佳泛化相關。

訓練與優化查看詳情

批次正規化 (Batch Norm / BN)

Batch Normalization (Batch Norm / BN)

對每層輸入正規化以穩定訓練的技術

訓練與優化查看詳情

校準 (機率校準 / Calibration)

Calibration (Probability Calibration)

讓分類器輸出的機率與真實發生頻率一致，使「預測 0.8」約對應 80% 實際為正。

訓練與優化查看詳情

梯度下降 (梯度遞減)

Gradient Descent (SGD)

透過梯度逐步調整參數以最小化損失的優化方法

訓練與優化查看詳情

梯度檢查點 (Gradient Checkpointing)

Gradient Checkpointing (Activation Checkpointing)

前向時只存部分激活為檢查點，反向時再重算其餘激活，以時間換取 [[backpropagation]] 記憶體，可訓練更大模型。

訓練與優化查看詳情

梯度消失 (Vanishing Gradient)

Gradient Vanishing (Vanishing Gradient)

深層網絡梯度趨近於零

訓練與優化查看詳情

梯度爆炸 (Exploding Gradient)

Gradient Explosion (Exploding Gradient)

深層網絡梯度急劇增大

訓練與優化查看詳情

梯度裁剪

Gradient Clipping

限制梯度大小防止爆炸

訓練與優化查看詳情

概念漂移

Concept Drift

數據分布隨時間變化

訓練與優化查看詳情

標籤平滑

Label Smoothing

軟化硬標籤以減輕過擬合的技術

訓練與優化查看詳情

模仿學習 (Imitation Learning)

Imitation Learning (IL)

從專家示範（狀態－動作對）學習策略的 [[reinforcement-learning]] 範式，含行為克隆與 DAgger、IRL 等。

訓練與優化查看詳情

模型並行

Model Parallelism

將單一模型切分到多張 [[gpu]] 或節點上，以單層或層內分割降低單機記憶體需求；常與 [[distributed-training]] 並用。

訓練與優化查看詳情

模型擴展

Model Scaling

增大模型規模以提升表現

訓練與優化查看詳情

權重剪枝

Weight Pruning

移除冗餘權重

訓練與優化查看詳情

正則化

Regularization

泛指防止模型過擬合的約束技術

訓練與優化查看詳情

熱身

Warmup

訓練初期漸進提高學習率的技巧

訓練與優化查看詳情

熵

Entropy

衡量不確定性或資訊量的指標

訓練與優化查看詳情

知識蒸餾

Knowledge Distillation

將大模型知識轉移到小模型

訓練與優化查看詳情

算子融合

Operator Fusion

將多個小算子（如 ReLU、BN、Conv）合併成單一 kernel，減少 [[gpu]] 記憶體存取與 kernel 啟動開銷，以加速 [[inference]] 與訓練。

訓練與優化查看詳情

管線並行

Pipeline Parallelism

將模型按層切分到多裝置，以微批次填滿管線、隱藏氣泡，為 [[model-parallel]] 的一種，常用於大 [[llm]]。

訓練與優化查看詳情

維度災難

Curse of Dimensionality

高維空間的數據稀疏問題

訓練與優化查看詳情

通訊開銷 (Communication Overhead)

Communication Overhead

[[distributed-training]] 中節點間同步梯度或參數所耗時間與頻寬，為擴展時的主要瓶頸之一。

訓練與優化查看詳情

量化 (模型量化) (Quantization Aware Training)

Quantization (Model Quantization) (Quantization Aware Training)

將模型權重降低精度以減少記憶體與加速推論

訓練與優化查看詳情

隨機失活

Dropout

訓練時隨機丟棄神經元以減少過擬合

訓練與優化查看詳情

隨機梯度下降

SGD

每批樣本更新參數的梯度下降變體

訓練與優化查看詳情

頻率派統計 (Frequentist Statistics)

Frequentist Statistics

將機率視為長期頻率、參數視為固定未知的統計學派，以 p 值、信賴區間與假設檢定為主要工具。

訓練與優化查看詳情

Chinchilla定律

Chinchilla Laws

數據與參數的優化比例

訓練與優化查看詳情

KL散度

Kullback-Leibler Divergence

衡量兩機率分布差異的指標

訓練與優化查看詳情

QAT / PTQ

QAT & PTQ

量化感知訓練與後訓練量化

訓練與優化查看詳情

三元組損失

Triplet Loss

對比學習的常見損失

訓練與優化查看詳情

似然函數

Likelihood Function

參數的機率給定觀測

訓練與優化查看詳情

協變量偏移

Covariate Shift

訓練與測試時輸入分布不一致

訓練與優化查看詳情

對數似然

Log-Likelihood

模型擬合數據的對數機率

訓練與優化查看詳情

擴展定律

Scaling Laws

模型表現隨規模的規律

訓練與優化查看詳情

混合精度

Mixed Precision

FP16與FP32混合訓練

訓練與優化查看詳情

約束優化

Constraint Optimization

在約束條件下優化目標

訓練與優化查看詳情

蒸餾感知訓練

Distillation-aware Training

訓練時即考慮後續蒸餾

訓練與優化查看詳情

訓練後量化

PTQ

Post-Training Quantization

訓練與優化查看詳情

貝葉斯優化

Bayesian Optimization

用機率模型高效搜尋超參數的方法

訓練與優化查看詳情

運算最優

Compute Optimal

給定算力下的最優配置

訓練與優化查看詳情

量化感知訓練

QAT

Quantization Aware Training

訓練與優化查看詳情

非凸優化

Non-convex Optimization

目標函數非凸的優化問題

訓練與優化查看詳情

鞍點

Saddle Point

某些方向上升、某些下降的臨界點

訓練與優化查看詳情