訓練與優化

Training & Optimization

模型訓練、損失函數、優化器與評估指標

134 個詞彙

訓練集

Training Set

1

用於訓練模型的數據子集

訓練與優化查看詳情

測試集

Test Set

1

用於最終評估的未參與訓練數據

訓練與優化查看詳情

準確率

Accuracy

1

預測正確的樣本比例

訓練與優化查看詳情

詮釋資料

Metadata

1

描述數據屬性的資料

訓練與優化查看詳情

資料標註

Data Labeling

1

為數據添加標籤的過程

訓練與優化查看詳情

模型訓練

Model Training

1

以資料與損失函數透過 [[backpropagation]]、[[gradient-descent]] 等更新參數,使模型擬合目標的過程;含 [[distributed-training]]、[[mixed-precision-training]] 等。

訓練與優化查看詳情

線性迴歸

Linear Regression

1

以特徵的線性組合預測連續目標的 [[machine-learning]] 方法,常用最小二乘或 [[gradient-descent]] 求解。

訓練與優化查看詳情

驗證集

Validation Set

1

用於調參與早停的數據子集

訓練與優化查看詳情

二元交叉熵

Binary Cross-Entropy

2

二分類常用的損失函數

訓練與優化查看詳情

不平衡數據

Imbalanced Data

2

類別分布不均的訓練數據

訓練與優化查看詳情

欠擬合 (擬合不足)

Underfitting

2

模型過於簡單無法捕捉數據規律

訓練與優化查看詳情

去重處理 (Dedup) (Near Dedup)

Deduplication (Near Dedup)

2

移除訓練集重複

訓練與優化查看詳情

召回率

Recall

2

實際正例中被正確預測的比例

訓練與優化查看詳情

平均絕對誤差

MAE

2

預測與真實差絕對值的平均

訓練與優化查看詳情

正規化

Normalization

2

將數據縮放至特定範圍的預處理

訓練與優化查看詳情

目標函數

Objective Function

2

優化問題中要最大化或最小化的函數

訓練與優化查看詳情

交叉熵

Cross-Entropy

2

分類任務的標準損失

訓練與優化查看詳情

交叉驗證

Cross-validation

2

輪流將數據分為訓練與驗證集的評估方法

訓練與優化查看詳情

合成數據

Synthetic Data

2

由AI或模擬生成的訓練數據

訓練與優化查看詳情

收斂

Convergence

2

訓練過程中損失趨於穩定的狀態

訓練與優化查看詳情

早停法

Early Stopping

2

驗證集表現不再提升時停止訓練

訓練與優化查看詳情

利用率

Utilization

2

資源被有效使用的比例,如 [[gpu]] 利用率(算力或記憶體使用率),用於 [[profiler]] 與 [[roofline-model]] 效能分析。

訓練與優化查看詳情

均方誤差

MSE

2

預測與真實值差平方的平均

訓練與優化查看詳情

批次大小

Batch Size

2

每次梯度更新使用的樣本數量

訓練與優化查看詳情

卸載 (Offloading)

Offloading

2

將 [[gpu]] 記憶體不足的張量或狀態暫存到 CPU/磁碟,以換取更大模型或 batch,常用於 [[llm]] 訓練與 [[inference]]。

訓練與優化查看詳情

時間序列

Time Series

2

按時間排列的數據

訓練與優化查看詳情

特徵工程

Feature Engineering

2

從原始數據構造有意義特徵的過程

訓練與優化查看詳情

特徵選擇

Feature Selection

2

選取最有預測力的特徵子集

訓練與優化查看詳情

訓練週期

Epoch

2

模型遍歷完整訓練集一次的單位

訓練與優化查看詳情

混合精度訓練

Mixed Precision Training

2

以 FP16/BF16 為主、FP32 為輔的 [[neural-network]] 訓練方式,搭配 loss scaling 以兼顧速度與數值穩定;與 [[mixed-precision]] 同義。

訓練與優化查看詳情

混淆矩陣

Confusion Matrix

2

展示分類預測與真實標籤對應的表格

訓練與優化查看詳情

連續批次 (Continuous Batching)

Continuous Batching

2

[[llm]] [[inference]] 優化:每步解碼後可替換已完成序列為新請求,提高 GPU 利用率與吞吐。

訓練與優化查看詳情

超參數

Hyperparameter

2

訓練前需人為設定的模型配置參數

訓練與優化查看詳情

損失函數 (Loss Scaling)

Loss Function (Loss Scaling)

2

衡量模型預測與真實值差異的指標

訓練與優化查看詳情

資料並行 (Data Parallel)

Data Parallelism (DP)

2

[[distributed-training]] 方式:每張 GPU 持有一份完整模型副本,各自處理不同資料分片,再同步梯度。

訓練與優化查看詳情

資料探勘

Data Mining

2

從大數據中發掘 patterns 的過程

訓練與優化查看詳情

資料預處理

Data Preprocessing

2

訓練前清洗與轉換原始數據的步驟

訓練與優化查看詳情

資料管線

Data Pipeline

2

數據從採集到模型輸入的處理流程

訓練與優化查看詳情

資料增強

Data Augmentation

2

透過變換擴充訓練數據的方法

訓練與優化查看詳情

過擬合 (過度擬合 / 過適)

Overfitting

2

模型過度擬合訓練數據而喪失泛化能力

訓練與優化查看詳情

精確率

Precision

2

預測為正例中實際為正的比例

訓練與優化查看詳情

維度縮減

Dimensionality Reduction

2

降低特徵維度保留關鍵資訊

訓練與優化查看詳情

數據策展

Data Curating

2

高品質數據的篩選與清洗

訓練與優化查看詳情

標準化

Standardization

2

將數據轉為零均值單位方差

訓練與優化查看詳情

線上學習

Online Learning

2

模型依序接收樣本或資料流並即時更新參數的 [[machine-learning]] 設定,與批量訓練相對;常見於串流與即時系統。

訓練與優化查看詳情

學習率

Learning Rate

2

梯度下降時每步更新參數的步長

訓練與優化查看詳情

學習率排程

Learning Rate Scheduler

2

動態調整學習率

訓練與優化查看詳情

學習率調度

Learning Rate Schedule

2

訓練過程中調整學習率的方法

訓練與優化查看詳情

離群值

Outlier

2

與多數數據顯著不同的樣本

訓練與優化查看詳情

權重衰減

Weight Decay

2

L2正則化防止過擬合

訓練與優化查看詳情

AWQ (激活感知權重量化)

AWQ (Activation-Aware Weight Quantization)

2

依激活重要性保留部分權重、其餘壓成 4 bit 的 LLM 量化方法,與 GPTQ 並列常用

訓練與優化查看詳情

BERTScore (語義相似度評估)

BERTScore

2

以 [[bert]] 等模型的 [[embedding]] 計算候選與參考文本語義相似度的自動評估指標,優於 BLEU/ROUGE。

訓練與優化查看詳情

DBSCAN (密度聚類)

DBSCAN (Density-Based Clustering)

2

依密度聚類的無監督演算法,不需預設簇數,可找出任意形狀簇並標記離群點。

訓練與優化查看詳情

Elo等級分

Elo Rating

2

模型對戰強弱排名

訓練與優化查看詳情

F1分數

F1 Score

2

精確率與召回率的調和平均

訓練與優化查看詳情

FP32 (單精度浮點 / Float32)

FP32 (Single Precision / Float32)

2

32 位元單精度浮點數格式,為深度學習預設權重與計算精度,較 [[quantization]] 省記憶體但較慢。

訓練與優化查看詳情

GPTQ (訓練後四比特權重量化)

GPTQ (GPT Quantization)

2

針對生成式預訓練模型的訓練後量化方法,將權重壓至 4 bit 並以 Hessian 近似最小化誤差

訓練與優化查看詳情

Lasso (L1 正則化迴歸)

Lasso (L1 Regularized Regression)

2

加入 L1 懲罰的線性迴歸,係數可壓縮為 0,具特徵選擇效果;與 [[regularization]]、Ridge 同屬正則化方法。

訓練與優化查看詳情

LightGBM (輕量梯度提升)

LightGBM

2

Microsoft 的梯度提升決策樹框架,採 GOSS 與 EFB 加速,支援分散式與 [[gpu]],常與 [[xgboost]]、[[random-forest]] 並列。

訓練與優化查看詳情

LMSYS Chatbot Arena

LMSYS Chatbot Arena

2

盲測大模型排行榜

訓練與優化查看詳情

RMSprop

RMSprop

2

依梯度平方的指數移動平均做 per-parameter 縮放的自適應 [[gradient-descent]] 優化器,為 [[adam]] 的前身之一。

訓練與優化查看詳情

SMOTE (合成少數過採樣)

SMOTE

2

對少數類在特徵空間中做 k 近鄰插值以合成新樣本,緩解類別不平衡的過採樣方法,常用於 [[machine-learning]] 分類。

訓練與優化查看詳情

Xavier 初始化

Xavier Initialization

2

依層的輸入與輸出維度設定權重方差,使前向與反向時訊號方差維持穩定,常用於 [[neural-network]] 與 [[he-initialization]] 對比。

訓練與優化查看詳情

中央極限定理 (CLT)

Central Limit Theorem (CLT)

3

樣本平均的分布隨樣本數增大趨近常態,不論母體分布為何,為統計推論與 [[machine-learning]] 評估的基礎。

訓練與優化查看詳情

反向傳播 (倒傳遞)

Backpropagation

3

訓練神經網絡時計算梯度的核心算法

訓練與優化查看詳情

主成分分析

PCA

3

用於降維的線性變換方法

訓練與優化查看詳情

平坦最小值 (Flat Minima)

Flat Minima

3

損失曲面中曲率較小、參數微擾對損失影響小的區域,實務上常與較佳泛化相關。

訓練與優化查看詳情

正則化

Regularization

3

泛指防止模型過擬合的約束技術

訓練與優化查看詳情

全域最小值

Global Minimum

3

函數的整體最小值

訓練與優化查看詳情

批次正規化 (Batch Norm / BN)

Batch Normalization (Batch Norm / BN)

3

對每層輸入正規化以穩定訓練的技術

訓練與優化查看詳情

知識蒸餾

Knowledge Distillation

3

將大模型知識轉移到小模型

訓練與優化查看詳情

校準 (機率校準 / Calibration)

Calibration (Probability Calibration)

3

讓分類器輸出的機率與真實發生頻率一致,使「預測 0.8」約對應 80% 實際為正。

訓練與優化查看詳情

偏差-方差權衡

Bias-Variance Tradeoff

3

模型複雜度與泛化能力的取捨

訓練與優化查看詳情

剪枝

Pruning

3

移除模型中冗餘參數以壓縮模型

訓練與優化查看詳情

動量

Momentum

3

利用歷史梯度的加速項

訓練與優化查看詳情

區域最小值

Local Minimum

3

鄰域內的最小值

訓練與優化查看詳情

梯度下降 (梯度遞減)

Gradient Descent (SGD)

3

透過梯度逐步調整參數以最小化損失的優化方法

訓練與優化查看詳情

梯度消失 (Vanishing Gradient)

Gradient Vanishing (Vanishing Gradient)

3

深層網絡梯度趨近於零

訓練與優化查看詳情

梯度裁剪

Gradient Clipping

3

限制梯度大小防止爆炸

訓練與優化查看詳情

梯度檢查點 (Gradient Checkpointing)

Gradient Checkpointing (Activation Checkpointing)

3

前向時只存部分激活為檢查點,反向時再重算其餘激活,以時間換取 [[backpropagation]] 記憶體,可訓練更大模型。

訓練與優化查看詳情

梯度爆炸 (Exploding Gradient)

Gradient Explosion (Exploding Gradient)

3

深層網絡梯度急劇增大

訓練與優化查看詳情

通訊開銷 (Communication Overhead)

Communication Overhead

3

[[distributed-training]] 中節點間同步梯度或參數所耗時間與頻寬,為擴展時的主要瓶頸之一。

訓練與優化查看詳情

量化 (模型量化) (Quantization Aware Training)

Quantization (Model Quantization) (Quantization Aware Training)

3

將模型權重降低精度以減少記憶體與加速推論

訓練與優化查看詳情

概念漂移

Concept Drift

3

數據分布隨時間變化

訓練與優化查看詳情

算子融合

Operator Fusion

3

將多個小算子(如 ReLU、BN、Conv)合併成單一 kernel,減少 [[gpu]] 記憶體存取與 kernel 啟動開銷,以加速 [[inference]] 與訓練。

訓練與優化查看詳情

管線並行

Pipeline Parallelism

3

將模型按層切分到多裝置,以微批次填滿管線、隱藏氣泡,為 [[model-parallel]] 的一種,常用於大 [[llm]]。

訓練與優化查看詳情

維度災難

Curse of Dimensionality

3

高維空間的數據稀疏問題

訓練與優化查看詳情

標籤平滑

Label Smoothing

3

軟化硬標籤以減輕過擬合的技術

訓練與優化查看詳情

模仿學習 (Imitation Learning)

Imitation Learning (IL)

3

從專家示範(狀態-動作對)學習策略的 [[reinforcement-learning]] 範式,含行為克隆與 DAgger、IRL 等。

訓練與優化查看詳情

模型並行

Model Parallelism

3

將單一模型切分到多張 [[gpu]] 或節點上,以單層或層內分割降低單機記憶體需求;常與 [[distributed-training]] 並用。

訓練與優化查看詳情

模型擴展

Model Scaling

3

增大模型規模以提升表現

訓練與優化查看詳情

熱身

Warmup

3

訓練初期漸進提高學習率的技巧

訓練與優化查看詳情

Entropy

3

衡量不確定性或資訊量的指標

訓練與優化查看詳情

隨機失活

Dropout

3

訓練時隨機丟棄神經元以減少過擬合

訓練與優化查看詳情

隨機梯度下降

SGD

3

每批樣本更新參數的梯度下降變體

訓練與優化查看詳情

頻率派統計 (Frequentist Statistics)

Frequentist Statistics

3

將機率視為長期頻率、參數視為固定未知的統計學派,以 p 值、信賴區間與假設檢定為主要工具。

訓練與優化查看詳情

權重剪枝

Weight Pruning

3

移除冗餘權重

訓練與優化查看詳情

Adam優化器

Adam Optimizer

3

結合動量與自適應學習率的常用優化器

訓練與優化查看詳情

AdamW

AdamW

3

帶權重衰減的Adam優化器

訓練與優化查看詳情

ADASYN (自適應合成採樣)

ADASYN (Adaptive Synthetic Sampling)

3

針對不平衡資料的過採樣方法,依少數類樣本難度自適應生成合成樣本。

訓練與優化查看詳情

Apriori 演算法 (關聯規則挖掘)

Apriori Algorithm

3

用於頻繁項集挖掘與關聯規則學習的經典無監督演算法,常見於購物籃分析。

訓練與優化查看詳情

AUC-ROC

AUC-ROC

3

分類模型排序能力的曲線下面積

訓練與優化查看詳情

BLEU分數

BLEU Score

3

評估機器翻譯質量的自動指標

訓練與優化查看詳情

EasyEnsemble (簡易集成)

EasyEnsemble

3

對多數類重複隨機欠採樣產生多個平衡子集,再訓練集成分類器,用於不平衡分類。

訓練與優化查看詳情

GSM8K

GSM8K

3

數學推理評估基準

訓練與優化查看詳情

He 初始化 (Kaiming 初始化)

He Initialization (Kaiming Initialization)

3

針對 [[relu]] 設計的權重初始化,方差為 √(2/n_in),使深層網路前向與反向時激活與梯度方差穩定。

訓練與優化查看詳情

Huber損失

Huber Loss

3

結合MSE與MAE的魯棒損失

訓練與優化查看詳情

HumanEval

HumanEval

3

程式碼生成評估基準

訓練與優化查看詳情

L1正規化

L1 Regularization

3

Lasso,促進稀疏解

訓練與優化查看詳情

L2正規化

L2 Regularization

3

Ridge,權重衰減

訓練與優化查看詳情

Medusa (推論加速)

Medusa

3

為 [[llm]] 設計的推論加速方法:以多頭解碼一次產出多個候選 token,再以驗證頭篩選,可減少 [[inference]] 步數。

訓練與優化查看詳情

MMLU

MMLU

3

綜合知識評估基準

訓練與優化查看詳情

MT-Bench

MT-Bench

3

對話能力評測

訓練與優化查看詳情

Perplexity 指標

Perplexity (metric)

3

衡量語言模型預測不確定性的評估指標

訓練與優化查看詳情

Roofline 模型

Roofline Model

3

以算力與記憶體頻寬為上限評估運算效能的分析模型,可判斷 [[gpu]] 或 kernel 是算力受限還是頻寬受限。

訓練與優化查看詳情

ROUGE分數

ROUGE Score

3

評估文本摘要質量的指標

訓練與優化查看詳情

SimCLR (對比式自監督學習)

SimCLR

3

以同一影像的不同 augmentation 為正樣本、其餘為負樣本的 [[contrastive-learning]] 框架,無需標籤即可學到視覺表徵;[[clip]] 前身之一。

訓練與優化查看詳情

三元組損失

Triplet Loss

4

對比學習的常見損失

訓練與優化查看詳情

似然函數

Likelihood Function

4

參數的機率給定觀測

訓練與優化查看詳情

貝葉斯優化

Bayesian Optimization

4

用機率模型高效搜尋超參數的方法

訓練與優化查看詳情

協變量偏移

Covariate Shift

4

訓練與測試時輸入分布不一致

訓練與優化查看詳情

非凸優化

Non-convex Optimization

4

目標函數非凸的優化問題

訓練與優化查看詳情

約束優化

Constraint Optimization

4

在約束條件下優化目標

訓練與優化查看詳情

訓練後量化

PTQ

4

Post-Training Quantization

訓練與優化查看詳情

混合精度

Mixed Precision

4

FP16與FP32混合訓練

訓練與優化查看詳情

量化感知訓練

QAT

4

Quantization Aware Training

訓練與優化查看詳情

運算最優

Compute Optimal

4

給定算力下的最優配置

訓練與優化查看詳情

對數似然

Log-Likelihood

4

模型擬合數據的對數機率

訓練與優化查看詳情

蒸餾感知訓練

Distillation-aware Training

4

訓練時即考慮後續蒸餾

訓練與優化查看詳情

鞍點

Saddle Point

4

某些方向上升、某些下降的臨界點

訓練與優化查看詳情

擴展定律

Scaling Laws

4

模型表現隨規模的規律

訓練與優化查看詳情

Chinchilla定律

Chinchilla Laws

4

數據與參數的優化比例

訓練與優化查看詳情

KL散度

Kullback-Leibler Divergence

4

衡量兩機率分布差異的指標

訓練與優化查看詳情

QAT / PTQ

QAT & PTQ

4

量化感知訓練與後訓練量化

訓練與優化查看詳情