訓練與優化
Training & Optimization
模型訓練、損失函數、優化器與評估指標
共 134 個詞彙
訓練集
Training Set
用於訓練模型的數據子集
測試集
Test Set
用於最終評估的未參與訓練數據
準確率
Accuracy
預測正確的樣本比例
詮釋資料
Metadata
描述數據屬性的資料
資料標註
Data Labeling
為數據添加標籤的過程
模型訓練
Model Training
以資料與損失函數透過 [[backpropagation]]、[[gradient-descent]] 等更新參數,使模型擬合目標的過程;含 [[distributed-training]]、[[mixed-precision-training]] 等。
線性迴歸
Linear Regression
以特徵的線性組合預測連續目標的 [[machine-learning]] 方法,常用最小二乘或 [[gradient-descent]] 求解。
驗證集
Validation Set
用於調參與早停的數據子集
二元交叉熵
Binary Cross-Entropy
二分類常用的損失函數
不平衡數據
Imbalanced Data
類別分布不均的訓練數據
欠擬合 (擬合不足)
Underfitting
模型過於簡單無法捕捉數據規律
去重處理 (Dedup) (Near Dedup)
Deduplication (Near Dedup)
移除訓練集重複
召回率
Recall
實際正例中被正確預測的比例
平均絕對誤差
MAE
預測與真實差絕對值的平均
正規化
Normalization
將數據縮放至特定範圍的預處理
目標函數
Objective Function
優化問題中要最大化或最小化的函數
交叉熵
Cross-Entropy
分類任務的標準損失
交叉驗證
Cross-validation
輪流將數據分為訓練與驗證集的評估方法
合成數據
Synthetic Data
由AI或模擬生成的訓練數據
收斂
Convergence
訓練過程中損失趨於穩定的狀態
早停法
Early Stopping
驗證集表現不再提升時停止訓練
利用率
Utilization
資源被有效使用的比例,如 [[gpu]] 利用率(算力或記憶體使用率),用於 [[profiler]] 與 [[roofline-model]] 效能分析。
均方誤差
MSE
預測與真實值差平方的平均
批次大小
Batch Size
每次梯度更新使用的樣本數量
卸載 (Offloading)
Offloading
將 [[gpu]] 記憶體不足的張量或狀態暫存到 CPU/磁碟,以換取更大模型或 batch,常用於 [[llm]] 訓練與 [[inference]]。
時間序列
Time Series
按時間排列的數據
特徵工程
Feature Engineering
從原始數據構造有意義特徵的過程
特徵選擇
Feature Selection
選取最有預測力的特徵子集
訓練週期
Epoch
模型遍歷完整訓練集一次的單位
混合精度訓練
Mixed Precision Training
以 FP16/BF16 為主、FP32 為輔的 [[neural-network]] 訓練方式,搭配 loss scaling 以兼顧速度與數值穩定;與 [[mixed-precision]] 同義。
混淆矩陣
Confusion Matrix
展示分類預測與真實標籤對應的表格
連續批次 (Continuous Batching)
Continuous Batching
[[llm]] [[inference]] 優化:每步解碼後可替換已完成序列為新請求,提高 GPU 利用率與吞吐。
超參數
Hyperparameter
訓練前需人為設定的模型配置參數
損失函數 (Loss Scaling)
Loss Function (Loss Scaling)
衡量模型預測與真實值差異的指標
資料並行 (Data Parallel)
Data Parallelism (DP)
[[distributed-training]] 方式:每張 GPU 持有一份完整模型副本,各自處理不同資料分片,再同步梯度。
資料探勘
Data Mining
從大數據中發掘 patterns 的過程
資料預處理
Data Preprocessing
訓練前清洗與轉換原始數據的步驟
資料管線
Data Pipeline
數據從採集到模型輸入的處理流程
資料增強
Data Augmentation
透過變換擴充訓練數據的方法
過擬合 (過度擬合 / 過適)
Overfitting
模型過度擬合訓練數據而喪失泛化能力
精確率
Precision
預測為正例中實際為正的比例
維度縮減
Dimensionality Reduction
降低特徵維度保留關鍵資訊
數據策展
Data Curating
高品質數據的篩選與清洗
標準化
Standardization
將數據轉為零均值單位方差
線上學習
Online Learning
模型依序接收樣本或資料流並即時更新參數的 [[machine-learning]] 設定,與批量訓練相對;常見於串流與即時系統。
學習率
Learning Rate
梯度下降時每步更新參數的步長
學習率排程
Learning Rate Scheduler
動態調整學習率
學習率調度
Learning Rate Schedule
訓練過程中調整學習率的方法
離群值
Outlier
與多數數據顯著不同的樣本
權重衰減
Weight Decay
L2正則化防止過擬合
AWQ (激活感知權重量化)
AWQ (Activation-Aware Weight Quantization)
依激活重要性保留部分權重、其餘壓成 4 bit 的 LLM 量化方法,與 GPTQ 並列常用
BERTScore (語義相似度評估)
BERTScore
以 [[bert]] 等模型的 [[embedding]] 計算候選與參考文本語義相似度的自動評估指標,優於 BLEU/ROUGE。
DBSCAN (密度聚類)
DBSCAN (Density-Based Clustering)
依密度聚類的無監督演算法,不需預設簇數,可找出任意形狀簇並標記離群點。
Elo等級分
Elo Rating
模型對戰強弱排名
F1分數
F1 Score
精確率與召回率的調和平均
FP32 (單精度浮點 / Float32)
FP32 (Single Precision / Float32)
32 位元單精度浮點數格式,為深度學習預設權重與計算精度,較 [[quantization]] 省記憶體但較慢。
GPTQ (訓練後四比特權重量化)
GPTQ (GPT Quantization)
針對生成式預訓練模型的訓練後量化方法,將權重壓至 4 bit 並以 Hessian 近似最小化誤差
Lasso (L1 正則化迴歸)
Lasso (L1 Regularized Regression)
加入 L1 懲罰的線性迴歸,係數可壓縮為 0,具特徵選擇效果;與 [[regularization]]、Ridge 同屬正則化方法。
LightGBM (輕量梯度提升)
LightGBM
Microsoft 的梯度提升決策樹框架,採 GOSS 與 EFB 加速,支援分散式與 [[gpu]],常與 [[xgboost]]、[[random-forest]] 並列。
LMSYS Chatbot Arena
LMSYS Chatbot Arena
盲測大模型排行榜
RMSprop
RMSprop
依梯度平方的指數移動平均做 per-parameter 縮放的自適應 [[gradient-descent]] 優化器,為 [[adam]] 的前身之一。
SMOTE (合成少數過採樣)
SMOTE
對少數類在特徵空間中做 k 近鄰插值以合成新樣本,緩解類別不平衡的過採樣方法,常用於 [[machine-learning]] 分類。
Xavier 初始化
Xavier Initialization
依層的輸入與輸出維度設定權重方差,使前向與反向時訊號方差維持穩定,常用於 [[neural-network]] 與 [[he-initialization]] 對比。
中央極限定理 (CLT)
Central Limit Theorem (CLT)
樣本平均的分布隨樣本數增大趨近常態,不論母體分布為何,為統計推論與 [[machine-learning]] 評估的基礎。
反向傳播 (倒傳遞)
Backpropagation
訓練神經網絡時計算梯度的核心算法
主成分分析
PCA
用於降維的線性變換方法
平坦最小值 (Flat Minima)
Flat Minima
損失曲面中曲率較小、參數微擾對損失影響小的區域,實務上常與較佳泛化相關。
正則化
Regularization
泛指防止模型過擬合的約束技術
全域最小值
Global Minimum
函數的整體最小值
批次正規化 (Batch Norm / BN)
Batch Normalization (Batch Norm / BN)
對每層輸入正規化以穩定訓練的技術
知識蒸餾
Knowledge Distillation
將大模型知識轉移到小模型
校準 (機率校準 / Calibration)
Calibration (Probability Calibration)
讓分類器輸出的機率與真實發生頻率一致,使「預測 0.8」約對應 80% 實際為正。
偏差-方差權衡
Bias-Variance Tradeoff
模型複雜度與泛化能力的取捨
剪枝
Pruning
移除模型中冗餘參數以壓縮模型
動量
Momentum
利用歷史梯度的加速項
區域最小值
Local Minimum
鄰域內的最小值
梯度下降 (梯度遞減)
Gradient Descent (SGD)
透過梯度逐步調整參數以最小化損失的優化方法
梯度消失 (Vanishing Gradient)
Gradient Vanishing (Vanishing Gradient)
深層網絡梯度趨近於零
梯度裁剪
Gradient Clipping
限制梯度大小防止爆炸
梯度檢查點 (Gradient Checkpointing)
Gradient Checkpointing (Activation Checkpointing)
前向時只存部分激活為檢查點,反向時再重算其餘激活,以時間換取 [[backpropagation]] 記憶體,可訓練更大模型。
梯度爆炸 (Exploding Gradient)
Gradient Explosion (Exploding Gradient)
深層網絡梯度急劇增大
通訊開銷 (Communication Overhead)
Communication Overhead
[[distributed-training]] 中節點間同步梯度或參數所耗時間與頻寬,為擴展時的主要瓶頸之一。
量化 (模型量化) (Quantization Aware Training)
Quantization (Model Quantization) (Quantization Aware Training)
將模型權重降低精度以減少記憶體與加速推論
概念漂移
Concept Drift
數據分布隨時間變化
算子融合
Operator Fusion
將多個小算子(如 ReLU、BN、Conv)合併成單一 kernel,減少 [[gpu]] 記憶體存取與 kernel 啟動開銷,以加速 [[inference]] 與訓練。
管線並行
Pipeline Parallelism
將模型按層切分到多裝置,以微批次填滿管線、隱藏氣泡,為 [[model-parallel]] 的一種,常用於大 [[llm]]。
維度災難
Curse of Dimensionality
高維空間的數據稀疏問題
標籤平滑
Label Smoothing
軟化硬標籤以減輕過擬合的技術
模仿學習 (Imitation Learning)
Imitation Learning (IL)
從專家示範(狀態-動作對)學習策略的 [[reinforcement-learning]] 範式,含行為克隆與 DAgger、IRL 等。
模型並行
Model Parallelism
將單一模型切分到多張 [[gpu]] 或節點上,以單層或層內分割降低單機記憶體需求;常與 [[distributed-training]] 並用。
模型擴展
Model Scaling
增大模型規模以提升表現
熱身
Warmup
訓練初期漸進提高學習率的技巧
熵
Entropy
衡量不確定性或資訊量的指標
隨機失活
Dropout
訓練時隨機丟棄神經元以減少過擬合
隨機梯度下降
SGD
每批樣本更新參數的梯度下降變體
頻率派統計 (Frequentist Statistics)
Frequentist Statistics
將機率視為長期頻率、參數視為固定未知的統計學派,以 p 值、信賴區間與假設檢定為主要工具。
權重剪枝
Weight Pruning
移除冗餘權重
Adam優化器
Adam Optimizer
結合動量與自適應學習率的常用優化器
AdamW
AdamW
帶權重衰減的Adam優化器
ADASYN (自適應合成採樣)
ADASYN (Adaptive Synthetic Sampling)
針對不平衡資料的過採樣方法,依少數類樣本難度自適應生成合成樣本。
Apriori 演算法 (關聯規則挖掘)
Apriori Algorithm
用於頻繁項集挖掘與關聯規則學習的經典無監督演算法,常見於購物籃分析。
AUC-ROC
AUC-ROC
分類模型排序能力的曲線下面積
BLEU分數
BLEU Score
評估機器翻譯質量的自動指標
EasyEnsemble (簡易集成)
EasyEnsemble
對多數類重複隨機欠採樣產生多個平衡子集,再訓練集成分類器,用於不平衡分類。
GSM8K
GSM8K
數學推理評估基準
He 初始化 (Kaiming 初始化)
He Initialization (Kaiming Initialization)
針對 [[relu]] 設計的權重初始化,方差為 √(2/n_in),使深層網路前向與反向時激活與梯度方差穩定。
Huber損失
Huber Loss
結合MSE與MAE的魯棒損失
HumanEval
HumanEval
程式碼生成評估基準
L1正規化
L1 Regularization
Lasso,促進稀疏解
L2正規化
L2 Regularization
Ridge,權重衰減
Medusa (推論加速)
Medusa
為 [[llm]] 設計的推論加速方法:以多頭解碼一次產出多個候選 token,再以驗證頭篩選,可減少 [[inference]] 步數。
MMLU
MMLU
綜合知識評估基準
MT-Bench
MT-Bench
對話能力評測
Perplexity 指標
Perplexity (metric)
衡量語言模型預測不確定性的評估指標
Roofline 模型
Roofline Model
以算力與記憶體頻寬為上限評估運算效能的分析模型,可判斷 [[gpu]] 或 kernel 是算力受限還是頻寬受限。
ROUGE分數
ROUGE Score
評估文本摘要質量的指標
SimCLR (對比式自監督學習)
SimCLR
以同一影像的不同 augmentation 為正樣本、其餘為負樣本的 [[contrastive-learning]] 框架,無需標籤即可學到視覺表徵;[[clip]] 前身之一。
三元組損失
Triplet Loss
對比學習的常見損失
似然函數
Likelihood Function
參數的機率給定觀測
貝葉斯優化
Bayesian Optimization
用機率模型高效搜尋超參數的方法
協變量偏移
Covariate Shift
訓練與測試時輸入分布不一致
非凸優化
Non-convex Optimization
目標函數非凸的優化問題
約束優化
Constraint Optimization
在約束條件下優化目標
訓練後量化
PTQ
Post-Training Quantization
混合精度
Mixed Precision
FP16與FP32混合訓練
量化感知訓練
QAT
Quantization Aware Training
運算最優
Compute Optimal
給定算力下的最優配置
對數似然
Log-Likelihood
模型擬合數據的對數機率
蒸餾感知訓練
Distillation-aware Training
訓練時即考慮後續蒸餾
鞍點
Saddle Point
某些方向上升、某些下降的臨界點
擴展定律
Scaling Laws
模型表現隨規模的規律
Chinchilla定律
Chinchilla Laws
數據與參數的優化比例
KL散度
Kullback-Leibler Divergence
衡量兩機率分布差異的指標
QAT / PTQ
QAT & PTQ
量化感知訓練與後訓練量化