高級 等級

BF16

Bfloat16

腦浮點16位格式

BitNet

極低位元LLM，可在CPU上運行

BitNet 1.58b

1 位元量化模型技術

Blackwell 架構

Blackwell Architecture

NVIDIA 下一代 GPU 架構

Chinchilla定律

Chinchilla Laws

數據與參數的優化比例

DDIM

Denoising Diffusion Implicit Model

確定性採樣的擴散

DDPM

Denoising Diffusion Probabilistic Model

去噪擴散機率模型

DeepSpeed

微軟的分散式訓練框架

DPO

Direct Preference Optimization

直接優化偏好無需獎勵模型

Flash Attention

加速注意力計算的記憶體高效實現

FP8

8位浮點格式

FSDP

Fully Sharded Data Parallel

全分片數據並行

GraphRAG

結合圖資料庫與RAG的進階檢索方法

HBM3e

高頻寬記憶體第三代增強版

HNSW

層級導航小世界近似最近鄰

HyDE

用假設性文件嵌入提升檢索的RAG技巧

IA3

Infused Adapter by Inhibiting and Amplifying

輕量微調方法

INT4

4位整數量化

KL散度

Kullback-Leibler Divergence

衡量兩機率分布差異的指標

KV快取

KV Cache

快取注意力Key/Value以加速LLM生成

LIME

局部可解釋模型

Mamba

狀態空間模型，長文本架構

Megatron

Megatron-LM

NVIDIA的大規模訓練框架

ORPO

單階段偏好優化

P-jailbreaking

透過偽裝繞過安全限制

Post-Norm

Post-Normalization

注意力後做正規化

Pre-Norm

Pre-Normalization

注意力前做正規化

QAT / PTQ

QAT & PTQ

量化感知訓練與後訓練量化

QLoRA

量化LoRA降低顯存需求

RLAIF

用AI回饋替代人類的強化學習對齊

Self-RAG

自我檢查式檢索增強

SHAP

特徵歸因方法

SwiGLU

結合Swish與GLU的高效激活架構

Swin Transformer

分層視覺Transformer架構

Triton

GPU核函數開發語言與編譯器

Zero-1-to-3

單圖轉3D的技術

ZeRO優化器

ZeRO

消除優化器狀態冗餘

一致性模型

Consistency Model

單步生成的擴散變體

三元組損失

Triplet Loss

對比學習的常見損失

上下文壓縮

Contextual Compression

依查詢壓縮檢索結果

交叉注意力

Cross-Attention

查詢來自不同序列的注意力

人類回饋強化學習

RLHF

利用人類偏好數據訓練LLM的對齊方法

似然函數

Likelihood Function

參數的機率給定觀測

低秩適配 (LoRA)

LoRA (Low-Rank Adaptation)

高效微調大型模型只更新少量參數的技術

價值漂移

Value Drift

模型價值觀隨時間偏離

元學習

Meta-learning

學習如何學習的更高層學習方法

內存運算

In-Memory Computing

在記憶體中計算

分散式訓練

Distributed Training

跨多機多卡訓練

分數匹配

Score Matching

學習分數函數的生成方法

分組查詢注意力

GQA

Grouped-Query Attention，減少KV頭數

前綴微調

Prefix Tuning

學習可訓練前綴向量

前置緩存

Prefix Caching

緩存 prompt 前段的 KV

協變量偏移

Covariate Shift

訓練與測試時輸入分布不一致

可微編程

Differentiable Programming

整個計算圖可求導的編程

同態加密

Homomorphic Encryption

加密狀態下運算

向量資料庫

Vector Database

存儲和檢索高維向量嵌入的專用資料庫

因果遮罩

Causal Mask

防止注意力看到未來token的遮罩

圖神經網絡

GNN

處理圖結構數據的神經網絡

在線策略學習

On-policy Learning

從當前策略產生的數據學習

均方根歸一化

RMSNorm

Root Mean Square Layer Normalization

多實例GPU

MIG

Multi-Instance GPU，A100等分片

多查詢注意力

MQA

Multi-Query Attention，共享單一KV頭

多樣本破解

Many-shot Jailbreaking

用大量範例繞過安全限制

好奇心驅動學習

Curiosity-driven Learning

以好奇心為內在獎勵

安全多方計算

SMPC

Secure Multi-party Computation

對抗性攻擊

Adversarial Attack

刻意製造使模型出錯的輸入

對抗魯棒性

Adversarial Robustness

抵禦對抗攻擊的能力

對數似然

Log-Likelihood

模型擬合數據的對數機率

對比學習

Contrastive Learning

拉近相似樣本、推遠不相似樣本的學習

工具性收斂

Instrumental Convergence

AI追求子目標的傾向

差分隱私

Differential Privacy

數學上保護個別數據的隱私

平穩過程

Stationary Process

統計性質不隨時間變化的隨機過程

張量並行

Tensor Parallelism

在張量維度上切分

從小到大檢索

Small-to-Large Retrieval

先檢小片段再擴大到更大範圍

思維圖

Graph of Thoughts

GoT，圖結構推理

思維樹

Tree of Thoughts

探索多種推理路徑的進階提示技巧

憲法AI

Constitutional AI

以原則約束模型行為的對齊方法

投機執行

Speculative Execution

推論加速技術

投機採樣

Speculative Decoding

用小模型預測、大模型驗證以加速生成

擴展定律

Scaling Laws

模型表現隨規模的規律

數據並行

Data Parallelism

將不同批次分配到多GPU並行訓練

數據投毒

Data Poisoning

在訓練數據中植入惡意樣本

文本反轉

Textual Inversion

訓練特定概念的嵌入

旋轉位置嵌入

RoPE

Rotary Positional Embedding，旋轉式位置編碼

時序差分學習

TD Learning

Temporal Difference，增量式價值估計

最大邊際相關性

MMR

Maximum Marginal Relevance，平衡相關與多樣性

核函數技巧

Kernel Trick

在高維空間計算而不顯式映射

模型並行

Model Parallelism

將大模型切分到多裝置訓練

模型反演

Model Inversion

從模型推斷訓練數據

模型蒸餾

Model Distillation

用大模型知識訓練小模型的技術

模擬轉現實

Sim-to-Real

將模擬訓練遷移到現實

機器去學習

Machine Unlearning

刪除模型中的特定記憶

欺騙性對齊

Deceptive Alignment

假裝對齊實則不然

歸納偏好

Inductive Bias

演算法對某種解釋的偏好

注意力即一切

Attention Is All You Need

提出Transformer的經典論文

流匹配

Flow Matching

基於流的生成模型

流形

Manifold

高維中的低維結構

流形假設

Manifold Hypothesis

高維數據實際分布在低維流形上

流水線並行

Pipeline Parallelism

按層切分模型的並行

海森矩陣

Hessian Matrix

多變數函數的二階偏導矩陣

混合專家模型 (MoE)

Mixture of Experts (MoE)

只激活部分參數來處理輸入的大型模型架構

混合精度

Mixed Precision

FP16與FP32混合訓練

混合運算

Hybrid Computing

量子運算 + AI + 超算的結合

滑窗注意力

Sliding Window Attention

限定局部窗口的注意力

演員-評論家

Actor-Critic

結合策略與價值函數的RL架構

無分類器引導

Classifier-free Guidance

無需分類器的條件引導

無標記模型

Token-free Models

直接處理位元組的模型

父子文檔檢索

Parent-Child Retrieval

檢索父子結構文檔

狀態空間模型

SSM

State Space Models

環形注意力

Ring Attention

分散式長序列注意力

生成化學

Generative Chemistry

AI生成分子結構

生成對抗網絡 (GAN)

Generative Adversarial Network (GAN)

通過生成器與判別器對抗訓練來生成數據

神經架構搜索

NAS (Neural Architecture Search)

自動搜尋最佳網絡架構

神經解碼

Neural Decoding

從神經活動解讀意圖

神經輻射場

NeRF

Neural Radiance Fields，3D場景表示

稀疏MoE

Sparse MoE

每次只用部分專家的MoE

稀疏注意力

Sparse Attention

只關注部分位置的注意力

策略梯度

Policy Gradient

直接優化策略的強化學習方法

約束優化

Constraint Optimization

在約束條件下優化目標

線性偏置注意力

ALiBi

Attention with Linear Biases，無需位置嵌入

線性注意力

Linear Attention

計算複雜度線性的注意力

脈動陣列

Systolic Array

TPU核心的矩陣運算架構

自回歸視覺模型

Auto-regressive Vision

以自回歸方式生成圖像

蒙地卡羅樹搜尋

MCTS

透過隨機模擬的樹搜尋方法

蒸餾感知訓練

Distillation-aware Training

訓練時即考慮後續蒸餾

視覺里程計

Visual Odometry

由視覺估計運動

解耦表示

Disentangled Representation

因子的獨立表示

訓練後量化

PTQ

Post-Training Quantization

語言處理單元

LPU (Language Processing Unit)

專為 LLM 設計的專用晶片

變分自編碼器 (VAE)

VAE (Variational Autoencoder)

結合生成與壓縮的機率自編碼器架構

貝氏推論

Bayesian Inference

依貝葉斯定理更新後驗機率

貝爾曼方程

Bellman Equation

動態規劃與RL的核心等式

貝葉斯優化

Bayesian Optimization

用機率模型高效搜尋超參數的方法

貝葉斯網路

Bayesian Network

以圖表示變數間機率依賴的模型

超級對齊

Superalignment

對齊超人類AI

路由

Routing

MoE中分配輸入給專家

近端策略優化

PPO

Proximal Policy Optimization

逆強化學習

IRL

從專家行為推斷獎勵函數

逆運動學

從末端推關節角度

通用近似定理

Universal Approximation Theorem

神經網絡可近似任意連續函數

運算最優

Compute Optimal

給定算力下的最優配置

適配器

Adapter

插入式任務適配模組

邏輯量子位元

Logical Qubits

經錯誤校正的量子位元

量化感知訓練

QAT

Quantization Aware Training

量子 AI

Quantum AI

量子運算與 AI 的結合

隨機捨入

Stochastic Rounding

低精度訓練的捨入方式

雅可比矩陣

Jacobian Matrix

多變數函數的一階偏導矩陣

離線策略學習

Off-policy Learning

從與當前策略不同的數據學習

非凸優化

Non-convex Optimization

目標函數非凸的優化問題

非自回歸解碼

Non-autoregressive Decoding

可並行生成多token

鞍點

Saddle Point

某些方向上升、某些下降的臨界點

音訊擴散

Audio Diffusion

將擴散模型用於音訊生成

類神經形態晶片

Neuromorphic Chip

模擬大腦的晶片

馬可夫決策過程

MDP

Markov Decision Process，RL的數學框架

高效參數微調

PEFT

只更新少量參數的微調方法總稱

高頻寬記憶體

HBM

HBM3/HBM3e，GPU高速記憶體