模型架構
Model Architecture
各種AI模型架構與技術原理,深入了解模型運作方式
共 263 個詞彙
分類
Classification
預測離散類別
生成式AI
Generative AI
能創造文字、圖像、音訊等新內容的AI技術
自然語言處理 (NLP)
Natural Language Processing (NLP)
讓電腦理解與生成人類語言的技術
最大token數
Max Tokens
限制生成長度的參數
電腦視覺
Computer Vision
讓機器看見並理解影像的AI技術
模型架構
Model Architecture
[[neural-network]] 或 ML 模型的層級結構、連接方式與模組設計,如 [[transformer]]、[[cnn]]、ResNet 等。
上下文長度
Context Length
模型可接受的最大token數
上下文感知補全
Context-aware Completion
依專案上下文提供智慧補全
下詞預測
Next-token Prediction
預測序列中下一個token的訓練目標
大型多模態模型
LMM (Large Multimodal Models)
原生支援多模態的大模型
小型語言模型
SLM
Small Language Models,如Phi、Gemma
工作記憶
Working Memory
短期/對話內記憶
工具使用
Tool Use
LLM調用外部工具的能力
分詞
Tokenization
將文本切分為模型可處理的token單位
少樣本學習
Few-shot Learning
僅用少量範例讓模型學會新任務
文本編碼器
Text Encoder
將文本轉為向量的編碼器
世界模型
World Model
對環境與因果規律的內部表徵,用於預測下一狀態或生成軌跡,常見於 [[reinforcement-learning]]、視訊生成與規劃。
全能多模態模型
Omni-model
原生支援圖/影/音的多模態模型
多模態
Multimodal
能同時處理文字、圖像、音訊等多種輸入的模型
多模態LLM
Multimodal LLM
能處理圖文等多種輸入的LLM
池化
Pooling
縮小特徵圖尺寸的取樣層
自我修正
Self-Correction
發現錯誤並修正
自然語言生成
NLG
讓機器產生人類語言的技術
自然語言理解
NLU
讓機器理解人類語言意圖與語義的技術
束搜尋
Beam Search
保留多個候選序列的解碼策略
決策樹
Decision Tree
以樹狀結構做分類或迴歸的模型
系統提示詞
System Prompt
設定LLM全局行為與角色的隱藏指令
卷積
Convolution
用濾波器在輸入上滑動提取特徵的運算
命名實體識別
NER
識別文本中人名、地名等實體的NLP任務
垂直領域大模型
Vertical LLMs
專注單一產業的 LLM
知識截止日期
Knowledge Cutoff
模型訓練數據的時間邊界
空間智慧 (Spatial Intelligence)
Spatial Intelligence (spatial intelligence)
理解與推理空間關係、幾何、導航與 3D 結構的 AI 能力
長上下文
Long Context
支持超長輸入的LLM能力
長期記憶
LTM
持久化儲存的記憶
思考型模型
Thinking Models
具內部推理過程的模型(如 OpenAI o1)
思考過程顯示
Thinking Process
展現模型中間推理的顯示(如 o1)
思維鏈 (CoT / Few Shot CoT)
Chain-of-Thought (CoT / Few Shot CoT)
引導LLM逐步推理的提示技巧
指令模型
Instruct Model
經過對齊可對話的模型
指令遵循
Instruction Following
按人類指令執行的能力
負面提示詞
Negative Prompt
指定生成時不要出現的內容
重複懲罰
Repetition Penalty
降低重複輸出的取樣參數
記憶 (Memory Optimization) (Memory Wall)
Memory (Memory Optimization) (Memory Wall)
Agent儲存與調用歷史的機制
記憶檢索
Memory Retrieval
從記憶中找回相關資訊
停止序列
Stop Sequences
遇此序列即停止生成
停用詞
Stopwords
預處理時通常移除的常見無實義詞
動作空間
Action Space
RL中可選動作的集合
基礎模型
Foundation Model
可泛化到多任務的大型預訓練模型
基礎模型
Base Model
未經指令對齊的預訓練模型
專案層級上下文
Project Context
專案層級的上下文理解
情境式學習
In-context Learning
LLM從提示中的範例學習任務的能力
採樣步數
Steps
擴散去噪的迭代次數
視覺語言模型
VLM
結合視覺與語言的模型
視覺語言模型
VLM (Vision-Language Model)
可理解圖像並產出文字的模型
貪婪解碼
Greedy Decoding
每步選機率最高token的解碼方式
嵌入維度
Embedding Dimension
嵌入向量的大小
嵌入模型
Embedding Model
將文本或圖像轉為向量的模型
智能體人格設定
Agent Persona
Agent 的角色、風格與行為設定
湧現行為 (Emergent Behavior)
Emergent Behavior (emergent behavior)
模型規模達一定門檻後突然出現、未經明確程式設計的能力或行為
結構化輸出
Structured Outputs
強制 LLM 輸出 JSON 等格式
詞袋模型
Bag of Words
忽略詞序只計詞頻的文本表示方法
感知器
Perceptron
最簡單的神經網絡單元,線性二分類器
溫度
Temperature
控制LLM輸出隨機性的取樣參數
解碼器
Decoder
從內部表示生成輸出的網路部分
零樣本學習
Zero-shot Learning
模型在未見過該類別範例下進行預測
預訓練模型
Pretrained Model
在大規模數據上預先訓練的模型
端到端學習
End-to-End Learning
從輸入到輸出一體化學習
聚類 (Spectral Clustering)
Clustering (Spectral Clustering)
將樣本分組
語言建模
Language Modeling
預測序列中下一個詞的任務
語料庫
Corpus
用於訓練或評估的文本數據集合
影像分類
Image Classification
將整張影像判定為單一類別的視覺任務
歐幾里得距離
Euclidean Distance
L2距離
編碼器
Encoder
將輸入轉為內部表示的網路部分
複合式 AI 系統
Compound AI Systems
由多個模型與工具組合而成
餘弦相似度
Cosine Similarity
衡量兩向量夾角的相似度指標
激活函數
Activation Function
為神經元引入非線性的函數
隨機森林 (Balanced Random Forest)
Random Forest (Balanced Random Forest)
多棵決策樹投票的集成學習方法
頻率懲罰
Frequency Penalty
依出現頻率懲罰的取樣參數
環境感知力
Contextual Awareness
AI 理解當下情境與環境的能力
點積
Dot Product
向量的內積
邊緣檢測
Edge Detection
找出影像中物體邊界的技術
觀察空間
Observation Space
RL中環境狀態的表示
Function Calling API
Function Calling
讓LLM調用外部函數
GPT (生成式預訓練變換器)
Generative Pre-trained Transformer (GPT)
OpenAI開發的生成式預訓練Transformer模型系列
Grad-CAM (梯度加權類別活化圖)
Grad-CAM (Gradient-weighted Class Activation Mapping)
以最後卷積層梯度加權產生熱力圖,視覺化 [[cnn]] 預測時關注的影像區域,用於可解釋性。
K均值聚類
K-Means
將數據聚為K群的無監督方法
K近鄰
K-NN
依最近K個鄰居投票的分類方法
Logits
Logits
未歸一化的機率值
LRM (大型推理模型 / Large Reasoning Models)
Large Reasoning Models (LRM)
具備深層邏輯推理能力的模型,如 OpenAI o1 系列,強調推理而非僅語言模式
N元語法
N-gram
連續N個詞或字的序列
ReLU (線性整流單元)
ReLU (Rectified Linear Unit)
最常用的神經網絡激活函數
Seq2Seq
Sequence to Sequence
序列到序列模型,輸入輸出皆為序列的架構
Sigmoid
Sigmoid
將輸入壓縮到 0-1 範圍的 S 型激活函數
Softmax
Softmax
將向量轉為機率分布的歸一化函數
Swish
Swish
Google 提出的自門控平滑激活函數
T5
Text-to-Text Transfer Transformer
Google 的文本到文本統一框架 Transformer
Tanh
Tanh
將輸入壓縮到 -1 到 1 的雙曲正切激活函數
TF-IDF
TF-IDF
詞頻-逆向文件頻率的文本特徵權重方法
反思機制
Reflection Mechanism
生成後自我檢查
支持向量機
SVM
基於最大間隔的經典分類算法
去噪
Denoising
從噪聲還原信號
交叉編碼器
Cross-Encoder
查詢與文檔聯合編碼
多跳推理
Multi-hop Reasoning
需多步推論才能得出答案
多頭注意力
Multi-head Attention
並行多組注意力以捕捉不同關係
自回歸解碼
Autoregressive Decoding
逐token生成的解碼方式
自注意力機制
Self-Attention
讓序列中每個位置關注其餘位置的注意力機制
自編碼器
Autoencoder
學習數據壓縮與重建的神經網絡
位置編碼
Positional Encoding
為Transformer注入序列位置資訊
序列到序列
Seq2Seq
輸入與輸出皆為序列的模型架構
折扣因子
Discount Factor
未來獎勵的折現係數
卷積神經網絡 (CNN)
Convolutional Neural Network (CNN)
專門處理圖像數據的神經網絡架構
注意力機制 (注意力)
Attention Mechanism (Self-Attention)
讓模型專注於輸入重要部分的機制
物體檢測
Object Detection
在影像中定位並辨識物體類別的技術
知識圖譜
Knowledge Graph
以圖結構組織實體與關係的知識庫
表示學習
Representation Learning
自動學習數據表示
長短期記憶網絡
LSTM
解決長期依賴問題的循環神經網絡架構
長程推理
Long-term Reasoning
跨多步驟的連貫推理
門控循環單元
GRU
LSTM的簡化版,少參數的序列建模架構
前饋網絡
FFN
Transformer中的兩層全連接子模組
姿態估計
Pose Estimation
估計人體或物體關節位置的技術
思維骨架
Skeleton-of-Thought
先骨架再填充
指令微調
Instruction Tuning
用指令-回應對微調模型以遵循人類指令
時間一致性
Temporal Consistency
影片幀間的連貫性
矩陣分解
Matrix Factorization
將矩陣分解為低秩因子
動態目標設定
Dynamic Goal Setting
AI 可依情境調整目標
基因演算法
Genetic Algorithm
模擬進化過程的優化算法
密度鏈
Chain-of-Density
CoD,摘要的密度優化
專家混合模型
Mixture of Experts
多專家子網絡的架構
採樣器
Sampler
擴散模型中的去噪採樣
探索與利用
Exploration vs. Exploitation
嘗試新事物與利用已知的取捨
推理標記
Reasoning Tokens
模型思考時內部消耗的 Token
推論時擴展
Inference-time Scaling
在回答時花更多時間思考以提高品質
梅爾頻譜
Mel Spectrogram
人耳感知的頻譜表示
梯度提升
Gradient Boosting
迭代添加模型以修正殘差的集成方法
規劃演算法
Planning Algorithms
拆解步驟的規劃能力
逐位置前饋網路
Position-wise Feed-Forward
Transformer中每位置獨立的前饋層
單樣本學習
One-shot Learning
僅用單一範例學習新類別
嵌入向量 (嵌入 / 詞嵌入 / 向量嵌入) (Embedding Lookup)
Embedding (Word Embedding) (Embedding Lookup)
將離散數據(如文字)轉換為連續向量表示
循環神經網絡 (RNN)
Recurrent Neural Network (RNN)
處理序列數據的神經網絡,有記憶能力
提示微調
Prompt Tuning
只訓練軟提示
殘差連接
Residual Connection
跳過連接以緩解梯度消失
殘差網絡
ResNet
透過殘差連接訓練極深網絡的架構
無限上下文
Infinite Context
透過 RAG 或長緩存實現的虛擬無限長度
稀疏架構
Sparse Architectures
每次只激活部分參數的架構
超長上下文窗口
Extended Context Window
2M+ tokens 的長上下文
僅解碼器
Decoder-only
如GPT般只含解碼器的模型
僅編碼器
Encoder-only
如BERT般只含編碼器的模型
溫度縮放
Temperature Scaling
調整softmax溫度的校準方法
稠密 vs 稀疏模型
Dense vs Sparse Models
全參數 vs 部分激活的架構對比
稠密模型
Dense Model
所有參數都參與每次運算的神經網絡模型
經驗回放
Experience Replay
重複利用過往經驗的訓練
跨模態嵌入
Cross-modal Embeddings
將不同模態對齊到同一向量空間
零樣本思維鏈
Zero-shot CoT
不給範例即引導模型逐步推理
預訓練目標
Pre-training Objective
預訓練階段的優化目標
實體分割
Instance Segmentation
區分同類別不同個體的分割任務
實體連結
Entity Linking
將文本中的實體對應到知識庫
監督微調
SFT
用標記數據微調模型
語義分割
Semantic Segmentation
為影像每個像素標註類別
價值函數
Value Function
估計狀態或動作的期望回報
層正規化
Layer Normalization
對層內特徵正規化的技術
潛在空間
Latent Space
壓縮後的抽象表示空間
潛在擴散
Latent Diffusion
在潛在空間的擴散
編碼器-解碼器
Encoder-Decoder
將輸入編碼後解碼輸出的序列到序列架構
遮罩語言模型
MLM
預測被遮罩位置的預訓練任務
噪聲調度
Noise Schedule
擴散過程的噪聲安排
聲碼器
Vocoder
將特徵轉為音訊的模型
隱藏狀態
Hidden States
神經網絡中間層的表示
擴散模型 (擴散生成模型)
Diffusion Model
通過逐步去除噪聲來生成數據的生成式模型
雙編碼器
Bi-Encoder
查詢與文檔分別編碼
邏輯鏈
Chain-of-Logic
比思維鏈更嚴謹的推導
驗證鏈
Chain-of-Verification
CoVe,生成後驗證
BERT (雙向編碼器表示)
BERT (Bidirectional Encoder Representations from Transformers)
Google開發的雙向Transformer編碼器,用於理解文本
CFG尺度
CFG Scale
分類器自由引導強度
CLIP
CLIP
對齊圖像與文本的對比學習模型
ControlNet
ControlNet
控制擴散模型生成的架構
Decoding
Decoding
LLM產生輸出的階段
DINO (自監督視覺 Transformer)
DINO (Self-Distillation with No Labels)
Meta 提出的自監督 [[vision-transformer]] 訓練方法,無標籤自蒸餾,可學到語義分割與物體邊界。
GELU
Gaussian Error Linear Unit
Transformer常用的激活函數
IP-Adapter
IP-Adapter
用參考圖控制生成的適配器
LayerNorm
Layer Normalization
對層內特徵正規化
P-Tuning
P-Tuning
可學習提示的微調方法
Prefill
Prefill
LLM處理輸入的階段
Q學習
Q-Learning
經典的無模型強化學習算法
ReAct
ReAct
結合推理與行動的Agent框架
SiLU
SiLU
Swish激活函數的別稱
Top-K取樣
Top-K Sampling
只從機率最高的K個token中取樣的策略
Top-P取樣
Top-P Sampling
依累積機率閾值篩選token的取樣策略
U-Net
U-Net
編解碼對稱的醫學影像架構
U-Net擴散
U-Net Diffusion
擴散模型中的U-Net骨幹
Vision Transformer
ViT
將Transformer用於圖像的架構
Word2Vec
Word2Vec
將詞映射為向量的早期嵌入模型
XGBoost
XGBoost
高效梯度提升的實作框架
YOLO
You Only Look Once
實時物件偵測架構
3D高斯潑濺
3D Gaussian Splatting
高效的3D重建與渲染
一致性模型
Consistency Model
單步生成的擴散變體
人類回饋強化學習
RLHF
利用人類偏好數據訓練LLM的對齊方法
元學習
Meta-learning
學習如何學習的更高層學習方法
分組查詢注意力
GQA
Grouped-Query Attention,減少KV頭數
分數匹配
Score Matching
學習分數函數的生成方法
文本反轉
Textual Inversion
訓練特定概念的嵌入
可微編程
Differentiable Programming
整個計算圖可求導的編程
生成對抗網絡 (GAN)
Generative Adversarial Network (GAN)
通過生成器與判別器對抗訓練來生成數據
交叉注意力
Cross-Attention
查詢來自不同序列的注意力
因果遮罩
Causal Mask
防止注意力看到未來token的遮罩
在線策略學習
On-policy Learning
從當前策略產生的數據學習
多查詢注意力
MQA
Multi-Query Attention,共享單一KV頭
好奇心驅動學習
Curiosity-driven Learning
以好奇心為內在獎勵
自回歸視覺模型
Auto-regressive Vision
以自回歸方式生成圖像
低秩適配 (LoRA)
LoRA (Low-Rank Adaptation)
高效微調大型模型只更新少量參數的技術
均方根歸一化
RMSNorm
Root Mean Square Layer Normalization
貝葉斯網路
Bayesian Network
以圖表示變數間機率依賴的模型
貝爾曼方程
Bellman Equation
動態規劃與RL的核心等式
注意力即一切
Attention Is All You Need
提出Transformer的經典論文
狀態空間模型
SSM
State Space Models
近端策略優化
PPO
Proximal Policy Optimization
非自回歸解碼
Non-autoregressive Decoding
可並行生成多token
前綴微調
Prefix Tuning
學習可訓練前綴向量
思維圖
Graph of Thoughts
GoT,圖結構推理
思維樹
Tree of Thoughts
探索多種推理路徑的進階提示技巧
流匹配
Flow Matching
基於流的生成模型
流形
Manifold
高維中的低維結構
音訊擴散
Audio Diffusion
將擴散模型用於音訊生成
時序差分學習
TD Learning
Temporal Difference,增量式價值估計
核函數技巧
Kernel Trick
在高維空間計算而不顯式映射
神經架構搜索
NAS (Neural Architecture Search)
自動搜尋最佳網絡架構
神經輻射場
NeRF
Neural Radiance Fields,3D場景表示
逆強化學習
IRL
從專家行為推斷獎勵函數
馬可夫決策過程
MDP
Markov Decision Process,RL的數學框架
高效參數微調
PEFT
只更新少量參數的微調方法總稱
旋轉位置嵌入
RoPE
Rotary Positional Embedding,旋轉式位置編碼
混合專家模型 (MoE)
Mixture of Experts (MoE)
只激活部分參數來處理輸入的大型模型架構
無分類器引導
Classifier-free Guidance
無需分類器的條件引導
無標記模型
Token-free Models
直接處理位元組的模型
稀疏注意力
Sparse Attention
只關注部分位置的注意力
稀疏MoE
Sparse MoE
每次只用部分專家的MoE
策略梯度
Policy Gradient
直接優化策略的強化學習方法
滑窗注意力
Sliding Window Attention
限定局部窗口的注意力
解耦表示
Disentangled Representation
因子的獨立表示
路由
Routing
MoE中分配輸入給專家
圖神經網絡
GNN
處理圖結構數據的神經網絡
對比學習
Contrastive Learning
拉近相似樣本、推遠不相似樣本的學習
演員-評論家
Actor-Critic
結合策略與價值函數的RL架構
蒙地卡羅樹搜尋
MCTS
透過隨機模擬的樹搜尋方法
線性注意力
Linear Attention
計算複雜度線性的注意力
線性偏置注意力
ALiBi
Attention with Linear Biases,無需位置嵌入
適配器
Adapter
插入式任務適配模組
環形注意力
Ring Attention
分散式長序列注意力
離線策略學習
Off-policy Learning
從與當前策略不同的數據學習
變分自編碼器 (VAE)
VAE (Variational Autoencoder)
結合生成與壓縮的機率自編碼器架構
BitNet
BitNet
極低位元LLM,可在CPU上運行
BitNet 1.58b
BitNet 1.58b
1 位元量化模型技術
DDIM
Denoising Diffusion Implicit Model
確定性採樣的擴散
DDPM
Denoising Diffusion Probabilistic Model
去噪擴散機率模型
DPO
Direct Preference Optimization
直接優化偏好無需獎勵模型
IA3
Infused Adapter by Inhibiting and Amplifying
輕量微調方法
Mamba
Mamba
狀態空間模型,長文本架構
ORPO
ORPO
單階段偏好優化
Post-Norm
Post-Normalization
注意力後做正規化
Pre-Norm
Pre-Normalization
注意力前做正規化
QLoRA
QLoRA
量化LoRA降低顯存需求
RLAIF
RLAIF
用AI回饋替代人類的強化學習對齊
SwiGLU
SwiGLU
結合Swish與GLU的高效激活架構
Swin Transformer
Swin Transformer
分層視覺Transformer架構
Zero-1-to-3
Zero-1-to-3
單圖轉3D的技術