🚀 2026 全民被動收入指南，賺錢就是 Easy Job

關於我們聯絡我們

易賺AiEasyJobAi

2初級技術工具

GGUF

GGUF

Ollama 等軟體通用的模型格式

詳細解釋

llama.cpp 項目於 2023 年推出的二進制模型格式，專為本地 CPU/GPU 推理優化，支持多種量化精度（Q2 到 Q8）。

設計目標：

單文件：模型所有信息（權重、詞表、超參數）封裝在一個文件
mmap 兼容：支持內存映射，加載超大模型無需全部讀入 RAM
量化友好：內建多種量化方案，用戶可選性能與質量平衡
擴展性：支持添加新特性（如 LoRA、不同架構）而不破壞向後兼容

與舊格式對比：

vs GGML（前身）：GGUF 修復了 GGML 的架構限制，支持更多模型類型
vs PyTorch .pth：GGUF 專為推理優化，體積小、加載快，但不可訓練
vs Safetensors：Safetensors 是通用格式，GGUF 專為 llama.cpp 生態

使用場景：

本地運行：Ollama、LM Studio、jan.ai 都使用 GGUF
消費級硬件：4-bit 量化讓 70B 模型可在 48GB VRAM 運行
邊緣設備：2-bit 量化適合 Raspberry Pi 等嵌入式設備

生態工具：

llama.cpp：核心推理引擎（C++）
huggingface-cli：下載和轉換 GGUF 模型
quantize：從 FP16 轉換為各種量化級別

命名：GGUF = GPT-Generated Unified Format，但現已支持 Llama、Mistral、Qwen 等多種架構。

2024 年 GGUF 成為本地 LLM 的事實標準格式，Hugging Face 上絕大多數新模型都提供 GGUF 版本。

相關詞彙

本地運行LLM的簡單工具

專注單一任務的AI

量化 (模型量化) (Quantization Aware Training)3

將模型權重降低精度以減少記憶體與加速推論

探索更多AI詞彙

查看所有分類，繼續學習AI知識

基礎概念模型架構技術工具應用場景全部詞彙