2初級技術工具
GGML (llama.cpp 張量庫)
GGML
llama.cpp 使用的 C 張量庫,支援多種 量化 (模型量化) (Quantization Aware Training) 與 GGUF 格式,供 大型語言模型 (大語言模型 / 大模型) 在 CPU/邊緣高效推理。
詳細解釋
GGML 是 llama.cpp 專案使用的輕量張量庫(C 實作),用於 大型語言模型 (大語言模型 / 大模型) 推理時的權重儲存與運算。支援 F32、F16、BF16 及多種整數量化和 IQ/KQ 等編碼,模型格式現以 GGUF 為主(固定寬度 I/O、可攜、含 metadata)。與 量化 (模型量化) (Quantization Aware Training) 結合可大幅降低記憶體與提升在 CPU、ARM、Apple Silicon 上的推理速度。
llama.cpp 依賴 GGML 實現無 GPU 或輕量 大型語言模型 (大語言模型 / 大模型) 部署,與 量化 (模型量化) (Quantization Aware Training)、大型語言模型 (大語言模型 / 大模型)、推理 (模型推理) (Inference Optimization) (Variational Inference) 相關。