模型格式与量化

模型文件到底是什么

当你下载一个 LLM 时，你下载的其实是一堆权重参数——数十亿个浮点数，存储了模型从训练数据中学到的所有"知识"。

这些参数需要用某种格式保存到文件中。不同的格式有不同的特性，了解它们能帮你做出更好的选择。

GGUF（GPT-Generated Unified Format）是目前本地推理最主流的格式，由 llama.cpp 项目定义。

核心特点：

GGUF 文件名通常包含量化信息，比如 llama-3-8b-Q4_K_M.gguf，一眼就能看出模型大小和量化级别。

SafeTensors 是 Hugging Face 推出的格式，主要用于 GPU 推理和训练。

核心特点：

如果你用 transformers 库或 vLLM 做推理，用的就是 SafeTensors 格式。

一个 7B 参数的模型，如果每个参数用 16 位浮点数（FP16）存储，需要大约 14GB 内存。70B 的模型就需要 140GB——远超普通消费级显卡的容量。

量化（Quantization）是解决这个问题的关键技术：用更少的比特位来表示每个参数，换取更小的内存占用和更快的推理速度。

原理很简单。FP16 用 16 bit 存一个参数，但很多参数的精度其实不需要那么高。如果我们用 4 bit 来存，内存占用直接降到原来的 1/4。

量化级别	每参数比特	7B 模型大小	质量损失	适用场景
F16	16 bit	~14 GB	无	有足够显存时的最佳选择
Q8_0	8 bit	~7 GB	极小	质量优先，空间充足
Q6_K	6 bit	~5.5 GB	很小	质量和空间的良好平衡
Q5_K_M	5 bit	~4.8 GB	小	推荐的通用选择
Q4_K_M	4 bit	~4.0 GB	轻微	最流行的选择，性价比最高
Q3_K_M	3 bit	~3.3 GB	明显	内存紧张时的选择
Q2_K	2 bit	~2.5 GB	严重	不推荐，质量下降太大

命名中的 K 表示使用了 k-quant 方法（更智能的量化），M 表示中等（Medium）精度，还有 S（Small，更小但质量更低）和 L（Large，更大但质量更好）。

实用决策流程：

一个常见的误区是：与其用 70B 模型的 Q2 量化，不如用 7B 模型的 Q8 量化。 过度量化带来的质量损失往往比换小模型更严重。

快速估算公式：

内存需求 ≈ 参数量（十亿） × 每参数比特数 ÷ 8

例如：7B 模型 Q4 量化
7 × 4 ÷ 8 = 3.5 GB（实际还需要一些额外开销，约 4 GB）

这个估算帮你快速判断一个模型能不能在你的硬件上跑起来。