硬件需求与优化

能不能跑，跑得多快

本地运行 LLM 的第一个问题永远是：我的硬件能跑什么模型？ 这一章帮你回答这个问题。

LLM 推理的核心瓶颈不是算力，而是内存带宽。模型的所有参数需要加载到内存中，每生成一个 token，这些参数都要被读取一遍。

这意味着：

以下是使用 Q4_K_M 量化的常见模型大小（不含上下文缓存的开销）：

模型大小	Q4_K_M 体积	推荐 VRAM	推荐 RAM（CPU 推理）
1-3B	~1-2 GB	4 GB	8 GB
7-8B	~4-5 GB	8 GB	16 GB
13B	~7-8 GB	10 GB	16 GB
30-34B	~18-20 GB	24 GB	32 GB
70B	~38-40 GB	48 GB	64 GB

注意：上下文窗口也需要额外内存。8K 上下文大约额外需要 1-2 GB，32K 可能需要 4-8 GB。

GPU 推理快，但需要显存够大，整个模型（或大部分）能放进去。

生成速度参考（Q4_K_M，7B 模型）：

CPU 也能跑，但速度慢得多——主要受限于内存带宽。

生成速度参考（Q4_K_M，7B 模型）：

8 tokens/s 大约等于正常人阅读速度，勉强可用。3 tokens/s 就需要一点耐心了。

如果 GPU 显存不够放下整个模型，可以把一部分层放 GPU，其余放 CPU。速度介于纯 GPU 和纯 CPU 之间，和 GPU 上的层数比例大致成正比。

Apple M 系列芯片是本地 LLM 的甜点硬件：

NVIDIA GPU 是 AI 领域的标准硬件，CUDA 生态最成熟。

显卡	显存	推荐模型上限	参考价格
RTX 4060	8 GB	7B Q4	~¥2500
RTX 4060 Ti	16 GB	13B Q4	~¥3500
RTX 4070 Ti Super	16 GB	13B Q4	~¥5500
RTX 4090	24 GB	30B Q4	~¥14000
RTX 5090	32 GB	30B Q5	~¥16000

AMD 通过 ROCm 支持 GPU 推理。支持在改善，但兼容性不如 NVIDIA。适合已有 AMD GPU 的用户，不建议为了跑 LLM 专门购买。

快速估算你需要多少内存：

总内存需求 = 模型体积 + KV Cache + 系统开销

模型体积 = 参数量(B) × 量化比特数 ÷ 8
KV Cache ≈ 上下文长度 × 层数 × 隐藏维度 × 4 ÷ 1024³ (GB)
系统开销 ≈ 0.5-1 GB

简化版：模型文件大小 + 20-30% 的额外开销，就是你需要的内存。

入门（0 投入）：用现有电脑的 CPU 跑 3B 模型。体验一下本地推理是什么感觉。

轻度使用（~5000 元）：Mac mini M4 Pro (24GB)，流畅运行 7B-13B 模型，安静、低功耗。

认真使用（~10000 元）：Mac mini M4 Pro (48GB) 或带 RTX 4090 的台式机。可以跑 30B+ 模型。

专业使用：Mac Studio M3 Ultra (192GB) 或多 GPU 方案。可以跑 70B F16 甚至更大的模型。