硬件需求与优化
能不能跑,跑得多快
本地运行 LLM 的第一个问题永远是:我的硬件能跑什么模型? 这一章帮你回答这个问题。
内存是关键瓶颈
LLM 推理的核心瓶颈不是算力,而是内存带宽。模型的所有参数需要加载到内存中,每生成一个 token,这些参数都要被读取一遍。
这意味着:
- GPU 推理的瓶颈是显存(VRAM)容量和带宽
- CPU 推理的瓶颈是内存(RAM)带宽
各模型大小的显存需求
以下是使用 Q4_K_M 量化的常见模型大小(不含上下文缓存的开销):
| 模型大小 | Q4_K_M 体积 | 推荐 VRAM | 推荐 RAM(CPU 推理) |
|---|---|---|---|
| 1-3B | ~1-2 GB | 4 GB | 8 GB |
| 7-8B | ~4-5 GB | 8 GB | 16 GB |
| 13B | ~7-8 GB | 10 GB | 16 GB |
| 30-34B | ~18-20 GB | 24 GB | 32 GB |
| 70B | ~38-40 GB | 48 GB | 64 GB |
注意:上下文窗口也需要额外内存。8K 上下文大约额外需要 1-2 GB,32K 可能需要 4-8 GB。
GPU vs CPU 推理
GPU 推理
GPU 推理快,但需要显存够大,整个模型(或大部分)能放进去。
生成速度参考(Q4_K_M,7B 模型):
- 高端 GPU(RTX 4090, 24GB):60-80 tokens/s
- 中端 GPU(RTX 4060, 8GB):30-50 tokens/s
- Apple M2 Pro(16GB 统一内存):20-35 tokens/s
CPU 推理
CPU 也能跑,但速度慢得多——主要受限于内存带宽。
生成速度参考(Q4_K_M,7B 模型):
- 高端 CPU(现代 AMD/Intel,DDR5):8-15 tokens/s
- 普通笔记本 CPU:3-8 tokens/s
8 tokens/s 大约等于正常人阅读速度,勉强可用。3 tokens/s 就需要一点耐心了。
部分卸载
如果 GPU 显存不够放下整个模型,可以把一部分层放 GPU,其余放 CPU。速度介于纯 GPU 和纯 CPU 之间,和 GPU 上的层数比例大致成正比。
各平台硬件指南
Apple Silicon(推荐入门)
Apple M 系列芯片是本地 LLM 的甜点硬件:
- 统一内存架构:CPU 和 GPU 共享内存,不存在"显存不够"的问题
- Metal GPU 加速:llama.cpp 和 Ollama 都支持
- 高内存带宽:M2 Pro 达到 200 GB/s,M3 Max 达到 400 GB/s
| 芯片 | 统一内存 | 推荐模型上限 |
|---|---|---|
| M1/M2 (8GB) | 8 GB | 3-7B Q4 |
| M1/M2 Pro (16GB) | 16 GB | 7-13B Q4 |
| M1/M2 Pro (32GB) | 32 GB | 30B Q4 |
| M3 Max (48GB) | 48 GB | 70B Q4 |
| M2/M3 Ultra (192GB) | 192 GB | 70B F16 |
NVIDIA GPU
NVIDIA GPU 是 AI 领域的标准硬件,CUDA 生态最成熟。
| 显卡 | 显存 | 推荐模型上限 | 参考价格 |
|---|---|---|---|
| RTX 4060 | 8 GB | 7B Q4 | ~¥2500 |
| RTX 4060 Ti | 16 GB | 13B Q4 | ~¥3500 |
| RTX 4070 Ti Super | 16 GB | 13B Q4 | ~¥5500 |
| RTX 4090 | 24 GB | 30B Q4 | ~¥14000 |
| RTX 5090 | 32 GB | 30B Q5 | ~¥16000 |
AMD GPU
AMD 通过 ROCm 支持 GPU 推理。支持在改善,但兼容性不如 NVIDIA。适合已有 AMD GPU 的用户,不建议为了跑 LLM 专门购买。
内存估算公式
快速估算你需要多少内存:
总内存需求 = 模型体积 + KV Cache + 系统开销
模型体积 = 参数量(B) × 量化比特数 ÷ 8
KV Cache ≈ 上下文长度 × 层数 × 隐藏维度 × 4 ÷ 1024³ (GB)
系统开销 ≈ 0.5-1 GB
简化版:模型文件大小 + 20-30% 的额外开销,就是你需要的内存。
实用建议
按预算推荐
入门(0 投入):用现有电脑的 CPU 跑 3B 模型。体验一下本地推理是什么感觉。
轻度使用(~5000 元):Mac mini M4 Pro (24GB),流畅运行 7B-13B 模型,安静、低功耗。
认真使用(~10000 元):Mac mini M4 Pro (48GB) 或带 RTX 4090 的台式机。可以跑 30B+ 模型。
专业使用:Mac Studio M3 Ultra (192GB) 或多 GPU 方案。可以跑 70B F16 甚至更大的模型。
性能优化技巧
- 优先 GPU 推理:速度差异通常是 5-10 倍
- 选对量化级别:Q4_K_M 通常是最优平衡点
- 关闭不必要的程序:释放内存给模型使用
- 调整上下文长度:不需要太长的上下文时,减小
-c参数可以省内存 - 使用 Flash Attention:如果你的硬件和软件支持,可以显著减少 KV Cache 的内存占用
要点总结
- 内存(而非算力)是本地 LLM 的核心瓶颈。 先看你有多少 VRAM/RAM,再决定跑什么模型。
- Apple Silicon 是性价比最高的入门选择——统一内存架构天然适合 LLM 推理。
- GPU 比 CPU 快 5-10 倍。 如果有 GPU,务必启用 GPU 加速。
- 简单公式:模型文件大小 + 30% ≈ 实际内存需求。 用这个快速判断可行性。