硬件需求与优化

能不能跑,跑得多快

本地运行 LLM 的第一个问题永远是:我的硬件能跑什么模型? 这一章帮你回答这个问题。

内存是关键瓶颈

LLM 推理的核心瓶颈不是算力,而是内存带宽。模型的所有参数需要加载到内存中,每生成一个 token,这些参数都要被读取一遍。

这意味着:

  • GPU 推理的瓶颈是显存(VRAM)容量和带宽
  • CPU 推理的瓶颈是内存(RAM)带宽

各模型大小的显存需求

以下是使用 Q4_K_M 量化的常见模型大小(不含上下文缓存的开销):

模型大小Q4_K_M 体积推荐 VRAM推荐 RAM(CPU 推理)
1-3B~1-2 GB4 GB8 GB
7-8B~4-5 GB8 GB16 GB
13B~7-8 GB10 GB16 GB
30-34B~18-20 GB24 GB32 GB
70B~38-40 GB48 GB64 GB

注意:上下文窗口也需要额外内存。8K 上下文大约额外需要 1-2 GB,32K 可能需要 4-8 GB。

GPU vs CPU 推理

GPU 推理

GPU 推理快,但需要显存够大,整个模型(或大部分)能放进去。

生成速度参考(Q4_K_M,7B 模型)

  • 高端 GPU(RTX 4090, 24GB):60-80 tokens/s
  • 中端 GPU(RTX 4060, 8GB):30-50 tokens/s
  • Apple M2 Pro(16GB 统一内存):20-35 tokens/s

CPU 推理

CPU 也能跑,但速度慢得多——主要受限于内存带宽。

生成速度参考(Q4_K_M,7B 模型)

  • 高端 CPU(现代 AMD/Intel,DDR5):8-15 tokens/s
  • 普通笔记本 CPU:3-8 tokens/s

8 tokens/s 大约等于正常人阅读速度,勉强可用。3 tokens/s 就需要一点耐心了。

部分卸载

如果 GPU 显存不够放下整个模型,可以把一部分层放 GPU,其余放 CPU。速度介于纯 GPU 和纯 CPU 之间,和 GPU 上的层数比例大致成正比。

各平台硬件指南

Apple Silicon(推荐入门)

Apple M 系列芯片是本地 LLM 的甜点硬件:

  • 统一内存架构:CPU 和 GPU 共享内存,不存在"显存不够"的问题
  • Metal GPU 加速:llama.cpp 和 Ollama 都支持
  • 高内存带宽:M2 Pro 达到 200 GB/s,M3 Max 达到 400 GB/s
芯片统一内存推荐模型上限
M1/M2 (8GB)8 GB3-7B Q4
M1/M2 Pro (16GB)16 GB7-13B Q4
M1/M2 Pro (32GB)32 GB30B Q4
M3 Max (48GB)48 GB70B Q4
M2/M3 Ultra (192GB)192 GB70B F16

NVIDIA GPU

NVIDIA GPU 是 AI 领域的标准硬件,CUDA 生态最成熟。

显卡显存推荐模型上限参考价格
RTX 40608 GB7B Q4~¥2500
RTX 4060 Ti16 GB13B Q4~¥3500
RTX 4070 Ti Super16 GB13B Q4~¥5500
RTX 409024 GB30B Q4~¥14000
RTX 509032 GB30B Q5~¥16000

AMD GPU

AMD 通过 ROCm 支持 GPU 推理。支持在改善,但兼容性不如 NVIDIA。适合已有 AMD GPU 的用户,不建议为了跑 LLM 专门购买。

内存估算公式

快速估算你需要多少内存:

总内存需求 = 模型体积 + KV Cache + 系统开销

模型体积 = 参数量(B) × 量化比特数 ÷ 8
KV Cache ≈ 上下文长度 × 层数 × 隐藏维度 × 4 ÷ 1024³ (GB)
系统开销 ≈ 0.5-1 GB

简化版:模型文件大小 + 20-30% 的额外开销,就是你需要的内存。

实用建议

按预算推荐

入门(0 投入):用现有电脑的 CPU 跑 3B 模型。体验一下本地推理是什么感觉。

轻度使用(~5000 元):Mac mini M4 Pro (24GB),流畅运行 7B-13B 模型,安静、低功耗。

认真使用(~10000 元):Mac mini M4 Pro (48GB) 或带 RTX 4090 的台式机。可以跑 30B+ 模型。

专业使用:Mac Studio M3 Ultra (192GB) 或多 GPU 方案。可以跑 70B F16 甚至更大的模型。

性能优化技巧

  1. 优先 GPU 推理:速度差异通常是 5-10 倍
  2. 选对量化级别:Q4_K_M 通常是最优平衡点
  3. 关闭不必要的程序:释放内存给模型使用
  4. 调整上下文长度:不需要太长的上下文时,减小 -c 参数可以省内存
  5. 使用 Flash Attention:如果你的硬件和软件支持,可以显著减少 KV Cache 的内存占用

要点总结

  1. 内存(而非算力)是本地 LLM 的核心瓶颈。 先看你有多少 VRAM/RAM,再决定跑什么模型。
  2. Apple Silicon 是性价比最高的入门选择——统一内存架构天然适合 LLM 推理。
  3. GPU 比 CPU 快 5-10 倍。 如果有 GPU,务必启用 GPU 加速。
  4. 简单公式:模型文件大小 + 30% ≈ 实际内存需求。 用这个快速判断可行性。