模型生态与选型
模型的世界
LLM 领域的变化速度极快——每隔几个月就有新的突破,API 价格在过去一年中下降了约 80%,开源模型已经逼近甚至追平闭源模型的能力。
你不需要跟踪每个模型的发布,但需要理解几个核心维度来做技术选型。
闭源 vs 开源
闭源模型
通过 API 使用,你看不到模型权重,按 token 付费。
| 模型 | 提供商 | 特点 |
|---|---|---|
| GPT-5 系列 | OpenAI | 400K 上下文窗口,数学和代码能力极强,生态最成熟 |
| Claude 4.5 系列 | Anthropic | 代码生成市占率领先,长上下文处理优秀,Agent 能力突出 |
| Gemini 3 | 百万级上下文窗口,多模态能力强,Deep Think 推理模式 | |
| Grok 4 | xAI | 纯推理能力领先,LMArena 排名第一 |
优势:
- 开箱即用,无需基础设施
- 通常代表最高水平的能力
- 持续更新,不需要你维护
劣势:
- 数据发送给第三方(隐私考量)
- 受限于 API 的能力和限制
- 成本随用量增长
- 供应商锁定风险
开源模型
你可以下载模型权重,在自己的机器上运行。
| 模型 | 来源 | 特点 |
|---|---|---|
| Llama 4 | Meta | 10M token 上下文窗口,Scout/Maverick 等多个变体,社区生态最丰富 |
| DeepSeek V3.2 / R1 | DeepSeek | 685B 参数,推理能力追平闭源模型,性价比极高 |
| Qwen 3 | 阿里 | 多语言能力突出,0.5B 到 110B 多种尺寸,含视觉和全模态变体 |
| Kimi K2.5 | 月之暗面 | 1T 参数(32B 激活),Agent Swarm 协调百个智能体,视觉能力原生集成 |
| MiniMax M2.5 | MiniMax | 10B 激活参数,SWE-bench 80.2%,代码和 Agent 任务性价比极高 |
| GLM-5 | 智谱 AI | 745B 参数(44B 激活),MIT 开源,全栈国产芯片(华为昇腾)训练 |
| Step 3 | 阶跃星辰 | 316B 参数(38B 激活),推理效率达 DeepSeek-R1 的 300%,多模态 |
| Mistral 3 | Mistral AI | Small 3(24B)Apache 2.0 开源,速度快效率高 |
优势:
- 数据不离开你的服务器
- 可以微调(Fine-tuning)
- 无 API 调用费用(但有基础设施成本)
- 完全控制部署和运行方式
劣势:
- 需要 GPU 资源
- 需要自己处理部署、运维和更新
值得注意的是,开源模型在 2025 年取得了巨大进步。DeepSeek R1 以极低的成本实现了接近 ChatGPT 的推理能力,被称为"DeepSeek 时刻"。Llama 4 在 MMLU-Pro 上达到 85-86%,证明开源模型已经能匹配闭源旗舰的性能。
中国 AI 生态
中国团队在开源模型领域的贡献尤为突出,已形成独特的竞争格局:
- DeepSeek 和 月之暗面(Moonshot AI) 在全球 Token 消耗中合计占比超过 23%,成为开源生态的重要力量
- 智谱 AI 的 GLM-5 证明了完全基于国产芯片训练前沿模型的可行性,对于关注供应链自主的场景有特殊意义
- MiniMax 的 M2.5 以极小的激活参数(10B)在 SWE-bench 上达到 80.2%,是"小模型大能力"路线的代表
- 阶跃星辰 的 Step 3 在多模态方面布局全面,同时覆盖文本、视觉和语音
- 阿里 Qwen 系列从 0.5B 到 110B 全尺寸覆盖,是目前中文能力最全面的开源选择
对于中文场景或需要在国内部署的应用,这些模型往往是比海外模型更优的选择。
模型大小与能力
模型大小通常用参数量表示:
- 1B - 3B(小型):简单任务、分类、摘要。可以在 CPU 或低端 GPU 上运行
- 7B - 24B(中型):大多数常见任务的甜蜜点。一张消费级 GPU 就能跑
- 30B - 70B(大型):接近闭源模型的能力,需要多张 GPU 或量化
- 70B+(超大型):需要专业硬件或云服务
一个重要的规律:模型不是越大越好,而是要匹配你的任务。 一个经过良好微调的 7B 模型,在特定任务上可能超过通用的 70B 模型。
上下文窗口的跃进
上下文窗口是近期最显著的进步之一:
- GPT-5 系列:400K token
- Gemini 3:百万级 token
- Llama 4 Scout:10M token(约 7500 页文本)
这意味着你可以把整个代码仓库、整套文档、甚至整本书放进一次对话中。这根本性地改变了很多应用场景——有些以前必须用 RAG 的场景,现在可以直接放进上下文。
但更长的上下文也意味着更高的成本和延迟。在实际应用中,仍然需要权衡。
多模态
最新的模型不只能处理文本:
- 文本 + 图片:GPT-5、Claude、Gemini、Qwen-VL 都能理解图片内容
- 全模态:Qwen-Omni 支持文本、图片、音频的输入输出
- 文本 → 图片:DALL-E、Midjourney、Stable Diffusion、Flux
- 文本 → 代码 → 执行:代码解释器功能
多模态意味着 AI 的输入输出不再局限于文本,应用场景大幅扩展。
API 定价
API 按 token 计费,输入和输出价格不同(每百万 token 计):
| 模型 | 输入 | 输出 | 定位 |
|---|---|---|---|
| GPT-5.2 | $1.75 | $14.00 | 旗舰 |
| Claude Opus 4.5 | $5.00 | $25.00 | 旗舰 |
| Gemini 3 Pro | $2.00 | $12.00 | 旗舰 |
| Gemini 3 Flash | $0.50 | $3.00 | 高性价比 |
| DeepSeek R1 | $0.55 | — | 极致性价比 |
价格区间跨度极大——从最便宜的 $0.02/M 到最贵的近 $100/M。大多数生产应用使用 $0.10-$2.00/M 区间的模型。
如何选择模型
一个实用的选型框架:
1. 先明确约束条件
- 数据隐私:敏感数据能否发送给第三方?不能 → 开源/本地部署
- 延迟要求:需要实时响应?→ 小模型或 Flash/Haiku 级别
- 预算:每月预期调用量和费用?
2. 从 API 开始原型验证
- 先用 Claude 或 GPT-5 验证你的想法是否可行
- 这是最快的方式,不用管基础设施
3. 根据需要降级或迁移
- 如果 API 成本太高 → 试试 Flash/Haiku 级别或开源模型
- 如果需要数据隐私 → 迁移到本地部署
- 如果需要特定能力 → 考虑微调
4. 持续评估
- LLM 领域变化极快,几个月前的最佳选择可能已经过时
- 建立简单的评估流程,定期测试新模型
Benchmark 与评估
你会看到各种模型排行榜和 benchmark 分数。几个常见的:
- MMLU / MMLU-Pro:多领域知识测试。旗舰模型已普遍超过 90%,该 benchmark 趋于饱和
- HumanEval:代码生成能力。顶级模型已达 95%+,区分度有限
- SWE-bench Verified:更贴近真实软件工程任务,目前是评估代码能力的主要 benchmark
- LMArena(原 Chatbot Arena):基于人类盲评的 Elo 排名,最能反映实际使用体验
但要注意:benchmark 分数不等于实际应用效果。 顶级模型在传统 benchmark 上分数接近,但在你的具体场景中可能表现差异很大。最可靠的方法是用你自己的数据和场景测试。
要点总结
- 没有"最好的"模型,只有"最适合的"模型。 根据任务、预算和约束选择。
- 从 API 开始,按需迁移。 不要一上来就部署开源模型,除非你有明确的理由。
- 关注性价比,而非纯能力。 Mistral 3 能达到 GPT-5.2 约 92% 的能力,但价格只有 15%。
- 保持接口抽象。 设计你的应用时,将模型调用抽象出来,方便后续切换。
- LLM 生态变化极快。 本文的数据可能很快过时——建立自己的评估体系比记住具体数字更重要。