模型生态与选型

模型的世界

LLM 领域的变化速度极快——每隔几个月就有新的突破,API 价格在过去一年中下降了约 80%,开源模型已经逼近甚至追平闭源模型的能力。

你不需要跟踪每个模型的发布,但需要理解几个核心维度来做技术选型。

闭源 vs 开源

闭源模型

通过 API 使用,你看不到模型权重,按 token 付费。

模型提供商特点
GPT-5 系列OpenAI400K 上下文窗口,数学和代码能力极强,生态最成熟
Claude 4.5 系列Anthropic代码生成市占率领先,长上下文处理优秀,Agent 能力突出
Gemini 3Google百万级上下文窗口,多模态能力强,Deep Think 推理模式
Grok 4xAI纯推理能力领先,LMArena 排名第一

优势:

  • 开箱即用,无需基础设施
  • 通常代表最高水平的能力
  • 持续更新,不需要你维护

劣势:

  • 数据发送给第三方(隐私考量)
  • 受限于 API 的能力和限制
  • 成本随用量增长
  • 供应商锁定风险

开源模型

你可以下载模型权重,在自己的机器上运行。

模型来源特点
Llama 4Meta10M token 上下文窗口,Scout/Maverick 等多个变体,社区生态最丰富
DeepSeek V3.2 / R1DeepSeek685B 参数,推理能力追平闭源模型,性价比极高
Qwen 3阿里多语言能力突出,0.5B 到 110B 多种尺寸,含视觉和全模态变体
Kimi K2.5月之暗面1T 参数(32B 激活),Agent Swarm 协调百个智能体,视觉能力原生集成
MiniMax M2.5MiniMax10B 激活参数,SWE-bench 80.2%,代码和 Agent 任务性价比极高
GLM-5智谱 AI745B 参数(44B 激活),MIT 开源,全栈国产芯片(华为昇腾)训练
Step 3阶跃星辰316B 参数(38B 激活),推理效率达 DeepSeek-R1 的 300%,多模态
Mistral 3Mistral AISmall 3(24B)Apache 2.0 开源,速度快效率高

优势:

  • 数据不离开你的服务器
  • 可以微调(Fine-tuning)
  • 无 API 调用费用(但有基础设施成本)
  • 完全控制部署和运行方式

劣势:

  • 需要 GPU 资源
  • 需要自己处理部署、运维和更新

值得注意的是,开源模型在 2025 年取得了巨大进步。DeepSeek R1 以极低的成本实现了接近 ChatGPT 的推理能力,被称为"DeepSeek 时刻"。Llama 4 在 MMLU-Pro 上达到 85-86%,证明开源模型已经能匹配闭源旗舰的性能。

中国 AI 生态

中国团队在开源模型领域的贡献尤为突出,已形成独特的竞争格局:

  • DeepSeek月之暗面(Moonshot AI) 在全球 Token 消耗中合计占比超过 23%,成为开源生态的重要力量
  • 智谱 AI 的 GLM-5 证明了完全基于国产芯片训练前沿模型的可行性,对于关注供应链自主的场景有特殊意义
  • MiniMax 的 M2.5 以极小的激活参数(10B)在 SWE-bench 上达到 80.2%,是"小模型大能力"路线的代表
  • 阶跃星辰 的 Step 3 在多模态方面布局全面,同时覆盖文本、视觉和语音
  • 阿里 Qwen 系列从 0.5B 到 110B 全尺寸覆盖,是目前中文能力最全面的开源选择

对于中文场景或需要在国内部署的应用,这些模型往往是比海外模型更优的选择。

模型大小与能力

模型大小通常用参数量表示:

  • 1B - 3B(小型):简单任务、分类、摘要。可以在 CPU 或低端 GPU 上运行
  • 7B - 24B(中型):大多数常见任务的甜蜜点。一张消费级 GPU 就能跑
  • 30B - 70B(大型):接近闭源模型的能力,需要多张 GPU 或量化
  • 70B+(超大型):需要专业硬件或云服务

一个重要的规律:模型不是越大越好,而是要匹配你的任务。 一个经过良好微调的 7B 模型,在特定任务上可能超过通用的 70B 模型。

上下文窗口的跃进

上下文窗口是近期最显著的进步之一:

  • GPT-5 系列:400K token
  • Gemini 3:百万级 token
  • Llama 4 Scout:10M token(约 7500 页文本)

这意味着你可以把整个代码仓库、整套文档、甚至整本书放进一次对话中。这根本性地改变了很多应用场景——有些以前必须用 RAG 的场景,现在可以直接放进上下文。

但更长的上下文也意味着更高的成本和延迟。在实际应用中,仍然需要权衡。

多模态

最新的模型不只能处理文本:

  • 文本 + 图片:GPT-5、Claude、Gemini、Qwen-VL 都能理解图片内容
  • 全模态:Qwen-Omni 支持文本、图片、音频的输入输出
  • 文本 → 图片:DALL-E、Midjourney、Stable Diffusion、Flux
  • 文本 → 代码 → 执行:代码解释器功能

多模态意味着 AI 的输入输出不再局限于文本,应用场景大幅扩展。

API 定价

API 按 token 计费,输入和输出价格不同(每百万 token 计):

模型输入输出定位
GPT-5.2$1.75$14.00旗舰
Claude Opus 4.5$5.00$25.00旗舰
Gemini 3 Pro$2.00$12.00旗舰
Gemini 3 Flash$0.50$3.00高性价比
DeepSeek R1$0.55极致性价比

价格区间跨度极大——从最便宜的 $0.02/M 到最贵的近 $100/M。大多数生产应用使用 $0.10-$2.00/M 区间的模型。

如何选择模型

一个实用的选型框架:

1. 先明确约束条件

  • 数据隐私:敏感数据能否发送给第三方?不能 → 开源/本地部署
  • 延迟要求:需要实时响应?→ 小模型或 Flash/Haiku 级别
  • 预算:每月预期调用量和费用?

2. 从 API 开始原型验证

  • 先用 Claude 或 GPT-5 验证你的想法是否可行
  • 这是最快的方式,不用管基础设施

3. 根据需要降级或迁移

  • 如果 API 成本太高 → 试试 Flash/Haiku 级别或开源模型
  • 如果需要数据隐私 → 迁移到本地部署
  • 如果需要特定能力 → 考虑微调

4. 持续评估

  • LLM 领域变化极快,几个月前的最佳选择可能已经过时
  • 建立简单的评估流程,定期测试新模型

Benchmark 与评估

你会看到各种模型排行榜和 benchmark 分数。几个常见的:

  • MMLU / MMLU-Pro:多领域知识测试。旗舰模型已普遍超过 90%,该 benchmark 趋于饱和
  • HumanEval:代码生成能力。顶级模型已达 95%+,区分度有限
  • SWE-bench Verified:更贴近真实软件工程任务,目前是评估代码能力的主要 benchmark
  • LMArena(原 Chatbot Arena):基于人类盲评的 Elo 排名,最能反映实际使用体验

但要注意:benchmark 分数不等于实际应用效果。 顶级模型在传统 benchmark 上分数接近,但在你的具体场景中可能表现差异很大。最可靠的方法是用你自己的数据和场景测试。

要点总结

  1. 没有"最好的"模型,只有"最适合的"模型。 根据任务、预算和约束选择。
  2. 从 API 开始,按需迁移。 不要一上来就部署开源模型,除非你有明确的理由。
  3. 关注性价比,而非纯能力。 Mistral 3 能达到 GPT-5.2 约 92% 的能力,但价格只有 15%。
  4. 保持接口抽象。 设计你的应用时,将模型调用抽象出来,方便后续切换。
  5. LLM 生态变化极快。 本文的数据可能很快过时——建立自己的评估体系比记住具体数字更重要。