模型生态与选型

模型的世界

LLM 领域的变化速度极快——每隔几个月就有新的突破，API 价格在过去一年中下降了约 80%，开源模型已经逼近甚至追平闭源模型的能力。

你不需要跟踪每个模型的发布，但需要理解几个核心维度来做技术选型。

闭源 vs 开源

闭源模型

通过 API 使用，你看不到模型权重，按 token 付费。

模型	提供商	特点
GPT-5 系列	OpenAI	400K 上下文窗口，数学和代码能力极强，生态最成熟
Claude 4.5 系列	Anthropic	代码生成市占率领先，长上下文处理优秀，Agent 能力突出
Gemini 3	Google	百万级上下文窗口，多模态能力强，Deep Think 推理模式
Grok 4	xAI	纯推理能力领先，LMArena 排名第一

优势：

开箱即用，无需基础设施
通常代表最高水平的能力
持续更新，不需要你维护

劣势：

数据发送给第三方（隐私考量）
受限于 API 的能力和限制
成本随用量增长
供应商锁定风险

开源模型

你可以下载模型权重，在自己的机器上运行。

模型	来源	特点
Llama 4	Meta	10M token 上下文窗口，Scout/Maverick 等多个变体，社区生态最丰富
DeepSeek V3.2 / R1	DeepSeek	685B 参数，推理能力追平闭源模型，性价比极高
Qwen 3	阿里	多语言能力突出，0.5B 到 110B 多种尺寸，含视觉和全模态变体
Kimi K2.5	月之暗面	1T 参数（32B 激活），Agent Swarm 协调百个智能体，视觉能力原生集成
MiniMax M2.5	MiniMax	10B 激活参数，SWE-bench 80.2%，代码和 Agent 任务性价比极高
GLM-5	智谱 AI	745B 参数（44B 激活），MIT 开源，全栈国产芯片（华为昇腾）训练
Step 3	阶跃星辰	316B 参数（38B 激活），推理效率达 DeepSeek-R1 的 300%，多模态
Mistral 3	Mistral AI	Small 3（24B）Apache 2.0 开源，速度快效率高

优势：

数据不离开你的服务器
可以微调（Fine-tuning）
无 API 调用费用（但有基础设施成本）
完全控制部署和运行方式

劣势：

需要 GPU 资源
需要自己处理部署、运维和更新

值得注意的是，开源模型在 2025 年取得了巨大进步。DeepSeek R1 以极低的成本实现了接近 ChatGPT 的推理能力，被称为"DeepSeek 时刻"。Llama 4 在 MMLU-Pro 上达到 85-86%，证明开源模型已经能匹配闭源旗舰的性能。

中国 AI 生态

中国团队在开源模型领域的贡献尤为突出，已形成独特的竞争格局：

DeepSeek 和 月之暗面（Moonshot AI） 在全球 Token 消耗中合计占比超过 23%，成为开源生态的重要力量
智谱 AI 的 GLM-5 证明了完全基于国产芯片训练前沿模型的可行性，对于关注供应链自主的场景有特殊意义
MiniMax 的 M2.5 以极小的激活参数（10B）在 SWE-bench 上达到 80.2%，是"小模型大能力"路线的代表
阶跃星辰 的 Step 3 在多模态方面布局全面，同时覆盖文本、视觉和语音
阿里 Qwen 系列从 0.5B 到 110B 全尺寸覆盖，是目前中文能力最全面的开源选择

对于中文场景或需要在国内部署的应用，这些模型往往是比海外模型更优的选择。

模型大小与能力

模型大小通常用参数量表示：

1B - 3B（小型）：简单任务、分类、摘要。可以在 CPU 或低端 GPU 上运行
7B - 24B（中型）：大多数常见任务的甜蜜点。一张消费级 GPU 就能跑
30B - 70B（大型）：接近闭源模型的能力，需要多张 GPU 或量化
70B+（超大型）：需要专业硬件或云服务

一个重要的规律：模型不是越大越好，而是要匹配你的任务。 一个经过良好微调的 7B 模型，在特定任务上可能超过通用的 70B 模型。

上下文窗口的跃进

上下文窗口是近期最显著的进步之一：

GPT-5 系列：400K token
Gemini 3：百万级 token
Llama 4 Scout：10M token（约 7500 页文本）

这意味着你可以把整个代码仓库、整套文档、甚至整本书放进一次对话中。这根本性地改变了很多应用场景——有些以前必须用 RAG 的场景，现在可以直接放进上下文。

但更长的上下文也意味着更高的成本和延迟。在实际应用中，仍然需要权衡。

多模态

最新的模型不只能处理文本：

文本 + 图片：GPT-5、Claude、Gemini、Qwen-VL 都能理解图片内容
全模态：Qwen-Omni 支持文本、图片、音频的输入输出
文本 → 图片：DALL-E、Midjourney、Stable Diffusion、Flux
文本 → 代码 → 执行：代码解释器功能

多模态意味着 AI 的输入输出不再局限于文本，应用场景大幅扩展。

API 定价

API 按 token 计费，输入和输出价格不同（每百万 token 计）：

模型	输入	输出	定位
GPT-5.2	$1.75	$14.00	旗舰
Claude Opus 4.5	$5.00	$25.00	旗舰
Gemini 3 Pro	$2.00	$12.00	旗舰
Gemini 3 Flash	$0.50	$3.00	高性价比
DeepSeek R1	$0.55	—	极致性价比

价格区间跨度极大——从最便宜的 $0.02/M 到最贵的近 $100/M。大多数生产应用使用 $0.10-$2.00/M 区间的模型。

如何选择模型

一个实用的选型框架：

1. 先明确约束条件

数据隐私：敏感数据能否发送给第三方？不能 → 开源/本地部署
延迟要求：需要实时响应？→ 小模型或 Flash/Haiku 级别
预算：每月预期调用量和费用？

2. 从 API 开始原型验证

先用 Claude 或 GPT-5 验证你的想法是否可行
这是最快的方式，不用管基础设施

3. 根据需要降级或迁移

如果 API 成本太高 → 试试 Flash/Haiku 级别或开源模型
如果需要数据隐私 → 迁移到本地部署
如果需要特定能力 → 考虑微调

4. 持续评估

LLM 领域变化极快，几个月前的最佳选择可能已经过时
建立简单的评估流程，定期测试新模型

Benchmark 与评估

你会看到各种模型排行榜和 benchmark 分数。几个常见的：

MMLU / MMLU-Pro：多领域知识测试。旗舰模型已普遍超过 90%，该 benchmark 趋于饱和
HumanEval：代码生成能力。顶级模型已达 95%+，区分度有限
SWE-bench Verified：更贴近真实软件工程任务，目前是评估代码能力的主要 benchmark
LMArena（原 Chatbot Arena）：基于人类盲评的 Elo 排名，最能反映实际使用体验

但要注意：benchmark 分数不等于实际应用效果。 顶级模型在传统 benchmark 上分数接近，但在你的具体场景中可能表现差异很大。最可靠的方法是用你自己的数据和场景测试。

要点总结

没有"最好的"模型，只有"最适合的"模型。 根据任务、预算和约束选择。
从 API 开始，按需迁移。 不要一上来就部署开源模型，除非你有明确的理由。
关注性价比，而非纯能力。 Mistral 3 能达到 GPT-5.2 约 92% 的能力，但价格只有 15%。
保持接口抽象。 设计你的应用时，将模型调用抽象出来，方便后续切换。
LLM 生态变化极快。 本文的数据可能很快过时——建立自己的评估体系比记住具体数字更重要。