什么是大语言模型

重新认识 LLM

在传统软件的世界里，一切都是确定性的：给定输入，程序产生确定的输出。函数调用有明确的返回值，逻辑分支有清晰的条件。

大语言模型（Large Language Model，LLM）打破了这个范式。它不是一组 if-else 规则，而是一个概率模型——给定一段文本，它预测接下来最可能出现的内容。

LLM 做的事情，本质上只有一件：

给定前面的所有文本，预测下一个 token 最可能是什么。

比如给它 "今天天气" ，它可能给出：

然后它选一个输出，把它拼到原文后面，再预测下一个 token。如此循环，直到生成完整的回答。

这就是所谓的自回归生成（autoregressive generation）——一个 token 一个 token 地往外"吐"。你在 ChatGPT 中看到的逐字出现的效果，就是这个过程的直观体现。

最重要的认知转变是：LLM 不"理解"你的意图，它在做统计意义上的模式匹配。 它的回答看起来像是在"思考"，但底层是在做概率计算。

"大语言模型"的"大"，指的是参数量。你可以把参数理解为模型内部的旋钮——参数越多，模型能捕捉的语言模式就越复杂。

参数量的爆发式增长带来了一个有趣的现象：涌现能力（emergent abilities）。当模型足够大时，会突然表现出小模型不具备的能力，比如逻辑推理、代码生成、多语言翻译。这有点像水加热到 100°C 时突然沸腾——量变引起质变。