Token 与文本表示

为什么需要 Token

计算机不能直接处理文字。你写的每一段文本，在送进模型之前，都需要被切分成一个个小单元——这些小单元就叫 token。

Token 是 LLM 世界的基本货币单位。模型的输入按 token 计费，输出按 token 计费，上下文窗口按 token 计算。理解 token，是理解 LLM 的起点。

你可能以为模型按"字"或"词"处理文本。实际上，大多数现代模型使用一种叫 BPE（Byte Pair Encoding）的方法，切分出来的结果介于字符和单词之间。

一些例子（以 GPT 系列的 tokenizer 为例）：

关键观察：

这解释了一些实际问题：为什么中文的 token 消耗比英文高？为什么模型有时在拼写或字数统计上犯错？因为它"看到"的不是字符，而是 token。

切完 token 之后，每个 token 需要变成一组数字，模型才能处理。这个转换叫做 Embedding（嵌入）。

你可以把 Embedding 理解为一个语义坐标系：

这个坐标不是人工设计的，是模型在训练过程中自己学出来的。一个典型的 Embedding 维度是几百到几千——也就是说，每个 token 用一个几百到几千维的向量来表示。

Embedding 不只是模型内部的技术细节，它在实际应用中非常有用：

你在后续的 RAG 章节会深入接触这些应用。

每个模型都有一个 上下文窗口（context window），就是它一次能处理的最大 token 数。

上下文窗口 = 输入 token + 输出 token。如果你的 prompt 占了太多 token，留给回答的空间就少了。

需要关注的实际问题：