不只是文本：其他类型的 AI 模型

从文本到一切

前面几节都在讲大语言模型——它们处理文本，输出文本。但 AI 的世界远不止文本。语音识别、图片生成、视频合成……这些能力背后是不同类型的模型，使用不同的架构和原理。

你不需要深入每种模型的数学细节，但了解它们的工作方式，能帮你判断什么场景该用什么工具。

语音 → 文本（ASR）

代表模型：OpenAI Whisper、Google USM

语音识别（Automatic Speech Recognition）将音频转为文字。现代 ASR 模型的架构其实很熟悉——Whisper 就是一个 Transformer 编码器-解码器，和 LLM 用的是同一套架构家族。

工作流程：

音频预处理：将音频切成 30 秒的片段，转换为频谱图（mel spectrogram）——一种将声音"画"成图的方式
编码器：读取频谱图，提取语音特征
解码器：根据特征逐步生成文字，一个 token 一个 token 地输出

Whisper 的突破在于规模：它用 68 万小时的多语言音频数据训练，覆盖 90+ 种语言，做到了接近人类水平的识别准确率。

Whisper 是开源的，可以本地部署。对于需要语音输入的应用，它是最常用的基础组件之一。

文本 → 语音（TTS）

代表模型：OpenAI TTS、ElevenLabs、Fish Speech、Spark-TTS

文本转语音（Text-to-Speech）将文字变成自然的人声。现代 TTS 模型已经能生成几乎无法与真人区分的语音。

核心思路有两种：

自回归方式：类似 LLM 生成文本，但生成的是"语音 token"。先将语音编码为离散 token 序列，再用语言模型逐个生成这些 token，最后解码为音频波形。

扩散方式：从随机噪声出发，逐步去噪生成语音。和图片生成用的是同一类方法（下面会详细讲）。

现代 TTS 的关键能力：

声音克隆：用几秒钟的音频样本就能复制一个人的声音
情感控制：根据文本内容自动调节语速、语调和情绪
多语言：同一个模型支持几十种语言

TTS 让应用能"说话"。配合 ASR，就构成了完整的语音对话能力。

文本 → 图片

代表模型：Stable Diffusion、DALL-E、Midjourney、Flux

文本生成图片使用的核心技术是扩散模型（Diffusion Model），它的工作原理和 LLM 的"预测下一个 token"完全不同。

扩散模型的直觉

想象你有一张清晰的照片，然后不断往上面加噪点，直到变成纯粹的随机噪声。扩散模型学习的是这个过程的逆向——从噪声中一步步恢复出清晰的图片。

生成过程：

从纯噪声开始：一张完全随机的"雪花屏"
逐步去噪：每一步都去掉一点噪声，图像变得更清晰
文本引导：在去噪的每一步，模型都参考你的文字描述来决定往什么方向去噪

这个过程通常在潜空间（latent space）中进行——不是直接操作像素，而是操作一个压缩后的表示，然后再解码成图片。这大幅降低了计算成本。

文本如何指导图像

模型需要"理解"你的文字描述。这里通常用 CLIP 这样的模型——它同时理解文本和图像，能判断一段文字和一张图片是否匹配。在生成过程中，CLIP 不断引导去噪方向，确保最终图片符合你的描述。

Stable Diffusion 是开源的，可以本地运行（需要 GPU）。API 方面，DALL-E 和 Midjourney 是最流行的选择。图像生成在产品设计、内容创作、原型制作中应用广泛。

文本 → 视频

代表模型：Sora（OpenAI）、Kling（快影）、Veo（Google）、可灵

视频生成可以理解为"图片生成 + 时间维度"。核心挑战是不仅要让每一帧好看，还要让帧与帧之间连贯。

工作原理

主流方案是将扩散模型和 Transformer 结合：

将视频分解为时空 patch：类似 LLM 将文本切成 token，视频模型将画面切成空间和时间上的小块
在潜空间中去噪：和图片生成类似，但同时处理空间（画面内容）和时间（帧间运动）
整体生成：模型一次性处理整个视频片段，而不是逐帧生成，这保证了画面的连贯性

当前状态

视频生成是最年轻也是进步最快的领域：

Sora 2：可生成 10-25 秒视频，支持同步音频（对话、音效、环境音）
Kling 3.0：支持多镜头序列（3-15 秒），角色跨镜头保持一致
生成质量已经可以用于短视频、广告素材、概念演示

但目前的局限也很明显：长视频仍然困难，物理规律有时不准确，生成成本较高。

语音 ↔ 语音（端到端对话）

代表模型：GPT-4o 语音模式、Qwen-Omni

最新的趋势是端到端语音对话——不再是"语音→文本→LLM→文本→语音"的管道式方案，而是模型直接听、直接说。

GPT-4o 的语音模式就是一个例子：它直接接收音频输入，直接生成音频输出，能感知语调、情绪，甚至支持打断。延迟低到可以进行自然的实时对话。

这个方向模糊了 ASR、LLM、TTS 的边界，是多模态融合的典型代表。

模型类型对比

类型	输入	输出	核心架构	典型延迟
LLM	文本	文本	Transformer（自回归）	毫秒级（流式）
ASR	音频	文本	Transformer（编码器-解码器）	秒级
TTS	文本	音频	自回归 / 扩散	秒级
图片生成	文本	图片	扩散模型 + Transformer	秒到分钟级
视频生成	文本	视频	扩散 Transformer	分钟级

要点总结

不同任务用不同架构。LLM 的"预测下一个 token"不是万能的——图片和视频生成用的是完全不同的扩散模型。
Transformer 无处不在。虽然架构不同，但 Transformer 作为核心组件出现在几乎所有类型的模型中。
管道 vs 端到端是一个重要选择。语音对话可以用 ASR + LLM + TTS 拼接，也可以用端到端模型。前者灵活可控，后者延迟更低、体验更自然。
扩散模型是生成式 AI 的另一个支柱。理解"从噪声中去噪"这个核心思想，就抓住了图片/视频/音频生成的本质。
多模态是趋势。越来越多的模型在打通文本、图片、音频、视频的边界。了解各类模型的原理，能帮你设计更强大的应用。