不只是文本:其他类型的 AI 模型
从文本到一切
前面几节都在讲大语言模型——它们处理文本,输出文本。但 AI 的世界远不止文本。语音识别、图片生成、视频合成……这些能力背后是不同类型的模型,使用不同的架构和原理。
你不需要深入每种模型的数学细节,但了解它们的工作方式,能帮你判断什么场景该用什么工具。
语音 → 文本(ASR)
代表模型:OpenAI Whisper、Google USM
语音识别(Automatic Speech Recognition)将音频转为文字。现代 ASR 模型的架构其实很熟悉——Whisper 就是一个 Transformer 编码器-解码器,和 LLM 用的是同一套架构家族。
工作流程:
- 音频预处理:将音频切成 30 秒的片段,转换为频谱图(mel spectrogram)——一种将声音"画"成图的方式
- 编码器:读取频谱图,提取语音特征
- 解码器:根据特征逐步生成文字,一个 token 一个 token 地输出
Whisper 的突破在于规模:它用 68 万小时的多语言音频数据训练,覆盖 90+ 种语言,做到了接近人类水平的识别准确率。
Whisper 是开源的,可以本地部署。对于需要语音输入的应用,它是最常用的基础组件之一。
文本 → 语音(TTS)
代表模型:OpenAI TTS、ElevenLabs、Fish Speech、Spark-TTS
文本转语音(Text-to-Speech)将文字变成自然的人声。现代 TTS 模型已经能生成几乎无法与真人区分的语音。
核心思路有两种:
自回归方式:类似 LLM 生成文本,但生成的是"语音 token"。先将语音编码为离散 token 序列,再用语言模型逐个生成这些 token,最后解码为音频波形。
扩散方式:从随机噪声出发,逐步去噪生成语音。和图片生成用的是同一类方法(下面会详细讲)。
现代 TTS 的关键能力:
- 声音克隆:用几秒钟的音频样本就能复制一个人的声音
- 情感控制:根据文本内容自动调节语速、语调和情绪
- 多语言:同一个模型支持几十种语言
TTS 让应用能"说话"。配合 ASR,就构成了完整的语音对话能力。
文本 → 图片
代表模型:Stable Diffusion、DALL-E、Midjourney、Flux
文本生成图片使用的核心技术是扩散模型(Diffusion Model),它的工作原理和 LLM 的"预测下一个 token"完全不同。
扩散模型的直觉
想象你有一张清晰的照片,然后不断往上面加噪点,直到变成纯粹的随机噪声。扩散模型学习的是这个过程的逆向——从噪声中一步步恢复出清晰的图片。
生成过程:
- 从纯噪声开始:一张完全随机的"雪花屏"
- 逐步去噪:每一步都去掉一点噪声,图像变得更清晰
- 文本引导:在去噪的每一步,模型都参考你的文字描述来决定往什么方向去噪
这个过程通常在潜空间(latent space)中进行——不是直接操作像素,而是操作一个压缩后的表示,然后再解码成图片。这大幅降低了计算成本。
文本如何指导图像
模型需要"理解"你的文字描述。这里通常用 CLIP 这样的模型——它同时理解文本和图像,能判断一段文字和一张图片是否匹配。在生成过程中,CLIP 不断引导去噪方向,确保最终图片符合你的描述。
Stable Diffusion 是开源的,可以本地运行(需要 GPU)。API 方面,DALL-E 和 Midjourney 是最流行的选择。图像生成在产品设计、内容创作、原型制作中应用广泛。
文本 → 视频
代表模型:Sora(OpenAI)、Kling(快影)、Veo(Google)、可灵
视频生成可以理解为"图片生成 + 时间维度"。核心挑战是不仅要让每一帧好看,还要让帧与帧之间连贯。
工作原理
主流方案是将扩散模型和 Transformer 结合:
- 将视频分解为时空 patch:类似 LLM 将文本切成 token,视频模型将画面切成空间和时间上的小块
- 在潜空间中去噪:和图片生成类似,但同时处理空间(画面内容)和时间(帧间运动)
- 整体生成:模型一次性处理整个视频片段,而不是逐帧生成,这保证了画面的连贯性
当前状态
视频生成是最年轻也是进步最快的领域:
- Sora 2:可生成 10-25 秒视频,支持同步音频(对话、音效、环境音)
- Kling 3.0:支持多镜头序列(3-15 秒),角色跨镜头保持一致
- 生成质量已经可以用于短视频、广告素材、概念演示
但目前的局限也很明显:长视频仍然困难,物理规律有时不准确,生成成本较高。
语音 ↔ 语音(端到端对话)
代表模型:GPT-4o 语音模式、Qwen-Omni
最新的趋势是端到端语音对话——不再是"语音→文本→LLM→文本→语音"的管道式方案,而是模型直接听、直接说。
GPT-4o 的语音模式就是一个例子:它直接接收音频输入,直接生成音频输出,能感知语调、情绪,甚至支持打断。延迟低到可以进行自然的实时对话。
这个方向模糊了 ASR、LLM、TTS 的边界,是多模态融合的典型代表。
模型类型对比
| 类型 | 输入 | 输出 | 核心架构 | 典型延迟 |
|---|---|---|---|---|
| LLM | 文本 | 文本 | Transformer(自回归) | 毫秒级(流式) |
| ASR | 音频 | 文本 | Transformer(编码器-解码器) | 秒级 |
| TTS | 文本 | 音频 | 自回归 / 扩散 | 秒级 |
| 图片生成 | 文本 | 图片 | 扩散模型 + Transformer | 秒到分钟级 |
| 视频生成 | 文本 | 视频 | 扩散 Transformer | 分钟级 |
要点总结
- 不同任务用不同架构。LLM 的"预测下一个 token"不是万能的——图片和视频生成用的是完全不同的扩散模型。
- Transformer 无处不在。虽然架构不同,但 Transformer 作为核心组件出现在几乎所有类型的模型中。
- 管道 vs 端到端是一个重要选择。语音对话可以用 ASR + LLM + TTS 拼接,也可以用端到端模型。前者灵活可控,后者延迟更低、体验更自然。
- 扩散模型是生成式 AI 的另一个支柱。理解"从噪声中去噪"这个核心思想,就抓住了图片/视频/音频生成的本质。
- 多模态是趋势。越来越多的模型在打通文本、图片、音频、视频的边界。了解各类模型的原理,能帮你设计更强大的应用。