不只是文本:其他类型的 AI 模型

从文本到一切

前面几节都在讲大语言模型——它们处理文本,输出文本。但 AI 的世界远不止文本。语音识别、图片生成、视频合成……这些能力背后是不同类型的模型,使用不同的架构和原理。

你不需要深入每种模型的数学细节,但了解它们的工作方式,能帮你判断什么场景该用什么工具。

语音 → 文本(ASR)

代表模型:OpenAI Whisper、Google USM

语音识别(Automatic Speech Recognition)将音频转为文字。现代 ASR 模型的架构其实很熟悉——Whisper 就是一个 Transformer 编码器-解码器,和 LLM 用的是同一套架构家族。

工作流程:

  1. 音频预处理:将音频切成 30 秒的片段,转换为频谱图(mel spectrogram)——一种将声音"画"成图的方式
  2. 编码器:读取频谱图,提取语音特征
  3. 解码器:根据特征逐步生成文字,一个 token 一个 token 地输出

Whisper 的突破在于规模:它用 68 万小时的多语言音频数据训练,覆盖 90+ 种语言,做到了接近人类水平的识别准确率。

Whisper 是开源的,可以本地部署。对于需要语音输入的应用,它是最常用的基础组件之一。

文本 → 语音(TTS)

代表模型:OpenAI TTS、ElevenLabs、Fish Speech、Spark-TTS

文本转语音(Text-to-Speech)将文字变成自然的人声。现代 TTS 模型已经能生成几乎无法与真人区分的语音。

核心思路有两种:

自回归方式:类似 LLM 生成文本,但生成的是"语音 token"。先将语音编码为离散 token 序列,再用语言模型逐个生成这些 token,最后解码为音频波形。

扩散方式:从随机噪声出发,逐步去噪生成语音。和图片生成用的是同一类方法(下面会详细讲)。

现代 TTS 的关键能力:

  • 声音克隆:用几秒钟的音频样本就能复制一个人的声音
  • 情感控制:根据文本内容自动调节语速、语调和情绪
  • 多语言:同一个模型支持几十种语言

TTS 让应用能"说话"。配合 ASR,就构成了完整的语音对话能力。

文本 → 图片

代表模型:Stable Diffusion、DALL-E、Midjourney、Flux

文本生成图片使用的核心技术是扩散模型(Diffusion Model),它的工作原理和 LLM 的"预测下一个 token"完全不同。

扩散模型的直觉

想象你有一张清晰的照片,然后不断往上面加噪点,直到变成纯粹的随机噪声。扩散模型学习的是这个过程的逆向——从噪声中一步步恢复出清晰的图片。

生成过程:

  1. 从纯噪声开始:一张完全随机的"雪花屏"
  2. 逐步去噪:每一步都去掉一点噪声,图像变得更清晰
  3. 文本引导:在去噪的每一步,模型都参考你的文字描述来决定往什么方向去噪

这个过程通常在潜空间(latent space)中进行——不是直接操作像素,而是操作一个压缩后的表示,然后再解码成图片。这大幅降低了计算成本。

文本如何指导图像

模型需要"理解"你的文字描述。这里通常用 CLIP 这样的模型——它同时理解文本和图像,能判断一段文字和一张图片是否匹配。在生成过程中,CLIP 不断引导去噪方向,确保最终图片符合你的描述。

Stable Diffusion 是开源的,可以本地运行(需要 GPU)。API 方面,DALL-E 和 Midjourney 是最流行的选择。图像生成在产品设计、内容创作、原型制作中应用广泛。

文本 → 视频

代表模型:Sora(OpenAI)、Kling(快影)、Veo(Google)、可灵

视频生成可以理解为"图片生成 + 时间维度"。核心挑战是不仅要让每一帧好看,还要让帧与帧之间连贯。

工作原理

主流方案是将扩散模型和 Transformer 结合:

  1. 将视频分解为时空 patch:类似 LLM 将文本切成 token,视频模型将画面切成空间和时间上的小块
  2. 在潜空间中去噪:和图片生成类似,但同时处理空间(画面内容)和时间(帧间运动)
  3. 整体生成:模型一次性处理整个视频片段,而不是逐帧生成,这保证了画面的连贯性

当前状态

视频生成是最年轻也是进步最快的领域:

  • Sora 2:可生成 10-25 秒视频,支持同步音频(对话、音效、环境音)
  • Kling 3.0:支持多镜头序列(3-15 秒),角色跨镜头保持一致
  • 生成质量已经可以用于短视频、广告素材、概念演示

但目前的局限也很明显:长视频仍然困难,物理规律有时不准确,生成成本较高。

语音 ↔ 语音(端到端对话)

代表模型:GPT-4o 语音模式、Qwen-Omni

最新的趋势是端到端语音对话——不再是"语音→文本→LLM→文本→语音"的管道式方案,而是模型直接听、直接说。

GPT-4o 的语音模式就是一个例子:它直接接收音频输入,直接生成音频输出,能感知语调、情绪,甚至支持打断。延迟低到可以进行自然的实时对话。

这个方向模糊了 ASR、LLM、TTS 的边界,是多模态融合的典型代表。

模型类型对比

类型输入输出核心架构典型延迟
LLM文本文本Transformer(自回归)毫秒级(流式)
ASR音频文本Transformer(编码器-解码器)秒级
TTS文本音频自回归 / 扩散秒级
图片生成文本图片扩散模型 + Transformer秒到分钟级
视频生成文本视频扩散 Transformer分钟级

要点总结

  1. 不同任务用不同架构。LLM 的"预测下一个 token"不是万能的——图片和视频生成用的是完全不同的扩散模型。
  2. Transformer 无处不在。虽然架构不同,但 Transformer 作为核心组件出现在几乎所有类型的模型中。
  3. 管道 vs 端到端是一个重要选择。语音对话可以用 ASR + LLM + TTS 拼接,也可以用端到端模型。前者灵活可控,后者延迟更低、体验更自然。
  4. 扩散模型是生成式 AI 的另一个支柱。理解"从噪声中去噪"这个核心思想,就抓住了图片/视频/音频生成的本质。
  5. 多模态是趋势。越来越多的模型在打通文本、图片、音频、视频的边界。了解各类模型的原理,能帮你设计更强大的应用。