音乐生成：当 Transformer 学会作曲

简介：音乐生成的独特挑战

在上一篇文章中，我们看到 Whisper 和 VALL-E 如何用 Transformer 处理语音。但音乐生成是一个截然不同的挑战：

这些特性使得直接将语音模型的方法迁移到音乐生成并不可行。本文将探讨 MusicGen、Jukebox、MusicLM 等模型如何应对这些挑战。

RVQ 多码本层级：逐层捕获更精细的细节

音乐信号的复杂性直接影响了建模策略：频率范围更宽意味着需要更精细的频谱表示；时长更长意味着序列长度显著增加；多声源意味着模型需要捕获乐器间的和声关系。这些约束推动了专门的架构设计。

MusicGen（Meta, 2023）是目前最具影响力的开源音乐生成模型。它的核心创新是：用单个 Transformer 和一种巧妙的 Delay Pattern 解决多码本并行生成问题。

MusicGen Delay Pattern：多码本交错生成

音乐通过 EnCodec 编码后产生多层码本（通常 4 层）。传统做法（“扁平模式”）需要在每个时间步依次生成所有层的 token，需要 $K$ 个独立模型或 $K$ 次前向传播。

MusicGen 的 Delay Pattern 将每层码本偏移一个时间步：第 1 层从 $t=0$ 开始，第 2 层从 $t=1$ 开始，以此类推。这样所有层可以在同一个 Transformer 中交错处理，形成对角线填充模式。

Delay Pattern 的精髓在于：在任意时间步 $t$ ，模型需要预测的不同码本 token 来自不同的原始时间位置，这避免了层间的因果依赖冲突，使单个自回归模型能同时处理所有码本层。

MusicGen 的完整管线包含四个阶段：文本/旋律条件输入、T5 编码器处理文本、Transformer 解码器生成交错的 codec tokens、EnCodec 解码器将 tokens 还原为波形。

输入条件

MusicGen 支持三种条件输入模式：

Jukebox（OpenAI, 2020）是音乐生成的先驱工作。它采用了完全不同的方法：

Jukebox 能生成带歌词的完整歌曲，质量令人印象深刻。但它有致命弱点：生成极慢——生成一分钟音频需要约 9 小时的计算。这是因为原始音频的序列长度巨大（44100 × 60 ≈ 2.6M samples/分钟），即使经过 VQ-VAE 压缩后仍然很长。

MusicLM 引入了 MuLan——一个音乐-文本联合嵌入模型（类似 CLIP 之于图像-文本）。它的层级生成策略：

MusicLM 展示了文本到音乐对齐的潜力，但因训练数据版权问题未开源。

Stable Audio 走了一条截然不同的路线——潜在扩散模型（Latent Diffusion）：

这代表了音乐生成从自回归模型向扩散模型的范式迁移——与图像生成领域的趋势一致。

从 Jukebox 的暴力建模到 MusicGen 的优雅设计，再到 Stable Audio 的扩散范式，音乐生成领域经历了快速演进。两条技术路线（自回归 vs 扩散）各有优势：自回归模型擅长保持时间连贯性，扩散模型在音质和多样性上表现更好。

尽管进展迅速，音乐生成仍面临关键挑战：

核心启示：