学习算子中的低秩结构：为什么神经网络权重是低秩的？

Part 2 用了九篇文章分析给定算子——转移矩阵 $P$ 、图 Laplacian $L$ 、Kernel 矩阵 $K$ ——它们的结构由物理系统、图拓扑或核函数事先确定。数学家和工程师根据领域知识设计这些矩阵，然后用 Part 1 的工具（特征分解、SVD）分析它们的行为。

现在，矩阵的来源发生了根本转变。

Part 1 里矩阵装数据，我们拆开它看结构。Part 2 里矩阵编码给定过程，我们分析它的谱。Part 3 里矩阵是训练出来的——结构不是手工设计的，而是数据塑造的。

一个深度网络的权重矩阵 $W \in \mathbb{R}^{m \times n}$ 不像马尔可夫转移矩阵那样有”行和为 1”的精确约束，也不像图 Laplacian 那样有”对称半正定”的保证。 $W$ 是从随机初始化出发，经过数十亿次梯度更新后停在某处的结果。它的结构完全由训练数据和优化动力学决定。

然而，一个反复被验证的经验事实是：

训练好的权重矩阵经验上接近低秩——它的大部分”能量”集中在少数几个奇异值上。

这个观察不是偶然的，它背后有深刻的数学机理，并且催生了三个影响深远的应用方向。本文是 Part 3 “汇——学习算子”的路线图，我们将建立 Part 3 的概念框架、回答”为什么低秩”这个核心问题，并预览三个汇聚方向。

从”给定”到”学习”：核心转变

让我们把三类矩阵的区别对比到最清楚。

给定算子的结构是问题赋予的

在 Part 2 中，算子矩阵的结构由问题本身决定：

马尔可夫链的转移矩阵 $P$ （Art. 15 马尔可夫链）： $P_{ij} \geq 0$ ， $\sum_j P_{ij} = 1$ ——这些约束来自概率的公理
图 Laplacian $L = D - A_G$ （Art. 21 图 Laplacian）：对称、半正定、行和为 0——这些性质由图的结构编码
Kernel 矩阵 $K$ （Art. 20 Kernel）：对称、正半定——Mercer 定理保证

这些约束是先验的：在看到任何数据之前，我们就知道矩阵必须满足什么条件。数学定理（Perron-Frobenius、谱定理、Mercer 定理）从这些约束出发，给出强有力的结论——稳态分布的存在性、特征值的符号、收敛速率等等。

学习算子的结构是数据塑造的

一个神经网络的权重矩阵 $W$ （这里 $W$ 表示网络某一层的权重矩阵，如 Transformer 中 attention 层的 $W_Q, W_K, W_V \in \mathbb{R}^{d \times d_k}$ ，或 MLP 层的 $W_{\text{fc}} \in \mathbb{R}^{d \times d_{\text{ff}}}$ ）没有这些先验约束。 $W$ 的值从随机高斯分布初始化，然后通过梯度下降演化：

$W_{t+1} = W_t - \eta \nabla_W \mathcal{L}(W_t)$

其中 $\eta$ 是学习率， $\mathcal{L}$ 是损失函数， $\nabla_W \mathcal{L}$ 是损失对权重矩阵 $W$ 的梯度（参见 Art. 5 矩阵微积分）。

训练结束后， $W$ 会呈现出什么结构？这不是定理能提前告诉我们的——它取决于数据分布、网络架构、优化算法和训练时长。但大量经验观察表明：

训练好的 $W$ 的奇异值呈现快速衰减——前几个奇异值远大于其余的。

用 Art. 3 SVD 的语言：如果对 $W$ 做奇异值分解 $W = U\Sigma V^T$ ，其中 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r \geq 0$ 是奇异值（ $r = \text{rank}(W)$ ），那么前 $k$ 个奇异值就集中了 $W$ 的大部分 Frobenius 范数能量：

$\frac{\sum_{i=1}^{k}\sigma_i^2}{\sum_{i=1}^{r}\sigma_i^2} \approx 0.90 \quad \text{即使 } k \ll r$

这意味着 $W$ 可以被低秩矩阵很好地近似——换言之， $W$ 经验上接近低秩（empirically approximately low-rank）。

三类矩阵的结构来源对比

	Part 1 数据容器	Part 2 给定算子	Part 3 学习算子
结构来源	数据本身的统计规律	问题的物理/数学约束	训练数据 + 优化动力学
先验约束	无（或弱假设如低秩）	强（行和=1、对称半正定等）	无
典型性质	低秩（SVD 衰减快）	特殊谱结构（如谱隙）	经验低秩
分析工具	SVD, PCA, NMF…	特征分解 + 专用定理	SVD + 内禀维度理论
核心问题	矩阵里藏着什么结构？	算子的行为是什么？	学到的结构能怎样利用？

Part 2 给定算子 vs Part 3 学习算子

矩阵的来源不同，但分析工具（SVD, 特征分解）相同

注意一个关键的回环：Part 1 中，数据矩阵的低秩性源于数据的内在低维结构（如用户偏好由少数潜在因素驱动）。Part 3 中，权重矩阵的低秩性有不同的成因——它来自优化动力学和目标函数的几何。但利用低秩性的工具是相同的：SVD、低秩近似、矩阵范数。Part 1 建立的工具链在 Part 3 中完整复活。

经验证据：预训练权重矩阵的奇异值谱

在给出理论解释之前，先看经验证据。对预训练语言模型（如 GPT-2、BERT）的各层权重矩阵做 SVD，奇异值的分布呈现出高度一致的模式：

Attention 投影层（ $W_Q, W_K, W_V, W_O$ ）：奇异值呈幂律衰减（power-law decay）， $\sigma_i \propto i^{-\alpha}$ ，其中 $\alpha > 1$ 。这意味着前 10-20 个奇异值就捕获了大部分能量。
MLP/FFN 层：衰减略慢（接近指数衰减），但仍然远快于随机矩阵。
随机高斯矩阵（对比基线）：奇异值分布遵循 Marchenko-Pastur 定律，谱非常平坦——没有低秩结构。

Martin 和 Mahoney (2019) 对大量预训练模型的权重矩阵做了系统的谱分析，发现训练良好的深度网络的权重矩阵普遍展现出重尾（heavy-tailed）的奇异值分布，即少数大奇异值主导，大量小奇异值构成长尾。他们将这种现象称为”heavy-tailed self-regularization”——训练过程本身就产生了一种隐式的正则化效果，使权重矩阵趋向低秩。

下面的交互组件用合成数据模拟了三种典型的奇异值衰减曲线。拖动按钮选择不同的权重类型进行对比，勾选”累积能量曲线”可以看到前 $k$ 个奇异值包含了多少比例的总能量。

显示累积能量曲线

Attention 投影层 快速幂律衰减 + 长尾 — 典型的低秩结构

MLP / FFN 层 指数衰减 — 中等低秩性

随机高斯矩阵（基线） 平坦谱 — 无低秩结构（Marchenko–Pastur 分布）

读图要点：

蓝色（Attention 投影层）：奇异值快速衰减后进入长尾。在累积能量视图中，仅前 ~10 个奇异值就捕获了 90% 的能量——这就是”经验低秩性”的直观含义。
绿色（MLP/FFN 层）：衰减稍慢，但 50 个左右的奇异值就能覆盖 95% 以上的能量。
灰色（随机基线）：奇异值几乎没有衰减，能量均匀分布在所有方向——没有低秩结构可以利用。

这个对比揭示了一个关键洞察：训练过程将权重矩阵从随机初始化（平坦谱）演化为高度结构化的低秩矩阵（快速衰减谱）。训练不是在权重空间中随机游走，而是系统地将信息压缩到少数重要方向上。

为什么低秩？三个层次的解释

经验低秩性不是偶然的。我们可以从三个层次给出解释。

层次 1：内禀维度（Intrinsic Dimensionality）

Li et al. (2018) 提出了一个优美的实验框架来量化神经网络优化问题的”内禀维度”（intrinsic dimension）。

核心思想：假设网络有 $D$ 个参数（即 $\theta \in \mathbb{R}^D$ ）。我们不在完整的 $D$ 维参数空间中优化，而是随机选取一个 $d$ 维子空间（ $d \ll D$ ），在这个子空间中做优化：

$\theta = \theta_0 + P\mathbf{z}$

其中 $\theta_0 \in \mathbb{R}^D$ 是固定的初始参数， $P \in \mathbb{R}^{D \times d}$ 是一个随机投影矩阵（固定不变）， $\mathbf{z} \in \mathbb{R}^d$ 是我们实际优化的低维参数。

关键问题： $d$ 需要多大，才能在子空间优化中达到与完整 $D$ 维优化相当的性能？

实验结果令人震惊：

一个有 $D \approx 10^5$ 个参数的 MNIST 网络，内禀维度仅约 $d \approx 750$ ——不到总参数量的 1%
更大的模型（ $D$ 更大），其内禀维度 $d$ 并不按比例增长——大模型的参数冗余度更高

这意味着：损失函数的”有效”变化方向远少于参数空间的维度。优化景观（objective landscape）在绝大多数方向上是平坦的，只有少数方向才对损失有显著影响。

与 SVD 的联系：内禀维度理论直接关联到权重矩阵的低秩性。如果整个网络的有效参数维度为 $d \ll D$ ，那么每一层的权重矩阵 $W \in \mathbb{R}^{m \times n}$ 的有效自由度也远小于 $mn$ 。这意味着 $W$ 的奇异值必然快速衰减——大部分奇异值对应的方向对最终目标没有贡献。

层次 2：梯度的低秩性

Gur-Ari et al. (2018) 从优化动力学的角度给出了互补的解释。他们发现：

梯度下降的更新方向在训练早期之后，收敛到 Hessian 矩阵的前几个主特征向量张成的小子空间中。

具体来说，考虑损失函数 $\mathcal{L}(\theta)$ 的 Hessian 矩阵 $H = \nabla^2 \mathcal{L}$ （Art. 5 矩阵微积分中的二阶导数矩阵）。Hessian 的特征分解 $H = Q\Lambda Q^T$ 揭示了损失曲面的曲率结构。Gur-Ari et al. 发现，经过初始的短暂探索期后，梯度向量 $\nabla\mathcal{L}$ 几乎完全落在 $H$ 的前 $k$ 个特征向量张成的子空间中（ $k$ 通常与分类任务的类别数同阶）。

这意味着梯度更新 $\Delta W = -\eta \nabla_W \mathcal{L}$ 本身就是低秩的——它只在少数方向上有实质性的更新。长时间的训练把这些低秩的增量累积起来，最终的权重矩阵自然呈现低秩结构。

层次 3：预训练到微调的维度压缩

Aghajanyan et al. (2021, ACL) 把内禀维度理论从”从头训练”推进到”预训练 + 微调”范式。他们发现：

预训练模型在微调阶段的内禀维度随预训练质量的提高而降低。

换言之，预训练越充分，微调时需要调整的”有效方向”就越少。直觉上这很合理：一个充分预训练的模型已经学会了通用的语言表示，微调只需要在这个表示上做”小幅调整”——而这些调整集中在少数几个方向上。

他们在 RoBERTa 模型上的实验显示，即使只在一个 200 维的子空间中微调（完整参数空间为数百万维），模型在 MRPC 任务上仍能达到满参数微调 90% 的性能。

这个结论直接催生了 LoRA（Art. 24 LoRA）：既然微调的有效维度如此之低，为什么不直接把增量参数化为低秩矩阵呢？

三个汇聚方向：Part 3 路线图

经验低秩性不是一个孤立的观察——它是三个重要应用方向的共同理论基础。Part 3 的三篇应用文章将分别深入这三个方向。

Part 3 三个汇聚方向：同一原理，不同切入点

方向 1：压缩微调 — LoRA（Art. 24）

核心思路：既然微调只改变权重的一个低维子空间，不如直接把权重增量参数化为低秩矩阵。

LoRA（Low-Rank Adaptation, Hu et al., 2022）将权重更新 $\Delta W$ 分解为两个小矩阵的乘积：

$\Delta W = BA, \quad B \in \mathbb{R}^{m \times r}, \quad A \in \mathbb{R}^{r \times n}$

其中 $r \ll \min(m, n)$ 是秩。训练时固定原始预训练权重 $W_0$ ，只更新 $B$ 和 $A$ ：

$W = W_0 + BA$

参数量从 $mn$ 降到 $r(m + n)$ ——当 $m = n = 4096$ （GPT-3 规模）， $r = 8$ 时，参数减少约 250 倍。

与本篇的关系：LoRA 的成功直接建立在内禀维度理论之上。如果微调的有效维度确实很低，那么 $r$ 取一个小值就足以捕获所有有意义的更新方向。LoRA 将”经验低秩性”转化为”参数效率”。

方向 2：加速推理 — Efficient Attention（Art. 25）

核心思路：标准 Transformer 的 self-attention 计算一个 $n \times n$ 的注意力矩阵（ $n$ 是序列长度），这个矩阵在实践中是近似低秩的——可以用低秩分解近似，避免 $O(n^2)$ 的计算和存储。

标准 attention 的核心计算是：

$\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中 $QK^T \in \mathbb{R}^{n \times n}$ 是注意力得分矩阵。Choromanski et al. (2021) 的 Performers 提出用随机特征映射 $\phi$ 近似 softmax kernel：

$\text{softmax}(QK^T / \sqrt{d_k}) \approx \phi(Q)\phi(K)^T$

其中 $\phi: \mathbb{R}^{d_k} \to \mathbb{R}^r$ （ $r \ll n$ ），这样注意力矩阵被分解为两个 $n \times r$ 矩阵的乘积——从 $O(n^2)$ 降到 $O(nr)$ 。

与本篇的关系：注意力矩阵的近似低秩性是 efficient attention 方法的理论基础。如果注意力分数确实集中在少数”模式”上（即矩阵的有效秩远小于 $n$ ），那么低秩近似的误差就很小。

方向 3：架构设计 — SSM / Mamba（Art. 26）

核心思路：将连续时间状态空间模型（SSM）的状态矩阵 $A$ （Art. 17 Kalman 中的给定矩阵）变成可学习参数，并约束为对角矩阵以实现高效计算。

在 Art. 17 中，状态空间模型的连续形式是：

$\dot{\mathbf{x}}(t) = A\mathbf{x}(t) + B\mathbf{u}(t), \quad \mathbf{y}(t) = C\mathbf{x}(t) + D\mathbf{u}(t)$

其中 $A \in \mathbb{R}^{N \times N}$ 是状态矩阵。在 Kalman 滤波中， $A$ 由物理系统确定（Part 2 的”给定算子”）。但在 Mamba (Gu & Dao, 2023) 中， $A$ 是可学习的（Part 3 的”学习算子”），且被约束为对角矩阵：

$A = \text{diag}(a_1, a_2, \ldots, a_N)$

对角化的威力在于：矩阵指数 $e^{A\Delta}$ 变成逐元素标量运算 $\text{diag}(e^{a_1\Delta}, \ldots, e^{a_N\Delta})$ ，状态更新从 $O(N^2)$ 矩阵乘法简化为 $O(N)$ 逐元素乘法。这正是 Art. 2 特征分解中”对角化简化一切”这个洞察的极致应用。

与本篇的关系：SSM/Mamba 是”利用低秩/对角结构设计高效架构”的范例。它不是事后发现低秩性并加以利用（如 LoRA），而是在架构设计阶段就主动施加结构约束，换取计算效率。

三个方向的统一视角

方向	利用什么	从哪里切入	效果
LoRA（Art. 24）	微调增量 $\Delta W$ 的低秩性	训练阶段	减少可训练参数
Efficient Attention（Art. 25）	注意力矩阵的近似低秩性	推理阶段	降低计算复杂度
SSM/Mamba（Art. 26）	状态矩阵的对角结构	架构设计阶段	线性时间序列建模

三个方向切入点不同（训练、推理、架构），但底层原理统一：大型神经网络中的关键矩阵具有远低于其维度的有效秩，我们可以利用这种结构节省计算。Part 1 的 SVD 和特征分解提供了发现和利用这种结构的数学工具。

Part 1 → Part 2 → Part 3：工具链的完整回环

现在我们可以看到整条学习路径的弧线是如何闭合的。

Part 1 建立工具

Art. 2 特征分解：对角化 $A = Q\Lambda Q^{-1}$ ——在特征基下，线性变换退化为逐方向缩放。

Art. 3 SVD：推广到任意矩阵 $A = U\Sigma V^T$ ，Eckart-Young 定理保证截断 SVD 是最佳低秩近似。

Art. 4 范数：Frobenius 范数 $\|A\|_F = \sqrt{\sum_i \sigma_i^2}$ 度量近似质量，nuclear 范数 $\|A\|_* = \sum_i \sigma_i$ 是秩的凸松弛。

Part 2 展示工具的力量

特征分解分析马尔可夫链的稳态（Art. 15 马尔可夫链），推导 GNN 消息传递的物理含义（Art. 22 图扩散与 GNN），解释 Kalman 滤波中矩阵指数的计算（Art. 17 连续系统与 Kalman）。

Part 3 用工具改造学习到的计算

LoRA 用 SVD 的低秩近似思想参数化权重增量
Efficient Attention 用低秩分解近似注意力矩阵
SSM/Mamba 用对角化（特征分解的极致形式）实现线性时间状态更新

弧线闭合：Part 1 的”拆”（分解矩阵发现结构）→ Part 2 的”传”（分析算子行为）→ Part 3 的”汇”（利用学到的结构优化计算）。同一套数学工具——特征分解和 SVD——贯穿始终。

总结与展望

本文建立了 Part 3 的概念框架：

核心转变：矩阵从”给定”变为”学习”——结构不再由问题约束先验确定，而是由训练数据和优化动力学塑造
核心现象：训练好的权重矩阵经验上接近低秩，奇异值呈快速衰减（幂律或指数型）
三层解释：内禀维度理论（Li et al., 2018）揭示优化景观的低维本质；梯度低秩性（Gur-Ari et al., 2018）从动力学角度解释低秩结构的形成；预训练-微调维度压缩（Aghajanyan et al., 2021）将结论推进到大模型微调范式
三个应用方向：LoRA（压缩微调）、Efficient Attention（加速推理）、SSM/Mamba（高效架构设计）——切入点不同，底层原理统一
弧线回环：Part 1 的 SVD 和特征分解工具在 Part 3 的语境下完整复活

下一篇我们进入第一个应用方向：LoRA——低秩适配。我们将详细推导 $\Delta W = BA$ 的数学框架，理解秩 $r$ 的选择与内禀维度的关系，并看到 Eckart-Young 定理（Art. 3 SVD）如何在微调场景下提供最优性保证。