学习算子中的低秩结构:为什么神经网络权重是低秩的?
更新于 2026-04-23
Part 2 用了九篇文章分析给定算子——转移矩阵 、图 Laplacian 、Kernel 矩阵 ——它们的结构由物理系统、图拓扑或核函数事先确定。数学家和工程师根据领域知识设计这些矩阵,然后用 Part 1 的工具(特征分解、SVD)分析它们的行为。
现在,矩阵的来源发生了根本转变。
Part 1 里矩阵装数据,我们拆开它看结构。Part 2 里矩阵编码给定过程,我们分析它的谱。Part 3 里矩阵是训练出来的——结构不是手工设计的,而是数据塑造的。
一个深度网络的权重矩阵 不像马尔可夫转移矩阵那样有”行和为 1”的精确约束,也不像图 Laplacian 那样有”对称半正定”的保证。 是从随机初始化出发,经过数十亿次梯度更新后停在某处的结果。它的结构完全由训练数据和优化动力学决定。
然而,一个反复被验证的经验事实是:
训练好的权重矩阵经验上接近低秩——它的大部分”能量”集中在少数几个奇异值上。
这个观察不是偶然的,它背后有深刻的数学机理,并且催生了三个影响深远的应用方向。本文是 Part 3 “汇——学习算子”的路线图,我们将建立 Part 3 的概念框架、回答”为什么低秩”这个核心问题,并预览三个汇聚方向。
从”给定”到”学习”:核心转变
让我们把三类矩阵的区别对比到最清楚。
给定算子的结构是问题赋予的
在 Part 2 中,算子矩阵的结构由问题本身决定:
- 马尔可夫链的转移矩阵 (Art. 15 马尔可夫链):,——这些约束来自概率的公理
- 图 Laplacian (Art. 21 图 Laplacian):对称、半正定、行和为 0——这些性质由图的结构编码
- Kernel 矩阵 (Art. 20 Kernel):对称、正半定——Mercer 定理保证
这些约束是先验的:在看到任何数据之前,我们就知道矩阵必须满足什么条件。数学定理(Perron-Frobenius、谱定理、Mercer 定理)从这些约束出发,给出强有力的结论——稳态分布的存在性、特征值的符号、收敛速率等等。
学习算子的结构是数据塑造的
一个神经网络的权重矩阵 (这里 表示网络某一层的权重矩阵,如 Transformer 中 attention 层的 ,或 MLP 层的 )没有这些先验约束。 的值从随机高斯分布初始化,然后通过梯度下降演化:
其中 是学习率, 是损失函数, 是损失对权重矩阵 的梯度(参见 Art. 5 矩阵微积分)。
训练结束后, 会呈现出什么结构?这不是定理能提前告诉我们的——它取决于数据分布、网络架构、优化算法和训练时长。但大量经验观察表明:
训练好的 的奇异值呈现快速衰减——前几个奇异值远大于其余的。
用 Art. 3 SVD 的语言:如果对 做奇异值分解 ,其中 是奇异值(),那么前 个奇异值就集中了 的大部分 Frobenius 范数能量:
这意味着 可以被低秩矩阵很好地近似——换言之, 经验上接近低秩(empirically approximately low-rank)。
三类矩阵的结构来源对比
| Part 1 数据容器 | Part 2 给定算子 | Part 3 学习算子 | |
|---|---|---|---|
| 结构来源 | 数据本身的统计规律 | 问题的物理/数学约束 | 训练数据 + 优化动力学 |
| 先验约束 | 无(或弱假设如低秩) | 强(行和=1、对称半正定等) | 无 |
| 典型性质 | 低秩(SVD 衰减快) | 特殊谱结构(如谱隙) | 经验低秩 |
| 分析工具 | SVD, PCA, NMF… | 特征分解 + 专用定理 | SVD + 内禀维度理论 |
| 核心问题 | 矩阵里藏着什么结构? | 算子的行为是什么? | 学到的结构能怎样利用? |
注意一个关键的回环:Part 1 中,数据矩阵的低秩性源于数据的内在低维结构(如用户偏好由少数潜在因素驱动)。Part 3 中,权重矩阵的低秩性有不同的成因——它来自优化动力学和目标函数的几何。但利用低秩性的工具是相同的:SVD、低秩近似、矩阵范数。Part 1 建立的工具链在 Part 3 中完整复活。
经验证据:预训练权重矩阵的奇异值谱
在给出理论解释之前,先看经验证据。对预训练语言模型(如 GPT-2、BERT)的各层权重矩阵做 SVD,奇异值的分布呈现出高度一致的模式:
- Attention 投影层():奇异值呈幂律衰减(power-law decay),,其中 。这意味着前 10-20 个奇异值就捕获了大部分能量。
- MLP/FFN 层:衰减略慢(接近指数衰减),但仍然远快于随机矩阵。
- 随机高斯矩阵(对比基线):奇异值分布遵循 Marchenko-Pastur 定律,谱非常平坦——没有低秩结构。
Martin 和 Mahoney (2019) 对大量预训练模型的权重矩阵做了系统的谱分析,发现训练良好的深度网络的权重矩阵普遍展现出重尾(heavy-tailed)的奇异值分布,即少数大奇异值主导,大量小奇异值构成长尾。他们将这种现象称为”heavy-tailed self-regularization”——训练过程本身就产生了一种隐式的正则化效果,使权重矩阵趋向低秩。
下面的交互组件用合成数据模拟了三种典型的奇异值衰减曲线。拖动按钮选择不同的权重类型进行对比,勾选”累积能量曲线”可以看到前 个奇异值包含了多少比例的总能量。
读图要点:
- 蓝色(Attention 投影层):奇异值快速衰减后进入长尾。在累积能量视图中,仅前 ~10 个奇异值就捕获了 90% 的能量——这就是”经验低秩性”的直观含义。
- 绿色(MLP/FFN 层):衰减稍慢,但 50 个左右的奇异值就能覆盖 95% 以上的能量。
- 灰色(随机基线):奇异值几乎没有衰减,能量均匀分布在所有方向——没有低秩结构可以利用。
这个对比揭示了一个关键洞察:训练过程将权重矩阵从随机初始化(平坦谱)演化为高度结构化的低秩矩阵(快速衰减谱)。训练不是在权重空间中随机游走,而是系统地将信息压缩到少数重要方向上。
为什么低秩?三个层次的解释
经验低秩性不是偶然的。我们可以从三个层次给出解释。
层次 1:内禀维度(Intrinsic Dimensionality)
Li et al. (2018) 提出了一个优美的实验框架来量化神经网络优化问题的”内禀维度”(intrinsic dimension)。
核心思想:假设网络有 个参数(即 )。我们不在完整的 维参数空间中优化,而是随机选取一个 维子空间(),在这个子空间中做优化:
其中 是固定的初始参数, 是一个随机投影矩阵(固定不变), 是我们实际优化的低维参数。
关键问题: 需要多大,才能在子空间优化中达到与完整 维优化相当的性能?
实验结果令人震惊:
- 一个有 个参数的 MNIST 网络,内禀维度仅约 ——不到总参数量的 1%
- 更大的模型( 更大),其内禀维度 并不按比例增长——大模型的参数冗余度更高
这意味着:损失函数的”有效”变化方向远少于参数空间的维度。优化景观(objective landscape)在绝大多数方向上是平坦的,只有少数方向才对损失有显著影响。
与 SVD 的联系:内禀维度理论直接关联到权重矩阵的低秩性。如果整个网络的有效参数维度为 ,那么每一层的权重矩阵 的有效自由度也远小于 。这意味着 的奇异值必然快速衰减——大部分奇异值对应的方向对最终目标没有贡献。
层次 2:梯度的低秩性
Gur-Ari et al. (2018) 从优化动力学的角度给出了互补的解释。他们发现:
梯度下降的更新方向在训练早期之后,收敛到 Hessian 矩阵的前几个主特征向量张成的小子空间中。
具体来说,考虑损失函数 的 Hessian 矩阵 (Art. 5 矩阵微积分中的二阶导数矩阵)。Hessian 的特征分解 揭示了损失曲面的曲率结构。Gur-Ari et al. 发现,经过初始的短暂探索期后,梯度向量 几乎完全落在 的前 个特征向量张成的子空间中( 通常与分类任务的类别数同阶)。
这意味着梯度更新 本身就是低秩的——它只在少数方向上有实质性的更新。长时间的训练把这些低秩的增量累积起来,最终的权重矩阵自然呈现低秩结构。
层次 3:预训练到微调的维度压缩
Aghajanyan et al. (2021, ACL) 把内禀维度理论从”从头训练”推进到”预训练 + 微调”范式。他们发现:
预训练模型在微调阶段的内禀维度随预训练质量的提高而降低。
换言之,预训练越充分,微调时需要调整的”有效方向”就越少。直觉上这很合理:一个充分预训练的模型已经学会了通用的语言表示,微调只需要在这个表示上做”小幅调整”——而这些调整集中在少数几个方向上。
他们在 RoBERTa 模型上的实验显示,即使只在一个 200 维的子空间中微调(完整参数空间为数百万维),模型在 MRPC 任务上仍能达到满参数微调 90% 的性能。
这个结论直接催生了 LoRA(Art. 24 LoRA):既然微调的有效维度如此之低,为什么不直接把增量参数化为低秩矩阵呢?
三个汇聚方向:Part 3 路线图
经验低秩性不是一个孤立的观察——它是三个重要应用方向的共同理论基础。Part 3 的三篇应用文章将分别深入这三个方向。
方向 1:压缩微调 — LoRA(Art. 24)
核心思路:既然微调只改变权重的一个低维子空间,不如直接把权重增量参数化为低秩矩阵。
LoRA(Low-Rank Adaptation, Hu et al., 2022)将权重更新 分解为两个小矩阵的乘积:
其中 是秩。训练时固定原始预训练权重 ,只更新 和 :
参数量从 降到 ——当 (GPT-3 规模), 时,参数减少约 250 倍。
与本篇的关系:LoRA 的成功直接建立在内禀维度理论之上。如果微调的有效维度确实很低,那么 取一个小值就足以捕获所有有意义的更新方向。LoRA 将”经验低秩性”转化为”参数效率”。
方向 2:加速推理 — Efficient Attention(Art. 25)
核心思路:标准 Transformer 的 self-attention 计算一个 的注意力矩阵( 是序列长度),这个矩阵在实践中是近似低秩的——可以用低秩分解近似,避免 的计算和存储。
标准 attention 的核心计算是:
其中 是注意力得分矩阵。Choromanski et al. (2021) 的 Performers 提出用随机特征映射 近似 softmax kernel:
其中 (),这样注意力矩阵被分解为两个 矩阵的乘积——从 降到 。
与本篇的关系:注意力矩阵的近似低秩性是 efficient attention 方法的理论基础。如果注意力分数确实集中在少数”模式”上(即矩阵的有效秩远小于 ),那么低秩近似的误差就很小。
方向 3:架构设计 — SSM / Mamba(Art. 26)
核心思路:将连续时间状态空间模型(SSM)的状态矩阵 (Art. 17 Kalman 中的给定矩阵)变成可学习参数,并约束为对角矩阵以实现高效计算。
在 Art. 17 中,状态空间模型的连续形式是:
其中 是状态矩阵。在 Kalman 滤波中, 由物理系统确定(Part 2 的”给定算子”)。但在 Mamba (Gu & Dao, 2023) 中, 是可学习的(Part 3 的”学习算子”),且被约束为对角矩阵:
对角化的威力在于:矩阵指数 变成逐元素标量运算 ,状态更新从 矩阵乘法简化为 逐元素乘法。这正是 Art. 2 特征分解 中”对角化简化一切”这个洞察的极致应用。
与本篇的关系:SSM/Mamba 是”利用低秩/对角结构设计高效架构”的范例。它不是事后发现低秩性并加以利用(如 LoRA),而是在架构设计阶段就主动施加结构约束,换取计算效率。
三个方向的统一视角
| 方向 | 利用什么 | 从哪里切入 | 效果 |
|---|---|---|---|
| LoRA(Art. 24) | 微调增量 的低秩性 | 训练阶段 | 减少可训练参数 |
| Efficient Attention(Art. 25) | 注意力矩阵的近似低秩性 | 推理阶段 | 降低计算复杂度 |
| SSM/Mamba(Art. 26) | 状态矩阵的对角结构 | 架构设计阶段 | 线性时间序列建模 |
三个方向切入点不同(训练、推理、架构),但底层原理统一:大型神经网络中的关键矩阵具有远低于其维度的有效秩,我们可以利用这种结构节省计算。Part 1 的 SVD 和特征分解提供了发现和利用这种结构的数学工具。
Part 1 → Part 2 → Part 3:工具链的完整回环
现在我们可以看到整条学习路径的弧线是如何闭合的。
Part 1 建立工具
Art. 2 特征分解:对角化 ——在特征基下,线性变换退化为逐方向缩放。
Art. 3 SVD:推广到任意矩阵 ,Eckart-Young 定理保证截断 SVD 是最佳低秩近似。
Art. 4 范数:Frobenius 范数 度量近似质量,nuclear 范数 是秩的凸松弛。
Part 2 展示工具的力量
特征分解分析马尔可夫链的稳态(Art. 15 马尔可夫链),推导 GNN 消息传递的物理含义(Art. 22 图扩散与 GNN),解释 Kalman 滤波中矩阵指数的计算(Art. 17 连续系统与 Kalman)。
Part 3 用工具改造学习到的计算
- LoRA 用 SVD 的低秩近似思想参数化权重增量
- Efficient Attention 用低秩分解近似注意力矩阵
- SSM/Mamba 用对角化(特征分解的极致形式)实现线性时间状态更新
弧线闭合:Part 1 的”拆”(分解矩阵发现结构)→ Part 2 的”传”(分析算子行为)→ Part 3 的”汇”(利用学到的结构优化计算)。同一套数学工具——特征分解和 SVD——贯穿始终。
总结与展望
本文建立了 Part 3 的概念框架:
- 核心转变:矩阵从”给定”变为”学习”——结构不再由问题约束先验确定,而是由训练数据和优化动力学塑造
- 核心现象:训练好的权重矩阵经验上接近低秩,奇异值呈快速衰减(幂律或指数型)
- 三层解释:内禀维度理论(Li et al., 2018)揭示优化景观的低维本质;梯度低秩性(Gur-Ari et al., 2018)从动力学角度解释低秩结构的形成;预训练-微调维度压缩(Aghajanyan et al., 2021)将结论推进到大模型微调范式
- 三个应用方向:LoRA(压缩微调)、Efficient Attention(加速推理)、SSM/Mamba(高效架构设计)——切入点不同,底层原理统一
- 弧线回环:Part 1 的 SVD 和特征分解工具在 Part 3 的语境下完整复活
下一篇我们进入第一个应用方向:LoRA——低秩适配。我们将详细推导 的数学框架,理解秩 的选择与内禀维度的关系,并看到 Eckart-Young 定理(Art. 3 SVD)如何在微调场景下提供最优性保证。