本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

学习算子中的低秩结构:为什么神经网络权重是低秩的?

学习算子中的低秩结构:为什么神经网络权重是低秩的?

更新于 2026-04-23

Part 2 用了九篇文章分析给定算子——转移矩阵 PP、图 Laplacian LL、Kernel 矩阵 KK——它们的结构由物理系统、图拓扑或核函数事先确定。数学家和工程师根据领域知识设计这些矩阵,然后用 Part 1 的工具(特征分解、SVD)分析它们的行为。

现在,矩阵的来源发生了根本转变。

Part 1 里矩阵装数据,我们拆开它看结构。Part 2 里矩阵编码给定过程,我们分析它的谱。Part 3 里矩阵是训练出来的——结构不是手工设计的,而是数据塑造的。

一个深度网络的权重矩阵 WRm×nW \in \mathbb{R}^{m \times n} 不像马尔可夫转移矩阵那样有”行和为 1”的精确约束,也不像图 Laplacian 那样有”对称半正定”的保证。WW 是从随机初始化出发,经过数十亿次梯度更新后停在某处的结果。它的结构完全由训练数据和优化动力学决定。

然而,一个反复被验证的经验事实是:

训练好的权重矩阵经验上接近低秩——它的大部分”能量”集中在少数几个奇异值上。

这个观察不是偶然的,它背后有深刻的数学机理,并且催生了三个影响深远的应用方向。本文是 Part 3 “汇——学习算子”的路线图,我们将建立 Part 3 的概念框架、回答”为什么低秩”这个核心问题,并预览三个汇聚方向。

从”给定”到”学习”:核心转变

让我们把三类矩阵的区别对比到最清楚。

给定算子的结构是问题赋予的

在 Part 2 中,算子矩阵的结构由问题本身决定:

  • 马尔可夫链的转移矩阵 PPArt. 15 马尔可夫链):Pij0P_{ij} \geq 0jPij=1\sum_j P_{ij} = 1——这些约束来自概率的公理
  • 图 Laplacian L=DAGL = D - A_GArt. 21 图 Laplacian):对称、半正定、行和为 0——这些性质由图的结构编码
  • Kernel 矩阵 KKArt. 20 Kernel):对称、正半定——Mercer 定理保证

这些约束是先验的:在看到任何数据之前,我们就知道矩阵必须满足什么条件。数学定理(Perron-Frobenius、谱定理、Mercer 定理)从这些约束出发,给出强有力的结论——稳态分布的存在性、特征值的符号、收敛速率等等。

学习算子的结构是数据塑造的

一个神经网络的权重矩阵 WW(这里 WW 表示网络某一层的权重矩阵,如 Transformer 中 attention 层的 WQ,WK,WVRd×dkW_Q, W_K, W_V \in \mathbb{R}^{d \times d_k},或 MLP 层的 WfcRd×dffW_{\text{fc}} \in \mathbb{R}^{d \times d_{\text{ff}}})没有这些先验约束。WW 的值从随机高斯分布初始化,然后通过梯度下降演化:

Wt+1=WtηWL(Wt)W_{t+1} = W_t - \eta \nabla_W \mathcal{L}(W_t)

其中 η\eta 是学习率,L\mathcal{L} 是损失函数,WL\nabla_W \mathcal{L} 是损失对权重矩阵 WW 的梯度(参见 Art. 5 矩阵微积分)。

训练结束后,WW 会呈现出什么结构?这不是定理能提前告诉我们的——它取决于数据分布、网络架构、优化算法和训练时长。但大量经验观察表明:

训练好的 WW 的奇异值呈现快速衰减——前几个奇异值远大于其余的。

Art. 3 SVD 的语言:如果对 WW 做奇异值分解 W=UΣVTW = U\Sigma V^T,其中 σ1σ2σr0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r \geq 0 是奇异值(r=rank(W)r = \text{rank}(W)),那么前 kk 个奇异值就集中了 WW 的大部分 Frobenius 范数能量:

i=1kσi2i=1rσi20.90即使 kr\frac{\sum_{i=1}^{k}\sigma_i^2}{\sum_{i=1}^{r}\sigma_i^2} \approx 0.90 \quad \text{即使 } k \ll r

这意味着 WW 可以被低秩矩阵很好地近似——换言之,WW 经验上接近低秩(empirically approximately low-rank)。

三类矩阵的结构来源对比

Part 1 数据容器Part 2 给定算子Part 3 学习算子
结构来源数据本身的统计规律问题的物理/数学约束训练数据 + 优化动力学
先验约束无(或弱假设如低秩)强(行和=1、对称半正定等)
典型性质低秩(SVD 衰减快)特殊谱结构(如谱隙)经验低秩
分析工具SVD, PCA, NMF…特征分解 + 专用定理SVD + 内禀维度理论
核心问题矩阵里藏着什么结构?算子的行为是什么?学到的结构能怎样利用?
Part 2 给定算子 vs Part 3 学习算子
矩阵的来源不同,但分析工具(SVD, 特征分解)相同
Part 2: 给定算子结构由问题定义先验约束(行和=1, PSD…)特殊谱结构(谱隙、零特征值)转移矩阵 P · 图 Laplacian L · Kernel K核心转变Part 3: 学习算子结构由训练数据塑造无先验约束经验低秩(奇异值快速衰减)Attention W_Q · MLP W_fc · SSM A共同工具:SVD(Art. 3)+ 特征分解(Art. 2)→ 发现并利用结构

注意一个关键的回环:Part 1 中,数据矩阵的低秩性源于数据的内在低维结构(如用户偏好由少数潜在因素驱动)。Part 3 中,权重矩阵的低秩性有不同的成因——它来自优化动力学和目标函数的几何。但利用低秩性的工具是相同的:SVD、低秩近似、矩阵范数。Part 1 建立的工具链在 Part 3 中完整复活。

经验证据:预训练权重矩阵的奇异值谱

在给出理论解释之前,先看经验证据。对预训练语言模型(如 GPT-2、BERT)的各层权重矩阵做 SVD,奇异值的分布呈现出高度一致的模式:

  • Attention 投影层WQ,WK,WV,WOW_Q, W_K, W_V, W_O):奇异值呈幂律衰减(power-law decay),σiiα\sigma_i \propto i^{-\alpha},其中 α>1\alpha > 1。这意味着前 10-20 个奇异值就捕获了大部分能量。
  • MLP/FFN 层:衰减略慢(接近指数衰减),但仍然远快于随机矩阵。
  • 随机高斯矩阵(对比基线):奇异值分布遵循 Marchenko-Pastur 定律,谱非常平坦——没有低秩结构。

Martin 和 Mahoney (2019) 对大量预训练模型的权重矩阵做了系统的谱分析,发现训练良好的深度网络的权重矩阵普遍展现出重尾(heavy-tailed)的奇异值分布,即少数大奇异值主导,大量小奇异值构成长尾。他们将这种现象称为”heavy-tailed self-regularization”——训练过程本身就产生了一种隐式的正则化效果,使权重矩阵趋向低秩。

下面的交互组件用合成数据模拟了三种典型的奇异值衰减曲线。拖动按钮选择不同的权重类型进行对比,勾选”累积能量曲线”可以看到前 kk 个奇异值包含了多少比例的总能量。

0.000.250.500.751.00020406080100奇异值序号 iσᵢ / σ₁(归一化)预训练权重矩阵的奇异值衰减曲线(合成数据模拟典型分布特征)
Attention 投影层 快速幂律衰减 + 长尾 — 典型的低秩结构
MLP / FFN 层 指数衰减 — 中等低秩性
随机高斯矩阵(基线) 平坦谱 — 无低秩结构(Marchenko–Pastur 分布)

读图要点

  • 蓝色(Attention 投影层):奇异值快速衰减后进入长尾。在累积能量视图中,仅前 ~10 个奇异值就捕获了 90% 的能量——这就是”经验低秩性”的直观含义。
  • 绿色(MLP/FFN 层):衰减稍慢,但 50 个左右的奇异值就能覆盖 95% 以上的能量。
  • 灰色(随机基线):奇异值几乎没有衰减,能量均匀分布在所有方向——没有低秩结构可以利用。

这个对比揭示了一个关键洞察:训练过程将权重矩阵从随机初始化(平坦谱)演化为高度结构化的低秩矩阵(快速衰减谱)。训练不是在权重空间中随机游走,而是系统地将信息压缩到少数重要方向上。

为什么低秩?三个层次的解释

经验低秩性不是偶然的。我们可以从三个层次给出解释。

层次 1:内禀维度(Intrinsic Dimensionality)

Hessian 特征值谱与 Intrinsic Dimensionalityλᵢd_int ≈ 4≈ 0(冗余方向)特征值索引 i核心观察• D 维参数空间(D 可达数十亿)• 只有少数 k 个特征值显著 (k ≪ D)• 有效优化维度 ≈ k→ LoRA 的理论基础低秩更新 ΔW = BA 足以覆盖Hessian 的大特征值方向MNIST: D=650,000 → d_int≈750 (0.1%)

Li et al. (2018) 提出了一个优美的实验框架来量化神经网络优化问题的”内禀维度”(intrinsic dimension)。

核心思想:假设网络有 DD 个参数(即 θRD\theta \in \mathbb{R}^D)。我们不在完整的 DD 维参数空间中优化,而是随机选取一个 dd 维子空间(dDd \ll D),在这个子空间中做优化:

θ=θ0+Pz\theta = \theta_0 + P\mathbf{z}

其中 θ0RD\theta_0 \in \mathbb{R}^D 是固定的初始参数,PRD×dP \in \mathbb{R}^{D \times d} 是一个随机投影矩阵(固定不变),zRd\mathbf{z} \in \mathbb{R}^d 是我们实际优化的低维参数。

关键问题:dd 需要多大,才能在子空间优化中达到与完整 DD 维优化相当的性能?

实验结果令人震惊

  • 一个有 D105D \approx 10^5 个参数的 MNIST 网络,内禀维度仅约 d750d \approx 750——不到总参数量的 1%
  • 更大的模型(DD 更大),其内禀维度 dd 并不按比例增长——大模型的参数冗余度更高

这意味着:损失函数的”有效”变化方向远少于参数空间的维度。优化景观(objective landscape)在绝大多数方向上是平坦的,只有少数方向才对损失有显著影响。

与 SVD 的联系:内禀维度理论直接关联到权重矩阵的低秩性。如果整个网络的有效参数维度为 dDd \ll D,那么每一层的权重矩阵 WRm×nW \in \mathbb{R}^{m \times n} 的有效自由度也远小于 mnmn。这意味着 WW 的奇异值必然快速衰减——大部分奇异值对应的方向对最终目标没有贡献。

层次 2:梯度的低秩性

梯度下降发生在一个很小的子空间中训练初期梯度方向分散收敛训练后期梯度集中在 k 个方向含义Hessian H 的前 k 个特征向量张成子空间∇L ∈ span(q₁,...,qₖ)→ ΔW 是低秩的!Gur-Ari et al. (2018): k 通常与分类任务的类别数同阶累积低秩梯度更新 → 最终权重矩阵自然呈现低秩结构

Gur-Ari et al. (2018) 从优化动力学的角度给出了互补的解释。他们发现:

梯度下降的更新方向在训练早期之后,收敛到 Hessian 矩阵的前几个主特征向量张成的小子空间中。

具体来说,考虑损失函数 L(θ)\mathcal{L}(\theta) 的 Hessian 矩阵 H=2LH = \nabla^2 \mathcal{L}Art. 5 矩阵微积分中的二阶导数矩阵)。Hessian 的特征分解 H=QΛQTH = Q\Lambda Q^T 揭示了损失曲面的曲率结构。Gur-Ari et al. 发现,经过初始的短暂探索期后,梯度向量 L\nabla\mathcal{L} 几乎完全落在 HH 的前 kk 个特征向量张成的子空间中(kk 通常与分类任务的类别数同阶)。

这意味着梯度更新 ΔW=ηWL\Delta W = -\eta \nabla_W \mathcal{L} 本身就是低秩的——它只在少数方向上有实质性的更新。长时间的训练把这些低秩的增量累积起来,最终的权重矩阵自然呈现低秩结构。

层次 3:预训练到微调的维度压缩

预训练越充分 → 微调的内禀维度越低650K从头训练5K弱预训练200RoBERTad_intAghajanyan et al. (2021)• RoBERTa 在 MRPC 上:d_int ≈ 200• 完整参数:数百万维• 200 维子空间 → 90% 满参数性能→ 直接催生 LoRA!预训练已学会通用表示 → 微调只需"小幅调整"→ 低秩增量 ΔW=BA 足矣

Aghajanyan et al. (2021, ACL) 把内禀维度理论从”从头训练”推进到”预训练 + 微调”范式。他们发现:

预训练模型在微调阶段的内禀维度随预训练质量的提高而降低。

换言之,预训练越充分,微调时需要调整的”有效方向”就越少。直觉上这很合理:一个充分预训练的模型已经学会了通用的语言表示,微调只需要在这个表示上做”小幅调整”——而这些调整集中在少数几个方向上。

他们在 RoBERTa 模型上的实验显示,即使只在一个 200 维的子空间中微调(完整参数空间为数百万维),模型在 MRPC 任务上仍能达到满参数微调 90% 的性能。

这个结论直接催生了 LoRAArt. 24 LoRA):既然微调的有效维度如此之低,为什么不直接把增量参数化为低秩矩阵呢?

三个汇聚方向:Part 3 路线图

经验低秩性不是一个孤立的观察——它是三个重要应用方向的共同理论基础。Part 3 的三篇应用文章将分别深入这三个方向。

Part 3 三个汇聚方向:同一原理,不同切入点
经验低秩性σᵢ 快速衰减有效秩 ≪ 维度LoRA (Art. 24)压缩微调 · 训练阶段ΔW = BA, r ≪ dEfficient Attn (Art. 25)加速推理 · 推理阶段softmax(QKᵀ) ≈ φ(Q)φ(K)ᵀSSM/Mamba (Art. 26)高效架构 · 架构设计A = diag(a₁…aₙ)

方向 1:压缩微调 — LoRA(Art. 24)

核心思路:既然微调只改变权重的一个低维子空间,不如直接把权重增量参数化为低秩矩阵。

LoRA(Low-Rank Adaptation, Hu et al., 2022)将权重更新 ΔW\Delta W 分解为两个小矩阵的乘积:

ΔW=BA,BRm×r,ARr×n\Delta W = BA, \quad B \in \mathbb{R}^{m \times r}, \quad A \in \mathbb{R}^{r \times n}

其中 rmin(m,n)r \ll \min(m, n) 是秩。训练时固定原始预训练权重 W0W_0,只更新 BBAA

W=W0+BAW = W_0 + BA

参数量从 mnmn 降到 r(m+n)r(m + n)——当 m=n=4096m = n = 4096(GPT-3 规模),r=8r = 8 时,参数减少约 250 倍

与本篇的关系:LoRA 的成功直接建立在内禀维度理论之上。如果微调的有效维度确实很低,那么 rr 取一个小值就足以捕获所有有意义的更新方向。LoRA 将”经验低秩性”转化为”参数效率”。

方向 2:加速推理 — Efficient Attention(Art. 25)

核心思路:标准 Transformer 的 self-attention 计算一个 n×nn \times n 的注意力矩阵(nn 是序列长度),这个矩阵在实践中是近似低秩的——可以用低秩分解近似,避免 O(n2)O(n^2) 的计算和存储。

标准 attention 的核心计算是:

Attention(Q,K,V)=softmax ⁣(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V

其中 QKTRn×nQK^T \in \mathbb{R}^{n \times n} 是注意力得分矩阵。Choromanski et al. (2021) 的 Performers 提出用随机特征映射 ϕ\phi 近似 softmax kernel:

softmax(QKT/dk)ϕ(Q)ϕ(K)T\text{softmax}(QK^T / \sqrt{d_k}) \approx \phi(Q)\phi(K)^T

其中 ϕ:RdkRr\phi: \mathbb{R}^{d_k} \to \mathbb{R}^rrnr \ll n),这样注意力矩阵被分解为两个 n×rn \times r 矩阵的乘积——从 O(n2)O(n^2) 降到 O(nr)O(nr)

与本篇的关系:注意力矩阵的近似低秩性是 efficient attention 方法的理论基础。如果注意力分数确实集中在少数”模式”上(即矩阵的有效秩远小于 nn),那么低秩近似的误差就很小。

方向 3:架构设计 — SSM / Mamba(Art. 26)

核心思路:将连续时间状态空间模型(SSM)的状态矩阵 AAArt. 17 Kalman 中的给定矩阵)变成可学习参数,并约束为对角矩阵以实现高效计算。

在 Art. 17 中,状态空间模型的连续形式是:

x˙(t)=Ax(t)+Bu(t),y(t)=Cx(t)+Du(t)\dot{\mathbf{x}}(t) = A\mathbf{x}(t) + B\mathbf{u}(t), \quad \mathbf{y}(t) = C\mathbf{x}(t) + D\mathbf{u}(t)

其中 ARN×NA \in \mathbb{R}^{N \times N} 是状态矩阵。在 Kalman 滤波中,AA 由物理系统确定(Part 2 的”给定算子”)。但在 Mamba (Gu & Dao, 2023) 中,AA可学习的(Part 3 的”学习算子”),且被约束为对角矩阵:

A=diag(a1,a2,,aN)A = \text{diag}(a_1, a_2, \ldots, a_N)

对角化的威力在于:矩阵指数 eAΔe^{A\Delta} 变成逐元素标量运算 diag(ea1Δ,,eaNΔ)\text{diag}(e^{a_1\Delta}, \ldots, e^{a_N\Delta}),状态更新从 O(N2)O(N^2) 矩阵乘法简化为 O(N)O(N) 逐元素乘法。这正是 Art. 2 特征分解 中”对角化简化一切”这个洞察的极致应用。

与本篇的关系:SSM/Mamba 是”利用低秩/对角结构设计高效架构”的范例。它不是事后发现低秩性并加以利用(如 LoRA),而是在架构设计阶段就主动施加结构约束,换取计算效率。

三个方向的统一视角

方向利用什么从哪里切入效果
LoRA(Art. 24)微调增量 ΔW\Delta W 的低秩性训练阶段减少可训练参数
Efficient Attention(Art. 25)注意力矩阵的近似低秩性推理阶段降低计算复杂度
SSM/Mamba(Art. 26)状态矩阵的对角结构架构设计阶段线性时间序列建模

三个方向切入点不同(训练、推理、架构),但底层原理统一:大型神经网络中的关键矩阵具有远低于其维度的有效秩,我们可以利用这种结构节省计算。Part 1 的 SVD 和特征分解提供了发现和利用这种结构的数学工具。

Part 1 → Part 2 → Part 3:工具链的完整回环

工具链回环:同一套数学贯穿三个 PartPart 1: 特征分解 · SVD · 范数建立分解和近似工具Part 2: 马尔可夫 · Laplacian · Kernel分析给定算子的行为Part 3: LoRA · Eff. Attn · SSM利用学到的结构优化Part 1 的 SVD/特征分解 在 Part 3 复活LoRA 用 SVD 低秩近似 | Eff. Attention 用低秩分解 | SSM/Mamba 用对角化

现在我们可以看到整条学习路径的弧线是如何闭合的。

Part 1 建立工具

Art. 2 特征分解:对角化 A=QΛQ1A = Q\Lambda Q^{-1}——在特征基下,线性变换退化为逐方向缩放。

Art. 3 SVD:推广到任意矩阵 A=UΣVTA = U\Sigma V^T,Eckart-Young 定理保证截断 SVD 是最佳低秩近似。

Art. 4 范数:Frobenius 范数 AF=iσi2\|A\|_F = \sqrt{\sum_i \sigma_i^2} 度量近似质量,nuclear 范数 A=iσi\|A\|_* = \sum_i \sigma_i 是秩的凸松弛。

Part 2 展示工具的力量

特征分解分析马尔可夫链的稳态(Art. 15 马尔可夫链),推导 GNN 消息传递的物理含义(Art. 22 图扩散与 GNN),解释 Kalman 滤波中矩阵指数的计算(Art. 17 连续系统与 Kalman)。

Part 3 用工具改造学习到的计算

  • LoRA 用 SVD 的低秩近似思想参数化权重增量
  • Efficient Attention 用低秩分解近似注意力矩阵
  • SSM/Mamba 用对角化(特征分解的极致形式)实现线性时间状态更新

弧线闭合:Part 1 的”拆”(分解矩阵发现结构)→ Part 2 的”传”(分析算子行为)→ Part 3 的”汇”(利用学到的结构优化计算)。同一套数学工具——特征分解和 SVD——贯穿始终。

总结与展望

本文建立了 Part 3 的概念框架:

  • 核心转变:矩阵从”给定”变为”学习”——结构不再由问题约束先验确定,而是由训练数据和优化动力学塑造
  • 核心现象:训练好的权重矩阵经验上接近低秩,奇异值呈快速衰减(幂律或指数型)
  • 三层解释:内禀维度理论(Li et al., 2018)揭示优化景观的低维本质;梯度低秩性(Gur-Ari et al., 2018)从动力学角度解释低秩结构的形成;预训练-微调维度压缩(Aghajanyan et al., 2021)将结论推进到大模型微调范式
  • 三个应用方向:LoRA(压缩微调)、Efficient Attention(加速推理)、SSM/Mamba(高效架构设计)——切入点不同,底层原理统一
  • 弧线回环:Part 1 的 SVD 和特征分解工具在 Part 3 的语境下完整复活

下一篇我们进入第一个应用方向:LoRA——低秩适配。我们将详细推导 ΔW=BA\Delta W = BA 的数学框架,理解秩 rr 的选择与内禀维度的关系,并看到 Eckart-Young 定理(Art. 3 SVD)如何在微调场景下提供最优性保证。