上一篇我们建立了 SVD 这把万能工具刀:任何矩阵 A=UΣVT,截断到前 k 个奇异值就得到最佳低秩近似。我们甚至给出了截断误差的精确公式——但”最佳”是相对于什么度量而言的?“误差有多小”又该怎么量化?
这正是度量(measurement)的问题。回顾 Art. 1 分解概述 中的六类矩阵操作,前三篇文章覆盖了”分解”操作;本篇建立第二件核心工具——度量。
分解会产生近似,近似需要衡量好坏。如果你不能精确地说”这个近似好到什么程度”,那分解就是盲人摸象。范数和条件数就是我们的标尺和放大镜:
- 范数回答”这个矩阵有多大”——衡量矩阵的”大小”或”能量”
- 内积回答”两个矩阵有多像”——衡量矩阵之间的相似性
- 条件数回答”这个问题有多敏感”——衡量数值计算的稳定性
这些概念看似抽象,却是后续所有文章的基础语言:矩阵补全需要 nuclear 范数做凸松弛,Robust PCA 需要 nuclear + L1 范数的组合优化,spectral normalization 用 spectral 范数约束网络 Lipschitz 常数。建立这些度量工具,才能让后续的讨论从定性变为定量。
向量范数:从直觉开始
在定义矩阵范数之前,先回顾向量范数——它是矩阵范数的基础。
范数的公理
范数(norm)是对”大小”的抽象度量。一个函数 ∥⋅∥:Rn→R 是范数,当且仅当它满足三条公理:
- 非负性:∥x∥≥0,且 ∥x∥=0⟺x=0
- 齐次性:∥αx∥=∣α∣⋅∥x∥(缩放向量 α 倍,范数也缩放 ∣α∣ 倍)
- 三角不等式:∥x+y∥≤∥x∥+∥y∥
这三条公理保证了范数具备我们期望”距离”拥有的基本性质。
三种常用向量范数
对于向量 x=(x1,x2,…,xn)T∈Rn:
ℓ1 范数(曼哈顿距离):
∥x∥1=∑i=1n∣xi∣
各分量绝对值之和。几何上,ℓ1 单位球(∥x∥1=1 的点集)在 2D 中是菱形——角点落在坐标轴上。这个形状直接决定了 ℓ1 正则化产生稀疏解的能力(Lasso 回归的数学原理),详见下文单位球形状与正则化效果。
ℓ2 范数(欧几里得距离):
∥x∥2=∑i=1nxi2
我们最熟悉的”长度”。ℓ2 单位球是圆(高维中是球面),各方向均匀——ℓ2 范数具有旋转不变性(∥Qx∥2=∥x∥2,其中 Q 为正交矩阵)。这是 ℓ2 在数学上特别好用的根本原因。
ℓ∞ 范数(切比雪夫距离):
∥x∥∞=max1≤i≤n∣xi∣
最大分量的绝对值。ℓ∞ 单位球是正方形(高维中是超立方体)——每个坐标独立约束。在对抗鲁棒性(adversarial robustness)中,ℓ∞ 扰动约束意味着攻击者可以改变每个像素至多 ϵ。
单位球的几何:p 越大越”胖”
这三种范数是 ℓp 范数 ∥x∥p=(∑i∣xi∣p)1/p 的三个特例(p=1,2,∞)。一个关键的几何事实:p 越大,单位球越”胖”,即 ℓ∞ 单位球包含 ℓ2 单位球,ℓ2 单位球包含 ℓ1 单位球。用下面的可视化亲手对比:
向量范数的单位球
满足 ‖x‖ = 1 的所有点构成的集合
L∞ ⊃ L₂ ⊃ L₁ — p 越大,单位球越"胖"。L₁ 的尖角落在坐标轴上,所以 L₁ 正则化天然倾向稀疏解。
对应的范数不等式为:
∥x∥∞≤∥x∥2≤∥x∥1≤n∥x∥∞
直觉:ℓ1 是最”严格”的度量(要求每个分量都小),ℓ∞ 是最”宽松”的(只看最大的那个分量)。
单位球形状与正则化效果
三种范数的单位球形状不同,直接决定了它们作为正则化时的行为差异。统一框架:ℓp 正则化等价于约束优化 minL(w) s.t. ∥w∥p≤t,几何图像是损失函数的等高线(通常是光滑的椭圆)从外向内收缩,第一次碰到约束球的点就是解。球的形状决定了切点落在哪里。
ℓ1(Lasso):球是菱形,边是直线段,每条边上的法向量是常数。除非损失函数的梯度恰好与某条边平行(概率为零的特殊情形),切点就不会停在边的内部,而是滑到角点上——角点落在坐标轴上,意味着某些 wi=0,产生稀疏解。高维中效应更强:ℓ1 球的顶点、棱、面越来越多,绝大多数切点都落在低维面上,对应更多分量为零。
ℓ2(Ridge / weight decay):球是圆,处处光滑且旋转对称。等高线碰圆的切点没有方向偏好,所以 ℓ2 把所有分量均匀缩小,但不会把任何分量压到恰好为零。从梯度角度看,∂∥w∥22/∂wi=2wi——梯度与权重成正比,大的缩多、小的缩少,但永远不归零。
ℓ∞:球是正方形(超立方体),约束 ∥w∥∞≤t 即 ∣wi∣≤t 对每个分量独立成立。惩罚项 ∥w∥∞=maxi∣wi∣ 的次梯度只集中在最大分量上——只惩罚最突出的那个,其他的不管。效果是把最大分量往下压,直到和次大分量齐平,然后一起压……最终驱动所有分量趋向等幅。这和 ℓ1 恰好相反:ℓ1 产生稀疏(能量集中在少数分量),ℓ∞ 产生反稀疏(能量均匀分散)。
| 范数 | 球形状 | 正则化效果 | 一句话 |
|---|
| ℓ1 | 菱形(角在坐标轴上) | 小分量归零 → 稀疏 | 挑少数重要的 |
| ℓ2 | 圆(处处光滑) | 均匀缩小 → 稠密但小 | 全部压一压 |
| ℓ∞ | 正方形(面平,角在对角线上) | 大分量被削 → 趋向等幅 | 不许谁太突出 |
矩阵范数:从向量到矩阵
向量范数度量向量的”大小”,矩阵范数度量矩阵的”大小”。有两种自然的推广方式:
- 逐元素推广:把矩阵拉成长向量,直接用向量范数
- 算子推广:把矩阵看作线性变换,用它对向量的”拉伸程度”来度量
下面介绍三种核心矩阵范数,每种都从定义、等价形式、几何直觉和 ML 应用四个角度展开。
Frobenius 范数:逐元素能量
定义:对矩阵 A∈Rm×n,Frobenius 范数(记为 ∥A∥F)定义为所有元素平方和的平方根:
∥A∥F=∑i=1m∑j=1naij2
这就是把矩阵”拉平”成一个 mn 维向量后取 ℓ2 范数——最直接的逐元素推广。
等价表达:Frobenius 范数有三个等价形式,每个揭示不同的结构:
∥A∥F=∑ijaij2=tr(ATA)=∑i=1rσi2
逐项理解:
- 第一个等式是定义——逐元素平方和
- 第二个等式 tr(ATA) 把 Frobenius 范数与矩阵迹(trace)联系起来。由矩阵乘法定义,(ATA)jk=∑i(AT)jiAik=∑iaijaik,取对角元素 j=k 得 (ATA)jj=∑iaij2(即 A 的第 j 列与自身的内积),所以 tr(ATA)=∑j∑iaij2=∑ijaij2
- 第三个等式与奇异值联系:因为 ATA 的特征值是 σ12,…,σr2(参见 SVD 中的推导),而矩阵的迹等于特征值之和,所以 tr(ATA)=∑iσi2
其中 r=rank(A) 是 A 的秩,σ1≥σ2≥⋯≥σr>0 是 A 的非零奇异值。
几何直觉:∥A∥F2=∑iσi2 是所有奇异值的总能量。回忆 SVD 的几何图像——奇异值衡量矩阵在各个方向的拉伸程度,Frobenius 范数就是把所有方向的拉伸”打包”成一个数。
ML 中的应用:
- MSE 损失:L=mn1∥A−B∥F2 就是逐元素均方误差
- 正则化:权重衰减 λ∥W∥F2 惩罚所有权重的总能量
- Eckart-Young 定理中的最佳近似:minrank(B)≤k∥A−B∥F=∑i=k+1rσi2——截断 SVD 是 Frobenius 范数下的最佳低秩近似
性质:∥A∥F 具有酉不变性(unitary invariance):对任意正交矩阵 P,Q,∥PAQ∥F=∥A∥F。直觉上,旋转不改变总能量——只是在不同方向间重新分配。这个性质使 Frobenius 范数在理论分析中特别好用。
Spectral 范数:最大拉伸
定义:矩阵的 spectral 范数(也叫算子 2-范数,记为 ∥A∥2)是矩阵作为线性变换的”最大拉伸倍数”:
∥A∥2=max∥x∥2=1∥Ax∥2=σmax(A)
逐项理解:
- max∥x∥2=1∥Ax∥2:在所有单位向量 x 中,找使 Ax 长度最大的那个——这衡量了 A 作为线性映射能把向量拉伸到多长
- σmax(A):这个最大拉伸倍数恰好等于 A 的最大奇异值
为什么 ∥A∥2=σmax?回忆 SVD 的几何意义:A 将单位球映射为一个椭球,椭球的半轴长度就是奇异值 σ1≥σ2≥⋯。所以最大拉伸方向的拉伸倍数正是 σ1=σmax。
算子范数的一般形式:spectral 范数是更一般的算子范数(induced norm)的特例。给定向量范数 ∥⋅∥p,算子 p-范数定义为:
∥A∥p=max∥x∥p=1∥Ax∥p
当 p=2 时就是 spectral 范数。“spectral”这个名字来自它与 ATA 的谱(spectrum,即特征值集合)的关系:记 ATA 的最大特征值为 λ1(ATA),则 ∥A∥2=λ1(ATA)。这和前面的 σmax 是同一个量——回忆 SVD 的推导,σi=λi(ATA),所以 λ1(ATA)=σ1=σmax。
ML 中的应用:
- Lipschitz 约束:如果 f(x)=Ax,那么 f 的 Lipschitz 常数就是 ∥A∥2。对于更复杂的网络层 f(x)=ϕ(Wx+b)(其中 ϕ 是 1-Lipschitz 的激活函数如 ReLU),该层的 Lipschitz 常数 ≤∥W∥2
- Spectral normalization(Miyato et al., 2018):将权重矩阵归一化为 Wˉ=W/∥W∥2,使每层 Lipschitz 常数 ≤1,从而稳定 GAN 判别器的训练
- Eckart-Young 定理的另一面:minrank(B)≤k∥A−B∥2=σk+1——spectral 范数下的截断误差仅取决于第一个被丢弃的奇异值
性质:∥A∥2 同样具有酉不变性。此外,它满足亚乘性(submultiplicativity):∥AB∥2≤∥A∥2⋅∥B∥2——这是 Lipschitz 常数可以逐层相乘的数学基础。
Nuclear 范数:秩的凸松弛
定义:矩阵的 nuclear 范数(也叫迹范数或 Ky Fan n-范数,记为 ∥A∥∗)是所有奇异值之和:
∥A∥∗=∑i=1rσi
其中 r=rank(A),σ1≥⋯≥σr>0 是 A 的非零奇异值。
与秩的关系——凸松弛:
矩阵的秩 rank(A) 是非零奇异值的个数(即 ℓ0 “范数”),而 nuclear 范数 ∥A∥∗ 是非零奇异值的和(即 ℓ1 范数)。这个关系完全类比向量的情况:
| 向量 | 矩阵(对奇异值向量) |
|---|
| ∥σ∥0= 非零分量个数 | rank(A)= 非零奇异值个数 |
| ∥σ∥1=∑i∣σi∣ | ∥A∥∗=∑iσi |
在向量世界中,ℓ0 最小化(稀疏恢复)是 NP-hard 的,但它的凸松弛 ℓ1 最小化(Lasso/BPDN)是一个凸问题,可以高效求解——而且在很多条件下能精确恢复稀疏解。
完全类比地,在矩阵世界中:
- 秩最小化(minrank(X) s.t. 约束)是 NP-hard 的
- Nuclear 范数最小化(min∥X∥∗ s.t. 约束)是一个凸问题——它是秩函数在谱范数单位球上的凸包(convex envelope)(见 Candès & Recht, 2009)
这个凸松弛关系是 nuclear 范数在理论上最重要的性质。
ML 中的应用:
- 矩阵补全(Netflix Prize 问题):从极少的观测条目恢复低秩矩阵,核心优化问题是 min∥X∥∗ s.t. Xij=Mij for observed (i,j)
- Robust PCA:将数据矩阵分解为低秩 + 稀疏:min∥L∥∗+λ∥S∥1 s.t. M=L+S
这两个应用将在后续文章中详细展开。
性质:∥A∥∗ 也是酉不变范数。它还有一个优雅的对偶表示:∥A∥∗=max∥B∥2≤1⟨A,B⟩(其中 ⟨A,B⟩=tr(ATB) 是矩阵内积,下文马上定义)。
三种范数的关系
三种范数都可以用奇异值表示,这使得它们之间的不等式关系非常透明。设 A 的非零奇异值为 σ1≥⋯≥σr(r=rank(A)):
Spectral 与 Frobenius:
∥A∥2≤∥A∥F≤r∥A∥2
左边的不等式:∥A∥2=σmax=σ1,而 ∥A∥F=∑iσi2≥σ12=σ1。右边的不等式:∑iσi2≤r⋅σ12(每个 σi≤σ1)。等号成立条件:左边等号当且仅当 rank(A)=1;右边等号当且仅当所有奇异值相等(σ1=⋯=σr)。
Frobenius 与 Nuclear:
∥A∥F≤∥A∥∗≤r∥A∥F
左边:由 Cauchy-Schwarz 不等式,(∑iσi)2≤r⋅∑iσi2,取平方根即 ∥A∥F=∑iσi2≤∑iσi=∥A∥∗……等等,方向反了。实际上是 ∥A∥F≤∥A∥∗,因为 (∑iσi2)≤(∑iσi)2(每项 σi≤∑jσj,所以 σi2≤σi⋅∑jσj,对 i 求和即可)。右边 ∥A∥∗≤r∥A∥F 由 Cauchy-Schwarz 得到:∑iσi=∑i1⋅σi≤r⋅∑iσi2。
对偶关系:
在矩阵范数的世界中,spectral 范数和 nuclear 范数互为对偶:
∥A∥∗=max∥B∥2≤1tr(BTA),∥A∥2=max∥B∥∗≤1tr(BTA)
而 Frobenius 范数是自对偶的:∥A∥F=max∥B∥F≤1tr(BTA)。
对偶关系的直觉:nuclear 范数”对偶”于 spectral 范数,就像 ℓ1 对偶于 ℓ∞——一个衡量”总量”(∑iσi),另一个衡量”峰值”(maxiσi)。
速查表
三大矩阵范数(全部用奇异值表达)
| 范数 | 符号 | 奇异值表达 | 角色 |
|---|
| Frobenius | ∥A∥F | ∑iσi2=tr(ATA) | 总能量 |
| Spectral | ∥A∥2 | σmax | 最大拉伸 |
| Nuclear | ∥A∥∗ | ∑iσi | 秩(ℓ0)的凸松弛(ℓ1) |
下图将三种范数统一到奇异值谱上,直观展示它们”读”奇异值的不同方式:
向量范数与矩阵范数:拉平的桥梁
前面分别介绍了向量范数(ℓ1,ℓ2,ℓ∞)和矩阵范数(Nuclear, Frobenius, Spectral)。你可能已经注意到一个有趣的对应:矩阵范数的奇异值表达和向量范数的 ℓp 公式形式上完全一样。这不是巧合——三种核心矩阵范数就是把奇异值排成向量 σ=(σ1,…,σr) 后,分别取 ℓ1、ℓ2、ℓ∞:
| 向量范数 | 对奇异值向量 σ | = 矩阵范数 |
|---|
| ∥σ∥1=∑iσi | Nuclear | ∥A∥∗ |
| ∥σ∥2=∑iσi2 | Frobenius | ∥A∥F |
| ∥σ∥∞=maxiσi | Spectral | ∥A∥2 |
但矩阵范数还有另一条通往向量范数的路径:逐元素拉平。把 m×n 矩阵 W 的所有 mn 个元素排成一个长向量 vec(W),则:
∥W∥F=∥vec(W)∥2,∑ij∣wij∣=∥vec(W)∥1
第一个等式就是 Frobenius 范数的定义本身(逐元素平方和再开方 = 拉平后的 ℓ2)。第二个等式把逐元素绝对值之和等价于拉平后的 ℓ1。
回到正则化:矩阵权重为什么用”向量范数”?
在 ML 中,weight decay / L2 正则化的惩罚项写作 λ∑ijwij2。这个表达式作用在权重矩阵 W 上,但看起来像向量的 ℓ2 范数。这是合理的吗?
答案是两者完全等价——本质上是同一个量的两种看法:
λ∑ijwij2=λ∥vec(W)∥22=λ∥W∥F2
L2 正则化逐元素惩罚每个 wij,参数在矩阵中的排列方式不影响结果。不管是 100×200 的权重矩阵还是拉平成 20000 维向量,惩罚值一模一样。L1 正则化同理:λ∑ij∣wij∣=λ∥vec(W)∥1。
这就是为什么前面单位球形状与正则化效果中的分析(菱形→稀疏、圆→均匀缩小)可以直接应用到矩阵权重上:每个 wij 就是那个高维向量中的一个分量,几何直觉完全不变。
但如果你想利用矩阵的结构呢? 逐元素正则化把矩阵视为”一堆标量”,完全忽略了行列之间的关联。当我们关心矩阵的全局结构——比如希望权重矩阵是低秩的——就需要真正的矩阵范数:
| 正则化方式 | 惩罚项 | 作用对象 | 效果 |
|---|
| L1 (Lasso) | ∑ij∣wij∣ | 逐元素 | 元素级稀疏(很多 wij=0) |
| L2 (weight decay) | ∑ijwij2=∥W∥F2 | 逐元素 | 均匀缩小所有元素 |
| Nuclear norm | ∥W∥∗=∑iσi | 奇异值 | 低秩(ℓ1 作用在 σ 上→奇异值稀疏) |
| Spectral norm | ∥W∥2=σmax | 奇异值 | 约束最大拉伸 → Lipschitz 控制 |
注意 nuclear norm 和 L1 的类比:L1 对向量元素做 ℓ1→元素级稀疏;nuclear norm 对奇异值做 ℓ1→奇异值级稀疏,即低秩。这正是前面”秩的凸松弛”的精确含义。
矩阵内积
有了范数,下一个自然的问题是:两个矩阵之间的”相似度”怎么度量?就像向量有内积 ⟨x,y⟩=xTy,矩阵也有内积。
定义:矩阵内积(Frobenius 内积)定义为:
⟨A,B⟩=tr(ATB)=∑i=1m∑j=1naijbij
其中 A,B∈Rm×n。这就是把两个矩阵逐元素相乘再求和——等价于把矩阵拉平成向量后做点积。
与 Frobenius 范数的关系:
∥A∥F=⟨A,A⟩
这正如向量范数 ∥x∥2=⟨x,x⟩。Frobenius 范数是由这个内积诱导出的范数。
性质:
- 对称性:⟨A,B⟩=⟨B,A⟩
- 线性性:⟨αA+βB,C⟩=α⟨A,C⟩+β⟨B,C⟩
- 正定性:⟨A,A⟩≥0,等号当且仅当 A=0
- Cauchy-Schwarz 不等式:∣⟨A,B⟩∣≤∥A∥F∥B∥F
在 ML 中的出现:矩阵内积出现在很多地方,虽然不总是以 tr(ATB) 的形式出现:
- 矩阵 Taylor 展开中:L(W+ΔW)≈L(W)+⟨∇WL,ΔW⟩+⋯
- nuclear 范数的对偶定义:∥A∥∗=max∥B∥2≤1⟨A,B⟩
- SVD 外积展开:⟨A,uiviT⟩=σi——矩阵在第 i 个秩一方向上的”投影”
条件数:系统敏感性的度量
从一个例子开始
考虑线性方程组 Ax=b。假设 b 有微小的测量误差 δb,解变成 x+δx,其中 A(x+δx)=b+δb。
关键问题:b 的微小扰动会导致 x 的多大变化?
对两个线性系统相减:A⋅δx=δb,所以 δx=A−1δb。取范数:
∥δx∥≤∥A−1∥⋅∥δb∥
同时 ∥b∥=∥Ax∥≤∥A∥⋅∥x∥,即 1/∥x∥≤∥A∥/∥b∥。两式合并:
∥x∥∥δx∥≤∥A∥⋅∥A−1∥⋅∥b∥∥δb∥
这里 ∥A∥⋅∥A−1∥ 这个乘积就是条件数——它精确地量化了输入的相对误差如何被放大为输出的相对误差。
定义
条件数(condition number):对可逆矩阵 A,定义
κ(A)=∥A∥⋅∥A−1∥
当使用 ℓ2 范数(spectral 范数)时:
条件数
κ(A)=σminσmax
κ≈1(良态),κ≫1(病态)。正交矩阵 κ(Q)=1。
逐项理解:
- σmax(A):A 的最大奇异值,即 A 能把输入向量最大拉伸多少倍
- σmin(A):A 的最小非零奇异值,即 A 能把输入向量最少拉伸多少倍
- κ(A):最大拉伸与最小拉伸的比值——衡量 A 在不同方向上拉伸的”不均匀程度”
几何直觉:A 把单位球映射成椭球(SVD 的几何图像)。κ(A) 是椭球最长半轴与最短半轴的比值。如果 κ 很大,椭球很”扁”——在短轴方向上微小的扰动会被 A−1 放大成大的变化。
良态 vs. 病态
| 条件数 | 含义 | 直觉 |
|---|
| κ(A)=1 | 最佳:A 是正交矩阵(旋转/反射) | 椭球退化为球——各方向拉伸相同 |
| κ(A)∼1—10 | 良态(well-conditioned) | 椭球接近球形 |
| κ(A)∼103—106 | 病态(ill-conditioned) | 椭球很扁——求解不稳定 |
| κ(A)=∞ | 奇异矩阵(σmin=0) | 椭球退化——某方向完全消失 |
实际影响:在有限精度浮点运算中,求解 Ax=b 时,结果 x^ 的相对误差大约是(见 Higham, 2020):
∥x∥∥x^−x∥≲κ(A)⋅ϵmachine
其中 ϵmachine≈10−16(双精度浮点)。如果 κ(A)=1012,你只能指望结果有 16−12=4 位有效数字。
条件数与 ML
条件数在 ML 中不经常被直接计算,但它隐含地影响训练的稳定性:
- Hessian 矩阵的条件数:κ(H) 大意味着损失曲面在不同方向上曲率差异大——梯度下降需要极小的步长才能在高曲率方向上不发散,同时在低曲率方向上收敛极慢。这正是需要 Adam、L-BFGS 等二阶优化器的原因
- 特征缩放(feature scaling):对数据矩阵 X 做标准化(各列均值为 0、方差为 1),实际上是在减小 XTX 的条件数,从而改善梯度下降的收敛速度
- 预条件(preconditioning):在 Ax=b 两边左乘 P−1 使 P−1A 的条件数更小,是大规模数值计算中的标准技巧
数值例子
用一个具体的 2×2 矩阵把前面的概念串起来。取:
A=[3113]
第一步:奇异值
A 是对称矩阵,所以奇异值就是特征值的绝对值。特征值:
det(A−λI)=(3−λ)2−1=λ2−6λ+8=(λ−4)(λ−2)=0
λ1=4,λ2=2
因为两个特征值都为正(A 是正定矩阵),奇异值 = 特征值:σ1=4,σ2=2。
第二步:三种范数
Frobenius 范数:
∥A∥F=32+12+12+32=9+1+1+9=20=25≈4.472
用奇异值验证:σ12+σ22=16+4=20=25 ✓
Spectral 范数:
∥A∥2=σmax=4
Nuclear 范数:
∥A∥∗=σ1+σ2=4+2=6
验证不等式:∥A∥2=4≤∥A∥F=4.472≤∥A∥∗=6 ✓
验证 ∥A∥F≤r∥A∥2:4.472≤2×4=5.657 ✓
第三步:矩阵内积
取 B=[1001](单位矩阵),计算:
⟨A,B⟩=tr(ATB)=tr(A)=3+3=6
直觉:⟨A,I⟩=tr(A) 是矩阵对角线元素之和——矩阵在”单位方向”上的投影。
第四步:条件数
κ(A)=σminσmax=24=2
条件数为 2,这是一个良态矩阵。解 Ax=b 时,b 的 1% 误差最多导致 x 的 2% 误差。
对比一个病态矩阵:取 A′=[32.99911]。
det(A′)=3×1−1×2.999=0.001
这个矩阵几乎奇异(行列式接近 0)。它的奇异值大约为 σ1≈4.243,σ2≈0.000236,所以 κ(A′)≈18000。同样 1% 的输入误差,输出误差可达 180 倍——几乎不可能得到有意义的数值解。
总结与展望
本文建立了矩阵度量的完整工具箱。回顾关键要点:
- Frobenius 范数 ∥A∥F=∑iσi2:总能量度量,ML 中最常用(MSE、正则化、Eckart-Young)
- Spectral 范数 ∥A∥2=σmax:最大拉伸度量,控制 Lipschitz 常数和训练稳定性
- Nuclear 范数 ∥A∥∗=∑iσi:秩的凸松弛,矩阵补全和 Robust PCA 的理论基石
- 矩阵内积 ⟨A,B⟩=tr(ATB):矩阵相似度,连接 Frobenius 范数与迹运算
- 条件数 κ(A)=σmax/σmin:系统敏感性的放大倍数,决定数值求解的可靠性
- 三种范数都是酉不变的(只依赖奇异值),且有清晰的大小关系:∥A∥2≤∥A∥F≤∥A∥∗
注意到一个关键的主题:所有三种范数都可以用奇异值表达。这不是巧合——SVD 是矩阵分析的”自然坐标系”,范数在这个坐标系下取最简形式。这再次印证了 Art. 3 SVD 中 SVD 的核心地位。
有了度量工具,我们可以定量地回答”近似有多好”这个问题。但 ML 中的矩阵不只被分解和度量——它们还被优化。当损失函数包含矩阵参数时,我们需要对矩阵求导。下一篇将建立工具链的第三件——矩阵微积分,从标量对矩阵的求导开始,通向反向传播和 Hessian 分析。