Art. 4 范数与条件数 建立了 nuclear 范数 ∥A∥∗=∑iσi 这一关键工具,并揭示了它的本质——秩的凸松弛。当时我们说这个性质是”矩阵补全理论的基石”。现在是兑现这个承诺的时候了。
矩阵补全(matrix completion)问题看起来不可能:一个 n×n 矩阵有 n2 个元素,你只看到其中极小一部分(比如 1%),却要恢复全部。这就像拿到一本书的几页随机碎片,要还原整本书。
但如果这个矩阵是低秩的——它的自由度远小于 n2——情况就完全不同了。一个秩为 r 的 n×n 矩阵只有 r(2n−r)≤2nr 个自由度(U∈Rn×r 和 V∈Rn×r 的参数减去旋转不变性的冗余)。如果观测数量足够覆盖这些自由度,恢复就有希望。
Candès 和 Recht (2009) 的开创性工作将这个直觉变成了严格定理:在温和的条件下,O(nrlog2n) 个随机观测就足以通过一个凸优化问题——nuclear 范数最小化——精确恢复原始矩阵。这个结果连接了压缩感知(compressed sensing)、凸优化和随机矩阵理论,是过去二十年最优美的数学结果之一。
问题设定:Netflix Prize 的数学抽象
从推荐系统到矩阵
2006 年,Netflix 悬赏 100 万美元征集改进其推荐算法的方案。数据是一个用户-电影评分矩阵 M∈Rm×n(约 48 万用户 × 1.8 万电影),其中只有约 1% 的元素被观测到——绝大多数用户只评价了极少数电影。
核心假设:用户的品味可以用少数几个潜在因素(latent factors)描述——比如对”动作片”、“文艺片”、“喜剧”的偏好程度。如果有 r 个潜在因素,那么评分矩阵可以近似表示为:
M≈UVT
其中 U∈Rm×r 是用户因子矩阵(每行是一个用户在 r 个因素上的”偏好向量”),V∈Rn×r 是电影因子矩阵(每行是一部电影在 r 个因素上的”属性向量”)。这意味着 rank(M)≤r,而 r 远小于 min(m,n)。
形式化问题
给定观测集合 Ω⊆{1,…,m}×{1,…,n}(已知评分的位置),我们观测到 Mij 对所有 (i,j)∈Ω。矩阵补全的目标是恢复完整的矩阵 M。
最自然的形式化是秩最小化:
minX∈Rm×nrank(X)s.t.Xij=Mij,∀(i,j)∈Ω(1)
即:在所有满足观测约束的矩阵中,找秩最小的那个。
问题:rank(⋅) 是非凸、不连续的函数(非零奇异值的个数 = 奇异值向量的 ℓ0 “范数”),这个优化问题是 NP-hard 的——和稀疏恢复中的 ℓ0 最小化一样困难。
核范数松弛:秩最小化的凸替代
从 ℓ₀ 到 ℓ₁,从 rank 到 nuclear 范数:凸松弛的类比
从 ℓ0 到 ℓ1 的类比
在 Art. 4 范数与条件数 中,我们建立了向量稀疏性和矩阵秩之间的精确类比:
| 向量 | 矩阵(对奇异值向量 σ) |
|---|
| ∥σ∥0= 非零分量个数 | rank(A)= 非零奇异值个数 |
| ∥σ∥1=∑i∣σi∣ | ∥A∥∗=∑iσi(nuclear 范数) |
| ℓ0 最小化(NP-hard) | 秩最小化(NP-hard) |
| ℓ1 最小化(凸,可高效求解) | nuclear 范数最小化(凸,可高效求解) |
在压缩感知(compressed sensing)中,Candès、Romberg 和 Tao 以及 Donoho 在 2006 年证明了:在 RIP(restricted isometry property)条件下,ℓ1 最小化可以精确恢复稀疏向量。矩阵补全理论将这个思路推广到矩阵世界。
Nuclear 范数最小化
将问题 (1) 中的 rank(X) 替换为它的凸松弛 ∥X∥∗,得到:
minX∈Rm×n∥X∥∗s.t.Xij=Mij,∀(i,j)∈Ω(2)
这是一个凸优化问题——更准确地说,它可以表述为一个半正定规划(semidefinite program, SDP)。
为什么 ∥X∥∗ 是 rank(X) 的”好”凸松弛?因为 nuclear 范数是秩函数在 spectral 范数单位球 {X:∥X∥2≤1} 上的凸包(convex envelope)——在所有凸函数中,nuclear 范数是对秩函数最紧的下界。形式化地说(见 Candès & Recht, 2009):
∥X∥∗=conv(rank(X))在 {X:∥X∥2≤1} 上
这意味着在 spectral 范数有界的矩阵集合内,最小化 nuclear 范数与最小化秩”尽可能等价”。
SDP 形式
Nuclear 范数最小化问题 (2) 可以等价地写成半正定规划:
minX,W1,W221(tr(W1)+tr(W2))s.t.[W1XTXW2]⪰0,Xij=Mij∀(i,j)∈Ω
其中 W1∈Rm×m,W2∈Rn×n,⪰0 表示半正定。这个等价性来自 nuclear 范数的变分表示:
∥X∥∗=minX=ABT21(∥A∥F2+∥B∥F2)
SDP 可以用通用的内点法求解,但对大规模问题(如 Netflix 的 48 万 × 1.8 万矩阵)计算代价过高。实践中使用更高效的专用算法——见本文后半部分。
Incoherence 条件:不是所有矩阵都能补全
Incoherence:信息均匀 vs 集中
圆圈 = 随机采样位置,颜色深度 = 矩阵元素大小
为什么需要额外条件
核范数松弛能精确恢复原矩阵吗?答案是:不一定——取决于原矩阵的结构。
考虑一个极端例子:M=e1e1T,即只在第 (1,1) 位置为 1、其余全为 0 的秩 1 矩阵。这个矩阵的所有”信息”集中在一个元素上。如果随机采样没有恰好采到 (1,1),我们将完全看不到任何非零信号——恢复不可能成功。
问题的根源是:这个矩阵的能量高度集中在少数行列上。用 SVD 的语言说:M=e1e1T 的左右奇异向量都是标准基向量 e1——它们与标准基完全”对齐”(coherent)。
相反,如果奇异向量在所有坐标上都比较”均匀”——即与标准基不对齐(incoherent)——那么矩阵的信息均匀分散在各个元素中,随机采样就能有效地捕获信息。
Incoherence 的形式定义
设 M∈Rn×n 是秩为 r 的矩阵,其紧 SVD(compact SVD)为 M=UΣVT,其中 U∈Rn×r,V∈Rn×r 的列分别是左右奇异向量。记 U 和 V 的列空间分别张成的子空间的正交投影矩阵为 PU=UUT 和 PV=VVT。
定义(Incoherence,见 Candès & Recht, 2009)。矩阵 M 满足参数为 μ0 的 incoherence 条件,如果:
max1≤i≤n∥PUei∥22≤nμ0r,max1≤j≤n∥PVej∥22≤nμ0r(3)
其中 ei 是第 i 个标准基向量。
逐项理解:
- ∥PUei∥22=∑k=1rUik2:这是 U 的第 i 行的平方范数,衡量第 i 个标准基向量在 U 的列空间中的”投影长度”
- nμ0r 是上界:由于 U 有 r 列且列正交归一,∑i=1n∥PUei∥22=tr(UUT)=r,所以”平均”值恰好是 r/n。Incoherence 条件要求没有哪一行的投影远大于平均值
- 参数 μ0≥1 衡量”不均匀”的程度。μ0=1 是最优情况(完全均匀),μ0=n/r 是最坏情况(如 M=e1e1T)
Candès 和 Recht 还引入了第二个条件:
∥UVT∥∞≤n2μ1r(4)
其中 ∥UVT∥∞=maxi,j∣(UVT)ij∣。这个条件要求 U 和 V 的行之间的内积也是均匀的,防止某个特定 (i,j) 位置承载过多信息。
直觉:为什么随机缺失比结构性缺失好
Incoherence 条件的直觉可以这样理解:
- Incoherent 矩阵(μ0 小):信息均匀分散在所有元素中。每个元素都携带了关于低秩结构的少量信息。随机采样就像”均匀品尝”,很快就能收集到足够的信息。
- Coherent 矩阵(μ0 大):信息集中在少数行列中。必须”恰好”采到这些关键位置才能获取信息。随机采样很可能错过关键元素。
一个有用的类比:incoherent 矩阵就像一篇信息均匀分布的文章——随机读几段就能把握大意。Coherent 矩阵就像密码学文本——关键信息隐藏在特定位置,漏掉一个字符就可能丢失全部含义。
好消息:许多实际应用中的低秩矩阵天然满足 incoherence 条件。例如,推荐系统中的用户-物品矩阵:如果用户偏好由少数潜在因素驱动,而这些因素在用户群体中的分布是相对均匀的(没有某个因素只被极少数用户拥有),那么对应的奇异向量就是 incoherent 的。
Candès & Recht (2009) 主定理
现在我们可以陈述 Candès 和 Recht 的核心结果。以下是他们论文中 Theorem 1.1 的严格陈述。
定理(Candès & Recht, 2009, Theorem 1.1)。设 M∈Rn×n 是秩为 r 的矩阵,满足 incoherence 条件 (3) 和 (4),参数分别为 μ0 和 μ1。设 Ω 是大小为 m=∣Ω∣ 的观测集合,其中每个 (i,j)∈Ω 独立均匀随机从 {1,…,n}×{1,…,n} 中采样。如果
m≥Cμ2nr(logn)2(5)
其中 μ=max(μ0,μ1),C>0 是一个数值常数,那么 nuclear 范数最小化问题 (2) 的唯一解就是 M 本身——即 X^=M——的概率至少为 1−n−3。
逐项理解这个定理:
- m≥Cμ2nr(logn)2:所需的观测数量。秩 r 和维度 n 的矩阵有 2nr−r2 个自由度,定理要求观测数量是自由度的 O(log2n) 倍——只比信息论下界多一个对数因子。
- 独立均匀随机采样:观测位置的随机性至关重要。如果观测位置是对抗性选择的(比如只看某几行),定理不成立。
- 概率 ≥1−n−3:以压倒性的概率成功。对于 n=10000,失败概率小于 10−12。
- 精确恢复:X^=M,没有任何误差。这不是近似——是精确等式。
- 唯一解:不仅 M 是可行解,而且是 nuclear 范数最小化的唯一最优解。
定理的意义
这个定理的惊人之处在于效率。一个秩为 r 的 n×n 矩阵有 n2 个元素,但只需要观测 O(nrlog2n) 个——当 r≪n 时,这远少于 n2。例如,对于 n=10000、r=10 的矩阵:
- 总元素数:n2=108
- 自由度:≈2nr=2×105
- 所需观测:O(nrlog2n)≈105×(log104)2≈105×85≈8.5×106
- 观测比例:≈8.5%
也就是说,观测不到 10% 的元素就能精确恢复整个矩阵。
后续改进
Candès 和 Recht (2009) 的原始结果中 (logn)2 因子稍大。后续工作改进了这个界:
- Candès 和 Tao (2010):将样本复杂度改进为 m≥Cμ0nrlog6n,去掉了对 μ1 条件的依赖
- Recht (2011):给出了更简洁的证明,样本复杂度为 m≥Cμ02nrlog2n
- Gross (2011):利用量子信息论工具进一步简化证明
这些改进的核心信息是一致的:O(nrpolylog(n)) 个观测就足以精确恢复。
信息论下界
上面的定理告诉我们 O(nrlog2n) 个观测足够。一个自然的问题是:最少需要多少观测?
自由度计数
秩为 r 的 n×n 矩阵的自由度是:
d=r(2n−r)
这是因为紧 SVD M=UΣVT 中,U∈Rn×r 在 Stiefel 流形上有 nr−(2r) 个自由度,Σ 有 r 个,V 同理,但 U 和 V 之间有 r 个符号的旋转冗余需要扣除。总计 r(2n−r)。
因此,至少需要 m≥r(2n−r)≈2nr 个观测来确定矩阵——否则问题是欠定的(方程数少于未知数)。
信息论下界的严格形式
仅仅自由度计数还不够:它只给出了代数约束,没有考虑随机采样带来的信息损失。
一个更精细的信息论论证(见 Candès & Tao, 2010 的讨论)表明:对于满足 incoherence 条件的秩 r 矩阵类,任何补全算法(不仅是 nuclear 范数最小化)都至少需要
m=Ω(nrlogn)
个观测才能以常数概率成功恢复。这里的 logn 因子来自coupon collector 问题的类比:要覆盖矩阵的所有行和列,nr 个纯随机采样平均需要”再多 logn 轮”。
这意味着 Candès 和 Recht 的 O(nrlog2n) 上界与 Ω(nrlogn) 下界之间只差一个 logn 因子——定理给出的采样数量几乎是最优的。
交互演示:观测比例与恢复质量
下面的交互组件演示了矩阵补全的核心现象。我们生成一个秩 2 的 8×8 矩阵,使用交替最小化算法(ALS)从部分观测中恢复它。拖动滑块改变观测比例,观察恢复质量如何变化。
50%
原始矩阵 (秩 2)
观测掩码
恢复结果
逐元素误差
提示:观测比例低于约 30% 时,恢复质量急剧下降——这正是 Candès & Recht 定理中 O(nr log² n) 下界的直观体现。
观察要点:
- 当观测比例 ≳50% 时,恢复几乎完美(相对误差接近 0)
- 当观测比例降到 ∼30% 以下时,恢复质量急剧下降
- 多次点击”重新采样”可以看到:即使在同一观测比例下,不同的采样模式也会导致不同的恢复质量——这正是随机性的影响
- 对于 8×8、秩 2 的矩阵,自由度 =2×(2×8−2)=28,总元素 =64,理论上约 28/64≈44% 的观测应该足以恢复
证明的核心思想(梗概)
Candès 和 Recht 的证明技术精深,完整展开需要几十页。这里我们概述证明的核心思路,不追求完整性,而是传达关键洞察。
最优性条件
Nuclear 范数最小化问题 (2) 的解 X^=M 当且仅当存在一个对偶证书(dual certificate)Λ∈Rn×n,使得:
- Λ 在观测集合 Ω 上有支撑:Λij=0 对所有 (i,j)∈/Ω
- PT(Λ)=UVT(投影到 M 的切空间上等于 UVT)
- ∥PT⊥(Λ)∥2<1(在正交补空间上的 spectral 范数严格小于 1)
其中 T 是秩 r 矩阵在 M 处的切空间,PT 和 PT⊥ 分别是向 T 和 T⊥ 的正交投影。UVT 是 nuclear 范数 ∥M∥∗ 的次梯度(subgradient)。
直觉:对偶证书的作用是”证明”M 是最优解。条件 2 保证在 M 附近沿切空间方向不可能降低 nuclear 范数,条件 3 保证沿法空间方向也不行。条件 1 保证证书与观测数据一致。
构造对偶证书
证明的核心困难是在随机采样集 Ω 上构造满足上述三个条件的 Λ。Candès 和 Recht 使用了 golfing scheme(高尔夫方案,Gross, 2011 命名)的思想:
- 将观测集 Ω 随机划分为 Ω1,…,ΩL 若干组
- 迭代地修正证书:Λ(0)=0,Λ(l)=Λ(l−1)+ 在 Ωl 上的修正项
- 每步修正减少”残差” UVT−PT(Λ(l)) 的大小
类比高尔夫球的过程:第一杆粗略地打向目标(大幅减少残差),后续几杆精细调整,最终把球打入洞中(残差趋于零)。
每步修正的成功依赖于随机矩阵理论的集中不等式(concentration inequalities),而 incoherence 条件保证了这些不等式成立。
含噪声情形
实际应用中,观测值通常包含噪声。设观测模型为:
Yij=Mij+Zij,(i,j)∈Ω
其中 Zij 是噪声。此时精确恢复不再可能,我们转而最小化带正则化的目标:
minX21∑(i,j)∈Ω(Xij−Yij)2+λ∥X∥∗(6)
这里 λ>0 是正则化参数,平衡数据拟合和低秩惩罚。Negahban 和 Wainwright (2012) 证明了在适当条件下,这个估计器的误差上界为:
n2∥X^−M∥F2≤C⋅mrσ2logn
其中 σ2 是噪声方差,m 是观测数。他们还证明了这个界本质上是最优的——没有算法能在同类矩阵上做得本质更好。
实践中的算法
Nuclear 范数最小化的 SDP 形式虽然理论上优美,但对大规模问题不实用。以下是实践中常用的高效算法。
奇异值阈值化(Singular Value Thresholding, SVT)
Cai、Candès 和 Shen (2010) 提出的 SVT 算法是求解 nuclear 范数正则化问题 (6) 的近端梯度方法。核心操作是软阈值化奇异值:
SVTτ(X)=Udiag((σi−τ)+)VT
其中 X=Udiag(σ1,…,σp)VT 是 X 的 SVD,(x)+=max(x,0),τ>0 是阈值参数。
逐项理解:
- 计算 X 的 SVD
- 将每个奇异值 σi 减去 τ,如果结果为负则置为 0
- 用修改后的奇异值重构矩阵
直觉:SVTτ 是 nuclear 范数的近端算子(proximal operator),类似于 ℓ1 范数的软阈值化促进向量稀疏性,SVT 通过缩减小奇异值促进矩阵的低秩性。
SVT 算法的迭代格式为:
X(t+1)=SVTτ(X(t)+δPΩ(M−X(t)))
其中 PΩ 是对 Ω 的采样算子(保留 Ω 中的元素,其余置零),δ>0 是步长。每次迭代先沿数据拟合方向走一步,再用 SVT 促进低秩。
交替最小化(Alternating Minimization, ALS)
交替最小化直接在因子空间中优化。假设 M≈UVT,其中 U∈Rn×r,V∈Rn×r,交替地:
- 固定 V,解 U:对每一行 i,U 的第 i 行 uiT 由如下最小二乘问题确定:
ui=argminu∑j:(i,j)∈Ω(Mij−uTvj)2
- 固定 U,解 V:类似地更新 V 的每一行。
每一步都是小规模最小二乘问题(r×r 线性方程组),计算非常高效。
Jain、Netrapalli 和 Sanghavi (2013) 给出了 ALS 收敛的理论保证:在 incoherence 条件下,ALS 以几何速率(即线性收敛)收敛到真实矩阵 M,且所需的样本复杂度为 O(μ4nr5log3n)——虽然常数比 nuclear 范数最小化差,但计算复杂度远低。
梯度下降方法
将补全问题参数化为 M≈UVT 后,可以直接对 U 和 V 做梯度下降:
minU∈Rn×r,V∈Rn×r∑(i,j)∈Ω(Mij−(UVT)ij)2
这是非凸问题(U 和 V 的乘积使目标函数非凸),但在实践中随机梯度下降(SGD)往往能找到全局最优解。近年的理论工作(如 Ge et al., 2016)表明:在 incoherence 条件下,这个非凸问题没有”坏的”局部极小值——所有局部极小值都是全局极小值。
算法比较
| 算法 | 优化形式 | 每步复杂度 | 理论保证 | 实践表现 |
|---|
| SDP 内点法 | 凸 (SDP) | O(n6.5) | 最优 | 仅限小规模 |
| SVT | 凸 (proximal) | O(n2r) per SVD | 最优 | 中等规模 |
| ALS | 非凸 (bilinear) | O(∣Ω∣r) | 几何收敛 | 大规模首选 |
| SGD | 非凸 (bilinear) | O(∣Ω∣) | 渐近收敛 | 极大规模 |
实践中,ALS 和 SGD 因其可扩展性而成为推荐系统中的标准选择。Netflix Prize 的获胜方案正是基于矩阵分解 + ALS/SGD 的变体。
数值例子
用一个小例子手算验证核心概念。取 n=4,r=1,矩阵:
M=2132[1321]=2132639642642132
这是一个秩 1 矩阵,M=uvT,其中 u=(2,1,3,2)T,v=(1,3,2,1)T。
自由度
秩 1 的 4×4 矩阵自由度 =1×(2×4−1)=7。总元素 =16。所以至少需要 7 个观测。
检验 incoherence
M 的 SVD 为 M=σ1u^v^T,其中归一化的奇异向量为:
u^=1812132,v^=1511321
Incoherence 条件 (3) 要求 maxiu^i2≤μ0r/n=μ0/4。
maxiu^i2=189=21
所以 μ0≥2。这是一个 incoherent 程度适中的矩阵(μ0=2,不算太大)。对比 e1e1T 的情况:maxiu^i2=1,需要 μ0≥n/r=4,是最差情况。
恢复演示
假设观测 8 个元素(50% 观测率):
Ω={(1,1),(1,3),(2,2),(2,4),(3,1),(3,3),(4,2),(4,4)}
观测值:M11=2,M13=4,M22=3,M24=1,M31=3,M33=6,M42=6,M44=2。
在秩 1 的假设下,Mij=uivj。从观测中:
M31M11=u3u1=32,M42M22=u4u2=63=21
M13M11=v3v1=42=21,M24M22=v4v2=13=3
从这些比值,加上归一化条件,可以恢复 u 和 v(进而恢复全部 M)。这个小例子直观地展示了低秩结构如何使”方程数少于未知数”的系统变得可解。
总结与展望
本文深入探讨了矩阵补全理论——从极少观测恢复低秩矩阵的数学框架。回顾关键要点:
- 问题:从观测集 Ω 中的 m 个元素恢复秩 r 的 n×n 矩阵 M
- 秩最小化 → nuclear 范数松弛:rank(X) 是 NP-hard 的,∥X∥∗ 是其在 spectral 范数单位球上的凸包,可高效求解
- Incoherence 条件:奇异向量与标准基不对齐(maxi∥PUei∥2≤μ0r/n),保证信息均匀分散
- Candès-Recht 定理:在 incoherence 条件下,m≥Cμ2nrlog2n 个随机观测足以通过 nuclear 范数最小化精确恢复 M,概率 ≥1−n−3
- 信息论下界:Ω(nrlogn),与上界只差一个 logn 因子
- 实践算法:SVT(凸但需 SVD)、ALS(高效、几何收敛)、SGD(可扩展到极大规模)
这篇文章是 nuclear 范数理论的直接应用:Art. 4 范数与条件数 建立了”nuclear 范数 = 秩的凸松弛”,本篇将其付诸实践。矩阵补全也是 Art. 3 SVD 中 SVD 低秩近似思想的自然延伸——从”已知全部元素时的最佳低秩近似”到”只知道部分元素时的精确低秩恢复”。
下一篇我们将看到另一种约束下的矩阵分解——非负矩阵分解(NMF):当因子矩阵的所有元素必须非负时,分解会自然产生”parts-based”的表示,揭示数据中有意义的局部结构。