随机化 SVD：当精确分解算不动的时候

上一篇我们看到 PCA 的核心计算就是 SVD——对中心化数据矩阵 $\tilde{X} = U\Sigma V^T$ 求前 $k$ 个奇异向量。对于一个小规模矩阵，经典 SVD 算法（如 Golub-Kahan 双对角化）完全够用。但当矩阵规模变大时，问题来了。

精确 SVD 的代价：对一个 $m \times n$ 矩阵，经典 SVD 的复杂度是 $O(mn\min(m,n))$ 。考虑一个现实场景——Netflix 的用户-电影评分矩阵大约是 $480{,}000 \times 17{,}000$ ，全 SVD 的计算量约为 $480{,}000 \times 17{,}000 \times 17{,}000 \approx 1.4 \times 10^{14}$ 次浮点操作。即使在现代硬件上，这也需要数小时乃至数天。而在实际应用中，我们通常只需要前 $k$ （比如 50 或 100）个奇异值和奇异向量——全 SVD 做了太多不必要的工作。

核心思想：既然我们只要前 $k$ 个分量，何不先用一个随机投影将矩阵压缩到一个远小于原始维度的子空间，然后在这个小子空间里做精确 SVD？只要随机投影足够好——即它大致保持了矩阵的”重要方向”——最终结果就接近精确的截断 SVD。

这就是随机化 SVD（Randomized SVD）的思想。它的理论基础是一个看似违反直觉但异常深刻的结论：随机投影几乎保持距离——Johnson-Lindenstrauss 引理。

Johnson-Lindenstrauss 引理

直觉

想象你有 $N$ 个点散布在 $\mathbb{R}^d$ 中， $d$ 很大（比如 10,000 维）。你想把这些点投影到低维空间（比如 $k = 50$ 维）以便存储和计算。一般来说，降维必然丢失信息，点与点之间的距离会被扭曲。

但 Johnson-Lindenstrauss（JL）引理告诉我们一个惊人的事实：只要目标维度 $k$ 与 $\ln N$ 成正比，一个随机线性投影就能同时保持所有点对之间的距离，失真不超过 $\varepsilon$ 。

注意这里的关键词：

随机：不需要精心设计投影矩阵，随机高斯矩阵就够了
同时：不是保持某一对点的距离，而是所有 $\binom{N}{2}$ 对的距离
与 $d$ 无关：目标维度只取决于点数 $N$ 和容差 $\varepsilon$ ，与原始维度 $d$ 完全无关

严格陈述

引理（Johnson & Lindenstrauss, 1984）：给定 $0 < \varepsilon < 1$ 和 $N$ 个点 $\mathbf{x}_1, \ldots, \mathbf{x}_N \in \mathbb{R}^d$ ，若

$k \geq \frac{8\ln N}{\varepsilon^2}$

则随机线性映射 $f(\mathbf{x}) = \frac{1}{\sqrt{k}}\Omega\mathbf{x}$ （其中 $\Omega \in \mathbb{R}^{k \times d}$ ，每个元素独立采样自 $\mathcal{N}(0, 1)$ ）以高概率满足：对所有 $1 \leq i, j \leq N$ （即全部 $\binom{N}{2}$ 个点对），

$(1 - \varepsilon)\|\mathbf{x}_i - \mathbf{x}_j\|^2 \leq \|f(\mathbf{x}_i) - f(\mathbf{x}_j)\|^2 \leq (1 + \varepsilon)\|\mathbf{x}_i - \mathbf{x}_j\|^2$

注意：经典陈述用”存在线性映射”，但证明是构造性的——你不需要搜索这个映射，随机生成 $\Omega$ 就行，它大概率满足条件。

“随机投影”是什么？ 就是矩阵乘法 $\mathbf{y} = \frac{1}{\sqrt{k}}\Omega\mathbf{x}$ 。原始向量 $\mathbf{x} \in \mathbb{R}^d$ ，结果 $\mathbf{y} \in \mathbb{R}^k$ （ $k \ll d$ ）。 $\Omega$ 的每一行是 $\mathbb{R}^d$ 中的一个随机方向， $y_i = \frac{1}{\sqrt{k}}\boldsymbol{\omega}_i^T\mathbf{x}$ 就是 $\mathbf{x}$ 在这个随机方向上的投影分量。 $k$ 个随机方向一起，把高维信息”压缩”到 $k$ 维。 $1/\sqrt{k}$ 是归一化因子，使得 $\|\mathbf{y}\|^2$ 在期望意义下等于 $\|\mathbf{x}\|^2$ 。

逐项理解各参数：

$\varepsilon$ （epsilon）：允许的最大相对失真。 $\varepsilon = 0.1$ 意味着距离最多变化 10%
$N$ ：总点数。 $k$ 的下界与 $\ln N$ 成正比，因为需要对全部 $\binom{N}{2} < N^2/2$ 个点对做 union bound——点越多，需要更高的维度来保证所有对同时不失真。但增长只是对数的：点数翻 $10$ 倍， $k$ 只需多 $8\ln 10 / \varepsilon^2 \approx 18/\varepsilon^2$
$k \geq 8\ln N / \varepsilon^2$ ：目标维度的下界，与原始维度 $d$ 完全无关。 $N = 1{,}000{,}000$ 个点、 $\varepsilon = 0.1$ 时， $k \geq 8 \times \ln(10^6) / 0.01 \approx 11{,}053$ ——从任意高维降到约一万维，所有距离保持 90%-110%

$1/\sqrt{k}$ 是必须的吗？ 不是。不除的话， $\|\Omega\mathbf{x}\|^2$ 的期望是 $k\|\mathbf{x}\|^2$ ——所有距离被统一放大 $k$ 倍，但 JL 保证的相对失真不受全局缩放影响（集中不等式控制的是 $\|\Omega\mathbf{x}\|^2/(k\|\mathbf{x}\|^2)$ 偏离 1 的程度）。如果只关心距离的排序（如最近邻搜索）， $1/\sqrt{k}$ 完全不需要；如果需要投影后的距离在绝对数值上近似原始距离，就加上它。加 $1/\sqrt{k}$ 使 $\mathbb{E}[\|f(\mathbf{x})\|^2] = \|\mathbf{x}\|^2$ ，公式更干净。

证明思路

完整证明超出本文范围，但核心思路值得一看。关键在于一个集中不等式（concentration inequality）：

对单个向量 $\mathbf{x}$ ，随机投影 $f(\mathbf{x}) = \frac{1}{\sqrt{k}}\Omega\mathbf{x}$ 的范数平方 $\|f(\mathbf{x})\|^2$ 是 $k$ 个独立卡方变量之和（经缩放）。由 Hoeffding 不等式（或更精确的 sub-Gaussian 尾界）：

$\Pr\Big[\big|\|f(\mathbf{x})\|^2 - \|\mathbf{x}\|^2\big| > \varepsilon\|\mathbf{x}\|^2\Big] \leq 2\exp\!\Big(-\frac{k\varepsilon^2}{8}\Big)$

将 $\mathbf{x}$ 替换为 $\mathbf{x}_i - \mathbf{x}_j$ ，就得到单个点对的距离保持概率。对全部 $\binom{N}{2} < N^2/2$ 个点对取 union bound：

$\Pr[\text{存在某对距离失真超过 } \varepsilon] < N^2 \exp\!\Big(-\frac{k\varepsilon^2}{8}\Big)$

令右边 $< 1$ ，即 $k > 8\ln N / \varepsilon^2$ ——这就是 JL 引理的维度要求。

深层含义：JL 引理的力量在于它的通用性。不需要对数据做任何假设（无需低秩、无需稀疏、无需特殊分布），只要目标维度足够大，随机投影就能保持距离。这为随机化算法提供了坚实的理论基础。

可视化

用下面的交互组件亲手体验 JL 引理。我们生成 $d = 50$ 维的随机高斯点，投影到 $k$ 维，然后在散点图中对比每对点的原始距离和投影距离。如果 JL 引理成立，所有点应该落在对角线附近的 $(1 \pm \varepsilon)$ 容差带内。

试试：先用很小的 $k$ （如 2-3），观察点偏离对角线的程度；然后逐渐增大 $k$ ，观察点如何收敛到对角线。

Johnson-Lindenstrauss 引理：随机投影保持距离

高维点对 → 随机投影到低维 → 对比成对距离

投影维度 k k:8

点数 n:30

距离保持统计

原始维度 d:50投影维度 k k:8 < 303 (JL 理论下界)落入容差带的点对:345/435 (79.3%)最大失真:63.6%平均失真:19.0%

从 JL 到随机化 SVD

JL 引理保证了随机投影保持距离。但随机化 SVD 需要更强的性质：随机投影不仅要保持距离，还要捕获矩阵的主要列空间。这正是 Halko、Martinsson 和 Tropp（2011）在其里程碑论文中系统发展的理论。

关键洞察

设 $A \in \mathbb{R}^{m \times n}$ 的精确截断 SVD 为 $A_k = U_k\Sigma_k V_k^T$ ，其中 $U_k \in \mathbb{R}^{m \times k}$ 的列张成了 $A$ 的前 $k$ 个左奇异向量构成的子空间。

目标：找到一个 $m \times k$ （或略大）的正交矩阵 $Q$ ，使得 $Q$ 的列空间近似 $U_k$ 的列空间。为什么这就够了？因为 $QQ^T$ 是到 $Q$ 列空间的正交投影，而 $A_k = U_k\Sigma_kV_k^T = U_k(U_k^TA)$ 本质上是 $A$ 到 $U_k$ 列空间的投影。如果两个列空间近似相同，两个投影也近似相同： $QQ^TA \approx U_kU_k^TA = A_k$ 。一旦有了这样的 $Q$ ，就可以在 $Q$ 张成的小空间里做精确 SVD。

随机投影的作用：取随机矩阵 $\Omega \in \mathbb{R}^{n \times (k+p)}$ （ $p$ 是过采样参数，通常取 5-10），计算

$Y = A\Omega \in \mathbb{R}^{m \times (k+p)}$

每一列 $Y_j = A\boldsymbol{\omega}_j$ 是 $A$ 列空间的一个随机采样。由于 $A$ 的前 $k$ 个奇异方向”权重最大”（奇异值 $\sigma_1 \geq \cdots \geq \sigma_k$ 远大于 $\sigma_{k+1}, \ldots$ ），这些随机采样倾向于落在前 $k$ 个奇异方向张成的子空间附近。 $Y$ 的列空间就是我们要找的近似子空间。

Halko-Martinsson-Tropp 算法

Halko-Martinsson-Tropp 算法：两阶段流水线

算法步骤

输入：矩阵 $A \in \mathbb{R}^{m \times n}$ ，目标秩 $k$ ，过采样参数 $p$ （默认 $p = 5$ 或 $10$ ）

阶段 1——构建近似列空间：

生成随机测试矩阵 $\Omega \in \mathbb{R}^{n \times (k+p)}$ ，元素 $\Omega_{ij} \sim \mathcal{N}(0,1)$
计算采样矩阵 $Y = A\Omega \in \mathbb{R}^{m \times (k+p)}$
对 $Y$ 做 QR 分解： $Y = QR$ ，取 $Q \in \mathbb{R}^{m \times (k+p)}$ （正交基）

阶段 2——在小空间中精确分解： 4. 计算小矩阵 $B = Q^T A \in \mathbb{R}^{(k+p) \times n}$ 5. 对 $B$ 做精确 SVD： $B = \hat{U}\Sigma V^T$ 6. 恢复左奇异向量： $U = Q\hat{U}$

输出： $A \approx U\Sigma V^T$ （截断到前 $k$ 列即得秩 $k$ 近似）

逐步解读

每一步在做什么？

步骤 1-2（随机采样）： $Y = A\Omega$ 生成 $A$ 列空间的 $k+p$ 个随机线性组合。过采样参数 $p$ 的作用是提供额外的”安全余量”——即使某些随机方向碰巧与重要奇异方向正交（概率很小但非零），额外的 $p$ 个方向也能弥补。实践中 $p = 5 \sim 10$ 就足够了（见 Halko et al., 2011, Section 1.4）。
步骤 3（QR 分解）：将 $Y$ 的列正交化，得到列空间的正交基 $Q$ 。 $Q$ 的列空间与 $Y$ 的列空间相同，但数值上更稳定。
步骤 4（换基降维）： $B = Q^T A$ 把 $A$ 的每一列从标准基换到 $Q$ 的列向量构成的基下，得到投影后的坐标（ $(k+p) \times n$ 矩阵）。严格来说投影是 $QQ^TA$ （换基再换回）， $Q^TA$ 只做了前半步——但由于后面还要在小空间里做 SVD 再用 $Q$ 换回（步骤 6），前半步就够了。
步骤 5-6（精确 SVD + 恢复）：在小空间中做精确 SVD 代价很低。 $U = Q\hat{U}$ 把小空间中的奇异向量映射回原始空间。

伪代码

function RandomizedSVD(A, k, p=5):
    n = cols(A)
    # 阶段 1: 构建近似列空间
    Omega = randn(n, k+p)          # 随机高斯矩阵
    Y = A @ Omega                   # m × (k+p)
    Q, _ = qr(Y)                   # 正交化

    # 阶段 2: 小空间精确 SVD
    B = Q.T @ A                    # (k+p) × n
    U_hat, Sigma, Vt = svd(B)      # 精确 SVD
    U = Q @ U_hat                  # 恢复到原空间

    # 截断到秩 k
    return U[:, :k], Sigma[:k], Vt[:k, :]

幂迭代加速

当奇异值衰减缓慢时（即 $\sigma_k$ 和 $\sigma_{k+1}$ 相差不大），基础算法的精度可能不够。幂迭代（power iteration）可以放大奇异值之间的差距。

思路：将步骤 2 中的 $Y = A\Omega$ 替换为

$Y = (AA^T)^q A\Omega$

其中 $q$ 是幂迭代次数（通常 $q = 1$ 或 $2$ 就够）。 $A$ 的奇异值为 $\sigma_i$ ，则 $(AA^T)^q A$ 的奇异值为 $\sigma_i^{2q+1}$ 。如果原来 $\sigma_k / \sigma_{k+1} = 1.1$ ，一次幂迭代后变为 $(1.1)^3 \approx 1.33$ ，两次后变为 $(1.1)^5 \approx 1.61$ ——间隔被指数级放大，随机采样更容易捕获前 $k$ 个方向。

复杂度分析

步骤	操作	复杂度
$Y = A\Omega$	矩阵乘法	$O(mn(k+p))$
$Y = QR$	QR 分解	$O(m(k+p)^2)$
$B = Q^TA$	矩阵乘法	$O(mn(k+p))$
SVD of $B$	精确 SVD	$O((k+p)^2 n)$
$U = Q\hat{U}$	矩阵乘法	$O(m(k+p)^2)$

总计： $O(mn(k+p))$ （矩阵乘法主导）。

与精确 SVD 对比：

精确全 SVD： $O(mn\min(m,n))$
截断 SVD（Lanczos/ARPACK）： $O(mnk)$ （但需多次 pass，且不易并行）
随机化 SVD： $O(mn(k+p))$ ，只需一次 pass（计算 $Y = A\Omega$ ），天然适合并行和 streaming 场景

对于 Netflix 矩阵（ $m = 480{,}000$ , $n = 17{,}000$ , $k = 50$ , $p = 10$ ）：

全 SVD： $\sim 1.4 \times 10^{14}$ 操作
随机化 SVD： $\sim 480{,}000 \times 17{,}000 \times 60 \approx 4.9 \times 10^{11}$ 操作

加速约 300 倍，且以极高概率给出几乎相同的前 50 个奇异值和奇异向量。

误差界

随机化 SVD 的理论保证来自 Halko et al.（2011, Theorem 10.5, 10.6）。

期望误差

设 $A$ 的精确截断 SVD 为 $A_k = U_k\Sigma_k V_k^T$ （Eckart-Young 最佳近似），则随机化 SVD 的输出 $\tilde{A}_k$ 满足：

$\mathbb{E}\|A - \tilde{A}_k\|_F \leq \left(1 + \frac{k}{p-1}\right)^{1/2} \cdot \left(\sum_{j>k}\sigma_j^2\right)^{1/2}$

逐项理解：

$\left(\sum_{j>k}\sigma_j^2\right)^{1/2} = \|A - A_k\|_F$ 是精确截断 SVD 的误差（Eckart-Young 下界），无论什么方法都不可能比这更好
$(1 + k/(p-1))^{1/2}$ 是随机化带来的额外代价因子。当 $p = k$ （过采样等于目标秩）时，这个因子约为 $\sqrt{2}$ ——误差至多增大 41%。实践中 $p = 5 \sim 10$ 配合幂迭代即可让这个因子接近 1

Spectral 范数误差

对于谱范数（Art. 4 范数与条件数中定义的 $\|\cdot\|_2$ ），类似的界为：

$\mathbb{E}\|A - \tilde{A}_k\|_2 \leq \left(1 + \sqrt{\frac{k}{p-1}}\right)\sigma_{k+1} + \frac{e\sqrt{k+p}}{p}\left(\sum_{j>k}\sigma_j^2\right)^{1/2}$

当奇异值快速衰减（ $\sigma_{k+1} \ll \sigma_k$ ）时，第一项主导，误差接近最优的 $\sigma_{k+1}$ 。

直觉总结

随机化 SVD 的核心交易：用 $O(mn(k+p))$ 的计算量（远低于全 SVD）换取一个 $(1+\delta)$ 倍最优的近似，其中 $\delta$ 由过采样参数 $p$ 控制，且以指数概率趋于零。

数值例子

让我们用一个小例子验证算法的正确性。

设 $A \in \mathbb{R}^{6 \times 4}$ 是一个秩 2 矩阵加微弱噪声：

$A = \underbrace{\begin{bmatrix}3\\1\\0\\2\\1\\0\end{bmatrix}\begin{bmatrix}1&0&1&0\end{bmatrix}}_{\sigma_1 \approx \text{large}} + \underbrace{\begin{bmatrix}0\\1\\2\\0\\1\\2\end{bmatrix}\begin{bmatrix}0&1&0&1\end{bmatrix}}_{\sigma_2 \approx \text{medium}} + \underbrace{0.01 \cdot \text{noise}}_{\sigma_3, \sigma_4 \approx 0}$

假设我们只想要前 $k = 2$ 个奇异值。取 $p = 2$ ，所以随机矩阵 $\Omega \in \mathbb{R}^{4 \times 4}$ 。

计算 $Y = A\Omega$ ： $Y$ 是 $6 \times 4$ 矩阵。由于 $A$ 几乎是秩 2 的， $Y$ 的列几乎都落在前两个奇异向量张成的 2 维子空间内（加微弱噪声扰动）
QR 分解： $Q$ 的前两列精确捕获了这个 2 维子空间
小空间 SVD： $B = Q^T A$ 是 $4 \times 4$ ，对它做 SVD 代价极低
截断：取前 $k = 2$ 个分量，得到的 $\tilde{A}_2$ 与精确的 $A_2$ 几乎相同

关键观察： $A$ 的前两个奇异值远大于后两个（因为构造如此），所以随机投影几乎不会”遗漏”重要方向。奇异值衰减越快，随机化 SVD 越准确。

实践要点

何时用随机化 SVD

矩阵巨大但只需前 $k$ 个分量：这是最常见的场景。 $k \ll \min(m,n)$ 时加速最显著
矩阵只能做矩阵-向量乘法（如稀疏矩阵、隐式矩阵）：随机化 SVD 只需要 $A\Omega$ 和 $A^T Q$ 两次矩阵乘法，不需要显式访问 $A$ 的元素
Streaming / single-pass：数据按行/按块到达，每次更新 $Y$ 即可

主流实现

库	函数	备注
scikit-learn	`TruncatedSVD(algorithm='randomized')`	默认算法
scipy	`scipy.sparse.linalg.svds`	支持稀疏矩阵
Facebook (Meta)	`fbpca.pca`	专为大规模优化
cuML (RAPIDS)	`cuml.decomposition.TruncatedSVD`	GPU 加速

scikit-learn 的 TruncatedSVD 和 PCA 默认使用随机化 SVD（algorithm='randomized'），而非精确分解。绝大多数用户在调用 PCA(n_components=50) 时，实际执行的就是本文描述的 Halko-Martinsson-Tropp 算法。

总结与展望

本文建立了两个核心工具：

Johnson-Lindenstrauss 引理： $N$ 个高维点可以被随机投影到 $O(\ln N / \varepsilon^2)$ 维，同时保持所有成对距离在 $(1 \pm \varepsilon)$ 以内。目标维度只取决于点数和容差，与原始维度无关——这是随机化算法的理论基石
随机化 SVD（Halko-Martinsson-Tropp, 2011）：通过随机投影将矩阵压缩到 $k + p$ 维子空间，再在小空间做精确 SVD。复杂度从 $O(mn\min(m,n))$ 降到 $O(mn(k+p))$ ，误差至多比 Eckart-Young 最优界差一个由 $p$ 控制的常数因子

关键公式回顾：

JL 维度要求： $k \geq 8\ln N / \varepsilon^2$
随机投影： $f(\mathbf{x}) = \frac{1}{\sqrt{k}}\Omega\mathbf{x}$ ， $\Omega_{ij} \sim \mathcal{N}(0,1)$
核心步骤： $Y = A\Omega \to Q = \text{orth}(Y) \to B = Q^TA \to \text{SVD}(B)$
误差界： $\mathbb{E}\|A - \tilde{A}_k\|_F \leq (1 + k/(p-1))^{1/2}\|A - A_k\|_F$

随机化 SVD 是 Part 1 “拆”阶段从精确分解走向可扩展分解的关键一步。后续的应用文章——矩阵补全、NMF、Robust PCA——中的大规模计算几乎都依赖随机化技术加速核心的 SVD 步骤。更远处，Part 3 “汇”中 LoRA 的低秩适配和 Efficient Attention 的低秩近似，同样植根于”大矩阵有低秩结构，可以用少量随机采样捕获”这一洞察。