奇异值分解：核心中的核心

上一篇我们学到了特征分解 $A = Q\Lambda Q^{-1}$ ——它揭示了方阵的”天然坐标系”，在特征基下线性变换退化为逐方向缩放。但特征分解有两个根本限制：第一，它只适用于方阵；第二，即使是方阵，也不一定能对角化。

现实中的数据矩阵几乎都是长方形的——用户-物品评分表（10万 × 5万）、词-文档矩阵（3万 × 100万）、图像批次（1000 × 784）。我们需要一个能处理任意 $m \times n$ 矩阵的分解工具，而且希望它总是存在、不需要附加条件。

奇异值分解（Singular Value Decomposition, SVD）正是这个工具。它是 ML 中使用最广泛的矩阵分解——Netflix Prize 的协同过滤、搜索引擎的潜在语义分析（LSI）、图像压缩、降噪、PCA，背后都是 SVD 或其变体。如果只学一种矩阵分解，学这个。

SVD 的核心思想可以一句话概括：

任何矩阵都可以分解为”旋转 → 拉伸 → 旋转”三步。

下面我们从几何直觉出发，经由严格推导，深入理解这个”核心中的核心”。

几何直觉：任何线性变换 = 旋转 → 拉伸 → 旋转

从特征分解的局限出发

回忆特征分解的几何含义： $A = Q\Lambda Q^{-1}$ 表示变换 $A$ 可以分解为”换基 → 逐方向缩放 → 换回来”三步。对于对称矩阵， $Q$ 是正交矩阵（旋转），所以分解变成”旋转 → 缩放 → 反旋转”。

但一般矩阵不是方阵，也不一定对称。一个 $m \times n$ 矩阵把 $\mathbb{R}^n$ 中的向量映射到 $\mathbb{R}^m$ 中——输入空间和输出空间甚至可以是不同维度的！特征分解的框架无法处理这种情况。

SVD 的几何图像

SVD 的关键洞察是：即使输入空间和输出空间维度不同，我们仍然可以找到两组正交基，使得变换在这两组基下变成最简单的形式。

具体来说，对任意 $A \in \mathbb{R}^{m \times n}$ ：

$A = U\Sigma V^T$

这个等式的几何含义是：将 $A$ 作用在向量 $\mathbf{x}$ 上的过程 $A\mathbf{x}$ 分解为三步：

$V^T$ （在输入空间旋转）：将 $\mathbf{x}$ 从标准基转换到输入空间的一组特殊正交基。 $V$ 是 $n \times n$ 正交矩阵。
$\Sigma$ （沿坐标轴拉伸，可能改变维度）：在新坐标下，每个分量独立缩放。 $\Sigma$ 是 $m \times n$ 的”对角”矩阵（只有 $\sigma_1, \sigma_2, \ldots$ 在主对角线上，其余为零）。
$U$ （在输出空间旋转）：将拉伸后的向量从输出空间的特殊基转换回标准基。 $U$ 是 $m \times m$ 正交矩阵。

下图展示了 SVD 的几何图像—— $A$ 把输入空间的单位圆映射为输出空间的椭圆，奇异值 $\sigma_i$ 就是椭圆的半轴长度：

与特征分解的对比：

	特征分解 $Q\Lambda Q^{-1}$	SVD $U\Sigma V^T$
适用范围	方阵，且需可对角化	任意 $m \times n$ 矩阵
基的数量	一组基 $Q$	两组基 $U$ （输出空间）和 $V$ （输入空间）
正交性	一般不保证（对称矩阵才正交）	总是正交
存在性	不一定存在	总是存在
缩放因子	特征值 $\lambda_i$ （可为负/复数）	奇异值 $\sigma_i \geq 0$ （非负实数）

严格定义与存在性证明

SVD 定理

定理（奇异值分解）：设 $A \in \mathbb{R}^{m \times n}$ 是任意实矩阵（不要求方阵、不要求满秩、不要求任何特殊结构），则存在：

正交矩阵 $U \in \mathbb{R}^{m \times m}$ （ $U^TU = UU^T = I_m$ ）
正交矩阵 $V \in \mathbb{R}^{n \times n}$ （ $V^TV = VV^T = I_n$ ）
“对角”矩阵 $\Sigma \in \mathbb{R}^{m \times n}$ ，其中 $\Sigma_{ii} = \sigma_i \geq 0$ ， $\Sigma_{ij} = 0$ （ $i \neq j$ ），且 $\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_{\min(m,n)} \geq 0$

使得：

SVD 核心公式（适用于任意 $m \times n$ 矩阵）

$A = U\Sigma V^T = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^T$

$\sigma_i \geq 0$ 且 $\sigma_1 \geq \sigma_2 \geq \cdots$ ； $r = \text{rank}(A)$ = 非零奇异值个数。

其中：

$\sigma_1, \sigma_2, \ldots, \sigma_r$ （ $r = \text{rank}(A)$ ）是 $A$ 的正奇异值（positive singular values）， $\sigma_{r+1} = \cdots = \sigma_{\min(m,n)} = 0$
$U$ 的列 $\mathbf{u}_1, \ldots, \mathbf{u}_m$ 称为 $A$ 的左奇异向量（left singular vectors）
$V$ 的列 $\mathbf{v}_1, \ldots, \mathbf{v}_n$ 称为 $A$ 的右奇异向量（right singular vectors）

逐项理解各因子

让我们仔细审视每个因子的维度、性质和含义。

$V \in \mathbb{R}^{n \times n}$ （右奇异向量矩阵）：

$n \times n$ 正交矩阵，列向量 $\mathbf{v}_1, \ldots, \mathbf{v}_n$ 构成 $\mathbb{R}^n$ （输入空间）的一组标准正交基
这些向量是 $A^TA$ 的特征向量（后面会推导）
几何含义： $V^T$ 把输入空间旋转到”SVD 坐标系”，在这个坐标系下 $A$ 的作用最简单

$\Sigma \in \mathbb{R}^{m \times n}$ （奇异值矩阵）：

$m \times n$ 矩阵，只有主对角线上有非零元素 $\sigma_1 \geq \sigma_2 \geq \cdots \geq 0$
如果 $m > n$ ： $\Sigma = \begin{bmatrix}\text{diag}(\sigma_1, \ldots, \sigma_n) \\ \mathbf{0}_{(m-n) \times n}\end{bmatrix}$ ，底部补零行
如果 $m < n$ ： $\Sigma = \begin{bmatrix}\text{diag}(\sigma_1, \ldots, \sigma_m) & \mathbf{0}_{m \times (n-m)}\end{bmatrix}$ ，右侧补零列
如果 $m = n$ ： $\Sigma$ 就是普通的对角矩阵
每个 $\sigma_i$ 衡量矩阵 $A$ 在第 $i$ 个方向上的”拉伸强度”
奇异值总是非负实数——这与特征值可以是负数或复数截然不同

$U \in \mathbb{R}^{m \times m}$ （左奇异向量矩阵）：

$m \times m$ 正交矩阵，列向量 $\mathbf{u}_1, \ldots, \mathbf{u}_m$ 构成 $\mathbb{R}^m$ （输出空间）的一组标准正交基
这些向量是 $AA^T$ 的特征向量
几何含义： $U$ 把拉伸后的坐标旋转到输出空间的标准基

$\Sigma$ 如何”选出”有效部分？ 回忆矩阵乘法的基本规则： $Ax$ 是 $A$ 的列向量的线性组合——右乘作用于列。对角矩阵是最简单的情况：左乘缩放行，右乘缩放列（“左行右列”）。在 $A = U\Sigma V^T$ 中：

$U\Sigma$ （ $\Sigma$ 右乘 $U$ ）： $\sigma_j$ 缩放 $U$ 的第 $j$ 列。当 $j > r$ 时 $\sigma_j = 0$ ，这些列被”消灭”→ 只有 $U$ 的前 $r$ 列存活
$\Sigma V^T$ （ $\Sigma$ 左乘 $V^T$ ）： $\sigma_i$ 缩放 $V^T$ 的第 $i$ 行。当 $i > r$ 时 $\sigma_i = 0$ ，这些行被”消灭”→ 只有 $V^T$ 的前 $r$ 行存活

这就是上面图中彩色和灰色区域的含义： $\Sigma$ 中的零奇异值自动屏蔽了 $U$ 和 $V^T$ 中的多余方向，只留下 rank $r$ 个有效分量参与乘积。

与 ML 数据矩阵的对应：当 $A = X \in \mathbb{R}^{m \times n}$ 是数据矩阵（ $m$ 个样本、 $n$ 个特征）时， $V$ 的列向量是特征空间 $\mathbb{R}^n$ 中的方向， $U$ 的列向量是样本空间 $\mathbb{R}^m$ 中的方向。这就是 Art. 1a 向量空间几何中提到的两个投影空间的区别：PCA 选取 $V$ 的前 $k$ 列作为投影方向（在特征空间中降维），而最小二乘的投影矩阵 $UU^T$ 则作用在样本空间中。同一个 SVD 同时给出了两个空间的最优基。

观察： $A^TA$ 与 $AA^T$ 这对孪生矩阵

在直接写出 SVD 的证明之前，让我们先观察两个与 $A$ 密切相关的矩阵——它们的性质会自然地把我们引向 SVD。

给定任意 $A \in \mathbb{R}^{m \times n}$ ，考虑：

	$A^TA$	$AA^T$
维度	$n \times n$ （输入空间）	$m \times m$ （输出空间）
对称性	$(A^TA)^T = A^TA$ ✓	$(AA^T)^T = AA^T$ ✓
半正定性	$\mathbf{x}^T(A^TA)\mathbf{x} = \\|A\mathbf{x}\\|^2 \geq 0$ ✓	$\mathbf{y}^T(AA^T)\mathbf{y} = \\|A^T\mathbf{y}\\|^2 \geq 0$ ✓

两者都是对称半正定的！由谱定理，它们各自可以正交对角化——特征值全部 $\geq 0$ ，特征向量构成正交基。

发现：它们共享非零特征值

这对孪生矩阵有一个惊人的性质。设 $A^TA\mathbf{v}_i = \lambda_i \mathbf{v}_i$ （ $\lambda_i > 0$ ），两边左乘 $A$ ：

$A(A^TA)\mathbf{v}_i = \lambda_i (A\mathbf{v}_i) \quad \Longrightarrow \quad (AA^T)(A\mathbf{v}_i) = \lambda_i (A\mathbf{v}_i)$

$A\mathbf{v}_i$ 是 $AA^T$ 的特征向量，特征值恰好也是 $\lambda_i$ ！反过来同理—— $AA^T$ 的特征向量左乘 $A^T$ 后变成 $A^TA$ 的特征向量。

结论： $A^TA$ 和 $AA^T$ 的非零特征值完全相同。记这些共享的非零特征值为 $\sigma_1^2 \geq \sigma_2^2 \geq \cdots \geq \sigma_r^2 > 0$ （取平方根得 $\sigma_i$ ）， $r = \text{rank}(A)$ 。

到这里，我们手上已经有了三样东西：

$V$ ： $A^TA$ 的正交特征向量（输入空间的一组正交基）
$U$ ： $AA^T$ 的正交特征向量（输出空间的一组正交基）
$\sigma_i$ ：两者共享的特征值的平方根

追问： $A$ 在 $V$ 基下的行为是什么？

$\{\mathbf{v}_1, \ldots, \mathbf{v}_n\}$ 是 $\mathbb{R}^n$ 的正交基。线性映射由它在一组基上的行为完全决定——搞清楚 $A\mathbf{v}_i$ 等于什么，就搞清楚了 $A$ 的一切。

对每个 $\mathbf{v}_i$ ，我们已经知道两件事：

长度已知：由范数定义 $\|\mathbf{x}\|^2 = \mathbf{x}^T\mathbf{x}$ ，取 $\mathbf{x} = A\mathbf{v}_i$ ，再代入特征值关系 $A^TA\mathbf{v}_i = \sigma_i^2\mathbf{v}_i$ ：

$\|A\mathbf{v}_i\|^2 = \mathbf{v}_i^T A^TA \mathbf{v}_i = \mathbf{v}_i^T(\sigma_i^2\mathbf{v}_i) = \sigma_i^2\underbrace{\mathbf{v}_i^T\mathbf{v}_i}_{=1} = \sigma_i^2$

所以 $\|A\mathbf{v}_i\| = \sigma_i$ 。

方向已知：上一节证明了 $A\mathbf{v}_i$ 是 $AA^T$ 的特征向量。归一化后记为 $\mathbf{u}_i$ 。

两者合在一起：

$A\mathbf{v}_i = \sigma_i\,\mathbf{u}_i$

这不是猜想，是直接从已有结论推出的。 $A$ 把输入空间的第 $i$ 个特征方向 $\mathbf{v}_i$ 映射到输出空间的第 $i$ 个特征方向 $\mathbf{u}_i$ ，拉伸倍数 = $\sigma_i$ 。

拼出 $A = U\Sigma V^T$

$A\mathbf{v}_i = \sigma_i\,\mathbf{u}_i$ 对每个 $i$ 都成立。把这 $n$ 个等式排成矩阵的列： $AV$ 的第 $i$ 列是 $A\mathbf{v}_i$ ， $U\Sigma$ 的第 $i$ 列是 $\sigma_i\mathbf{u}_i$ ，逐列相等即 $AV = U\Sigma$ 。 $V$ 是正交矩阵，右乘 $V^T$ ：

$A = U\Sigma V^T$

SVD 不是”碰巧维度对得上”的拼凑——它是 $A$ 在 $V$ 基下行为的自然表达。

但要使这个推导严格，还需验证 $\{\mathbf{u}_i\}$ 确实构成正交归一基。

严格验证

第一步：从 $A^TA$ 出发，做谱定理分解。

$A^TA = V\hat{\Lambda}V^T, \qquad \hat{\lambda}_1 \geq \cdots \geq \hat{\lambda}_r > 0 = \hat{\lambda}_{r+1} = \cdots = \hat{\lambda}_n$

得到右奇异向量 $\mathbf{v}_1, \ldots, \mathbf{v}_n$ 和奇异值 $\sigma_i = \sqrt{\hat{\lambda}_i}$ 。

第二步：定义 $\mathbf{u}_i = \frac{1}{\sigma_i}A\mathbf{v}_i$ （ $\sigma_i > 0$ ），验证归一化和正交性。

$\|\mathbf{u}_i\|^2 = \frac{1}{\sigma_i^2}\mathbf{v}_i^TA^TA\mathbf{v}_i = \frac{\sigma_i^2}{\sigma_i^2} = 1 \quad ✓$

$\mathbf{u}_i^T\mathbf{u}_j = \frac{1}{\sigma_i\sigma_j}\mathbf{v}_i^TA^TA\mathbf{v}_j = \frac{\sigma_j}{\sigma_i}\mathbf{v}_i^T\mathbf{v}_j = 0 \quad (i \neq j) \quad ✓$

对 $\sigma_i = 0$ 的那些方向（ $i > r$ ）， $\mathbf{v}_i \in \text{null}(A)$ ， $A$ 把它们映射到零向量。补充 $\mathbf{u}_{r+1}, \ldots, \mathbf{u}_m$ 为 $\text{null}(A^T)$ 中的任意正交基即可。

第三步： $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 对所有 $i$ 成立（ $i > r$ 时两边都是零），即 $AV = U\Sigma$ ，右乘 $V^T$ ：

$A = U\Sigma V^T \qquad \blacksquare$

猜想成立。SVD 的存在性就这样从 $A^TA$ 和 $AA^T$ 的对称性中自然地流出来了。

总结：SVD = 两次特征分解的打包

SVD ↔ 特征分解的桥梁

	矩阵	特征值	特征向量
$A^TA$	$n \times n$ 对称半正定	$\sigma_1^2, \ldots, \sigma_n^2$	右奇异向量 $V$
$AA^T$	$m \times m$ 对称半正定	$\sigma_1^2, \ldots, \sigma_m^2$	左奇异向量 $U$

对称矩阵的 SVD 退化为谱定理（ $U = V = Q$ ， $\Sigma = |\Lambda|$ ）。

核心联系：SVD 本质上是两次特征分解—— $A^TA$ 的特征分解给出右奇异向量和奇异值， $AA^T$ 的特征分解给出左奇异向量和（相同的）奇异值。 $A$ 本身提供配对约束 $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ ，将两组特征向量一一对应。

这也解释了两个关键等式： $A\mathbf{v}_i = \sigma_i\mathbf{u}_i$ 已在构造中直接使用；反向等式 $A^T\mathbf{u}_i = \sigma_i\mathbf{v}_i$ 可以一步验证： $A^T\mathbf{u}_i = A^T \cdot \frac{1}{\sigma_i}A\mathbf{v}_i = \frac{1}{\sigma_i}A^TA\mathbf{v}_i = \frac{\sigma_i^2}{\sigma_i}\mathbf{v}_i = \sigma_i\mathbf{v}_i$ 。它们不是”额外的公式”，而是整个构造的核心： $A$ 把输入空间的特征方向映射到输出空间， $A^T$ 把输出空间映射回输入空间， $\sigma_i$ 是双向的拉伸倍数。

紧凑 SVD 与外积展开

紧凑形式（compact/thin SVD）

在实际计算中，当 $m \gg n$ （或 $n \gg m$ ）时，完整 SVD 中的 $U$ 矩阵（ $m \times m$ ）可能非常大。紧凑 SVD（也叫 thin SVD 或 reduced SVD）只保留有意义的部分：

$A = U_r \Sigma_r V_r^T$

其中 $r = \text{rank}(A)$ ， $U_r \in \mathbb{R}^{m \times r}$ （只取前 $r$ 列）， $\Sigma_r \in \mathbb{R}^{r \times r}$ （只保留正奇异值）， $V_r \in \mathbb{R}^{n \times r}$ （只取前 $r$ 列）。

这是 $A$ 的精确分解（没有丢失信息），但存储从 $m^2 + mn + n^2$ 降到 $r(m + n + 1)$ 。对低秩矩阵（ $r \ll \min(m, n)$ ），节省巨大。

外积展开形式

SVD 的另一个重要形式是把矩阵写成秩一矩阵的加权和：

$A = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^T$

其中每个 $\mathbf{u}_i \mathbf{v}_i^T \in \mathbb{R}^{m \times n}$ 是一个秩一矩阵（外积）， $\sigma_i$ 是对应的权重。

逐项理解：

$\mathbf{u}_i \mathbf{v}_i^T$ 是 $\mathbf{u}_i$ （ $m$ 维列向量）与 $\mathbf{v}_i^T$ （ $n$ 维行向量）的外积，结果是 $m \times n$ 矩阵，秩为 1
$\sigma_i$ 衡量这个秩一成分的”重要性”—— $\sigma_1 \geq \sigma_2 \geq \cdots$ ，第一个成分最重要
求和 $r$ 项恰好重建出完整的矩阵 $A$

这个形式与谱分解（ $A = \sum_i \lambda_i \mathbf{q}_i\mathbf{q}_i^T$ ）直接类比，但适用于任意矩阵——不要求方阵，也不要求对称。

数值例子：手算 3×2 矩阵的 SVD

让我们对一个小矩阵完整计算 SVD 过程。取：

$A = \begin{bmatrix}1 & 1 \\ 0 & 1 \\ 1 & 0\end{bmatrix}$

$A$ 是 $3 \times 2$ 矩阵（ $m = 3, n = 2$ ）。

第一步：计算 $A^TA$

$A^TA = \begin{bmatrix}1 & 0 & 1 \\ 1 & 1 & 0\end{bmatrix}\begin{bmatrix}1 & 1 \\ 0 & 1 \\ 1 & 0\end{bmatrix} = \begin{bmatrix}1+0+1 & 1+0+0 \\ 1+0+0 & 1+1+0\end{bmatrix} = \begin{bmatrix}2 & 1 \\ 1 & 2\end{bmatrix}$

第二步：求 $A^TA$ 的特征值（= 奇异值的平方）

特征方程：

$\det\begin{bmatrix}2-\lambda & 1 \\ 1 & 2-\lambda\end{bmatrix} = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0$

$(\lambda - 3)(\lambda - 1) = 0 \implies \hat{\lambda}_1 = 3, \quad \hat{\lambda}_2 = 1$

奇异值：

$\sigma_1 = \sqrt{3}, \quad \sigma_2 = \sqrt{1} = 1$

第三步：求右奇异向量 $V$ （ $A^TA$ 的特征向量）

对 $\hat{\lambda}_1 = 3$ ：

$(A^TA - 3I)\mathbf{v}_1 = \begin{bmatrix}-1 & 1 \\ 1 & -1\end{bmatrix}\mathbf{v}_1 = \mathbf{0} \implies v_{11} = v_{12}$

取单位化： $\mathbf{v}_1 = \frac{1}{\sqrt{2}}\begin{bmatrix}1 \\ 1\end{bmatrix}$

对 $\hat{\lambda}_2 = 1$ ：

$(A^TA - I)\mathbf{v}_2 = \begin{bmatrix}1 & 1 \\ 1 & 1\end{bmatrix}\mathbf{v}_2 = \mathbf{0} \implies v_{21} = -v_{22}$

取单位化： $\mathbf{v}_2 = \frac{1}{\sqrt{2}}\begin{bmatrix}1 \\ -1\end{bmatrix}$

验证正交性： $\mathbf{v}_1^T\mathbf{v}_2 = \frac{1}{2}(1 \cdot 1 + 1 \cdot (-1)) = 0$ ✓

$V = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix}$

第四步：求左奇异向量 $U$

利用公式 $\mathbf{u}_i = \frac{1}{\sigma_i}A\mathbf{v}_i$ ：

$\mathbf{u}_1 = \frac{1}{\sqrt{3}}A\mathbf{v}_1 = \frac{1}{\sqrt{3}}\begin{bmatrix}1 & 1 \\ 0 & 1 \\ 1 & 0\end{bmatrix}\frac{1}{\sqrt{2}}\begin{bmatrix}1 \\ 1\end{bmatrix} = \frac{1}{\sqrt{6}}\begin{bmatrix}2 \\ 1 \\ 1\end{bmatrix}$

$\mathbf{u}_2 = \frac{1}{1}A\mathbf{v}_2 = \begin{bmatrix}1 & 1 \\ 0 & 1 \\ 1 & 0\end{bmatrix}\frac{1}{\sqrt{2}}\begin{bmatrix}1 \\ -1\end{bmatrix} = \frac{1}{\sqrt{2}}\begin{bmatrix}0 \\ -1 \\ 1\end{bmatrix}$

验证： $\mathbf{u}_1^T\mathbf{u}_2 = \frac{1}{\sqrt{6}\sqrt{2}}(2 \cdot 0 + 1 \cdot (-1) + 1 \cdot 1) = 0$ ✓， $\|\mathbf{u}_1\| = \sqrt{4+1+1}/\sqrt{6} = 1$ ✓， $\|\mathbf{u}_2\| = \sqrt{0+1+1}/\sqrt{2} = 1$ ✓

因为 $m = 3 > n = 2$ ， $U$ 需要一个额外列 $\mathbf{u}_3$ 使其成为 $3 \times 3$ 正交矩阵。 $\mathbf{u}_3$ 必须与 $\mathbf{u}_1, \mathbf{u}_2$ 都正交。通过叉积（或 Gram-Schmidt）可得：

$\mathbf{u}_3 = \frac{1}{\sqrt{3}}\begin{bmatrix}1 \\ -1 \\ -1\end{bmatrix}$

验证： $\mathbf{u}_1^T\mathbf{u}_3 = \frac{1}{\sqrt{6}\sqrt{3}}(2-1-1) = 0$ ✓， $\mathbf{u}_2^T\mathbf{u}_3 = \frac{1}{\sqrt{2}\sqrt{3}}(0+1-1) = 0$ ✓

第五步：组装并验证

$U = \begin{bmatrix}\frac{2}{\sqrt{6}} & 0 & \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} & \frac{-1}{\sqrt{2}} & \frac{-1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{3}}\end{bmatrix}, \quad \Sigma = \begin{bmatrix}\sqrt{3} & 0 \\ 0 & 1 \\ 0 & 0\end{bmatrix}, \quad V = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix}$

验证 $U\Sigma V^T = A$ ：

$U\Sigma = \begin{bmatrix}\frac{2}{\sqrt{6}} & 0 & \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} & \frac{-1}{\sqrt{2}} & \frac{-1}{\sqrt{3}} \\ \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{3}}\end{bmatrix}\begin{bmatrix}\sqrt{3} & 0 \\ 0 & 1 \\ 0 & 0\end{bmatrix} = \begin{bmatrix}\frac{2\sqrt{3}}{\sqrt{6}} & 0 \\ \frac{\sqrt{3}}{\sqrt{6}} & \frac{-1}{\sqrt{2}} \\ \frac{\sqrt{3}}{\sqrt{6}} & \frac{1}{\sqrt{2}}\end{bmatrix} = \begin{bmatrix}\sqrt{2} & 0 \\ \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\end{bmatrix}$

$(U\Sigma)V^T = \begin{bmatrix}\sqrt{2} & 0 \\ \frac{1}{\sqrt{2}} & \frac{-1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\end{bmatrix}\frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix} = \begin{bmatrix}1 & 1 \\ 0 & 1 \\ 1 & 0\end{bmatrix} = A \quad ✓$

第六步：截断 SVD 演示

取 $k = 1$ （只保留最大的奇异值 $\sigma_1 = \sqrt{3}$ ）：

$A_1 = \sigma_1 \mathbf{u}_1 \mathbf{v}_1^T = \sqrt{3} \cdot \frac{1}{\sqrt{6}}\begin{bmatrix}2 \\ 1 \\ 1\end{bmatrix} \cdot \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\end{bmatrix} = \frac{1}{2}\begin{bmatrix}2 & 2 \\ 1 & 1 \\ 1 & 1\end{bmatrix} = \begin{bmatrix}1 & 1 \\ 0.5 & 0.5 \\ 0.5 & 0.5\end{bmatrix}$

这是 $A$ 的最佳秩一近似。原始 $A$ 的第二行 $[0, 1]$ 和第三行 $[1, 0]$ 被”平均”为 $[0.5, 0.5]$ ——秩一近似只能捕捉到两列有同等强度的信号，丢失了它们的差异。

信息保留比例： $\frac{\sigma_1^2}{\sigma_1^2 + \sigma_2^2} = \frac{3}{3+1} = 75\%$ 。

截断 SVD 与 Eckart-Young 定理

截断 SVD：最佳低秩近似

在许多应用中，我们不需要完整重建 $A$ ——只需要一个低秩近似 $A_k$ （ $\text{rank}(A_k) = k < r$ ），使得 $A_k$ 尽可能接近 $A$ 。截断 SVD 给出了这个近似：

$A_k = \sum_{i=1}^{k} \sigma_i \mathbf{u}_i \mathbf{v}_i^T = U_k \Sigma_k V_k^T$

其中 $U_k \in \mathbb{R}^{m \times k}$ 、 $\Sigma_k \in \mathbb{R}^{k \times k}$ 、 $V_k \in \mathbb{R}^{n \times k}$ 分别是 $U$ 、 $\Sigma$ 、 $V$ 的前 $k$ 列（和前 $k$ 个奇异值）。

直觉上， $\sigma_1 \geq \sigma_2 \geq \cdots$ 从大到小排列，前几个奇异值往往集中了矩阵的大部分”能量”。截断 SVD 保留最重要的 $k$ 个成分，丢弃剩余的小分量——这些小分量往往对应噪声或不重要的细节。

投影视角： $A_k$ 还可以理解为 $A$ 到子空间的投影。利用 $U_k$ 和 $V_k$ 各自列正交的性质：

$A_k = U_k\Sigma_kV_k^T = U_k(U_k^TA) = (AV_k)V_k^T$

$U_kU_k^TA$ （投影矩阵左乘）：按”左行右列”，左乘作用于列——把 $A$ 的每一列（ $\mathbb{R}^m$ 中的向量）投影到 $U_k$ 张成的输出子空间，只保留前 $k$ 个左奇异方向的分量
$AV_kV_k^T$ （投影矩阵右乘）：右乘作用于行——把 $A$ 的每一行（ $\mathbb{R}^n$ 中的向量）投影到 $V_k$ 张成的输入子空间，只保留前 $k$ 个右奇异方向的分量

从输出空间切和从输入空间切，得到的是同一个 $A_k$ ——截断 SVD 同时是两个方向上的最佳投影。这个视角在随机化 SVD 中会直接用到：只要找到一个正交基 $Q$ 近似 $U_k$ 的列空间， $QQ^TA$ 就近似 $A_k$ 。

但为什么截断 SVD 是”最佳”的？ 是否存在其他秩 $k$ 的矩阵比 $A_k$ 更接近 $A$ ？Eckart-Young 定理给出了否定的回答。

Eckart-Young-Mirsky 定理

Eckart-Young 定理：截断 SVD 是最优 rank- $k$ 近似

$\min_{\text{rank}(B) \leq k} \|A - B\|_F = \sqrt{\sigma_{k+1}^2 + \cdots + \sigma_r^2}, \qquad \min_{\text{rank}(B) \leq k} \|A - B\|_2 = \sigma_{k+1}$

信息保留率： $\frac{\sum_{i=1}^{k}\sigma_i^2}{\sum_{i=1}^{r}\sigma_i^2} \times 100\%$

其中 Frobenius 范数 $\|M\|_F = \sqrt{\sum_{ij}M_{ij}^2}$ 衡量所有元素的总体误差，spectral 范数 $\|M\|_2 = \sigma_1(M)$ （ $M$ 的最大奇异值）衡量最大方向上的误差。

注：Frobenius 范数和 spectral 范数的严格定义将在 Art. 4 范数与条件数中详细展开。这里只需要知道它们是衡量矩阵”大小”的两种方式，分别对应”均方误差”和”最坏方向误差”。

逐项理解这个定理：

$\min_{\text{rank}(B) \leq k}$ ：在所有秩不超过 $k$ 的 $m \times n$ 矩阵中搜索
$\|A - B\|$ ：衡量近似 $B$ 与原矩阵 $A$ 的距离
结论：无论用什么方法构造秩 $k$ 矩阵，都不可能比截断 SVD 做得更好
误差量化：误差恰好等于被丢弃的奇异值（Frobenius 范数下取平方和开根号，spectral 范数下取最大的被丢弃奇异值 $\sigma_{k+1}$ ）

为什么最优？（Frobenius 范数的证明思路）

利用 SVD 外积展开， $A = \sum_{i=1}^{r}\sigma_i\mathbf{u}_i\mathbf{v}_i^T$ ，以及 Frobenius 范数的一个重要性质： $\|A\|_F^2 = \sum_{i=1}^{r}\sigma_i^2$ （即 Frobenius 范数的平方等于所有奇异值的平方和——这将在 Art. 4 中证明）。

对任意秩 $k$ 矩阵 $B$ ，设 $B$ 的列空间为 $W$ （ $\dim W \leq k$ ），则 $B$ 的列空间的正交补 $W^\perp$ 的维度至少为 $m - k$ 。而 $\text{span}\{\mathbf{u}_1, \ldots, \mathbf{u}_{k+1}\}$ 的维度为 $k + 1$ 。由维度计数， $W^\perp$ 与 $\text{span}\{\mathbf{u}_1, \ldots, \mathbf{u}_{k+1}\}$ 必有非零交集。取这个交集中的单位向量 $\mathbf{w}$ ，因为 $\mathbf{w} \in W^\perp$ ，所以 $B^T\mathbf{w} = \mathbf{0}$ ，从而：

$\|A - B\|_F^2 \geq \|(A - B)\mathbf{w}\|^2 = \|A\mathbf{w}\|^2$

而因为 $\mathbf{w} \in \text{span}\{\mathbf{u}_1, \ldots, \mathbf{u}_{k+1}\}$ ，写 $\mathbf{w} = \sum_{i=1}^{k+1}c_i\mathbf{u}_i$ （ $\sum c_i^2 = 1$ ），则 $A^T\mathbf{w} = \sum_{i=1}^{k+1}c_i\sigma_i\mathbf{v}_i$ ，所以：

$\|A\mathbf{w}\|^2 = \|A^T\mathbf{w}\|^2 = \sum_{i=1}^{k+1}c_i^2\sigma_i^2 \geq \sigma_{k+1}^2\sum_{i=1}^{k+1}c_i^2 = \sigma_{k+1}^2$

更精细的分析（对所有 $r - k$ 个被丢弃方向求和）可以得到 $\|A - B\|_F^2 \geq \sigma_{k+1}^2 + \cdots + \sigma_r^2$ 。而 $A_k$ 恰好达到这个下界：

$\|A - A_k\|_F^2 = \left\|\sum_{i=k+1}^{r}\sigma_i\mathbf{u}_i\mathbf{v}_i^T\right\|_F^2 = \sum_{i=k+1}^{r}\sigma_i^2$

因此 $A_k$ 是最优的。 $\blacksquare$

信息保留与截断误差

Eckart-Young 定理直接给出了截断 SVD 的”信息保留百分比”——用奇异值能量比衡量：

$\text{信息保留} = \frac{\sum_{i=1}^{k}\sigma_i^2}{\sum_{i=1}^{r}\sigma_i^2} \times 100\%$

分子是保留的奇异值的平方和，分母是全部奇异值的平方和（等于 $\|A\|_F^2$ ）。

实际中，许多数据矩阵的奇异值衰减很快——前几个奇异值贡献了大部分能量，剩余的奇异值很小。这意味着用远小于满秩的 $k$ 就能保留 95%+ 的信息。这正是 SVD 用于压缩和降噪的原理。

用下面的交互组件亲手体验：拖动滑块调整截断秩 $k$ ，观察重建图像的质量变化和信息保留百分比。

截断秩 k8 / 32

信息保留

99.9%

压缩比

2.0x

存储参数

8(32+32+1) = 520 / 1024

拖动滑块观察：少数几个最大奇异值就能重建图像的大部分信息。这就是截断 SVD 用于压缩和降噪的原理。

伪逆与最小二乘

Moore-Penrose 伪逆

对于方阵，如果 $A$ 可逆，我们可以求 $A^{-1}$ 来解方程 $A\mathbf{x} = \mathbf{b}$ 。但如果 $A$ 不是方阵，或者虽然是方阵但不可逆（奇异），怎么办？

SVD 提供了一个优雅的解决方案：Moore-Penrose 伪逆（pseudoinverse），记为 $A^+$ 。

定义：设 $A = U\Sigma V^T$ 是 $A$ 的 SVD，则 $A$ 的伪逆为：

$A^+ = V\Sigma^+ U^T$

其中 $\Sigma^+$ 是 $\Sigma$ 的伪逆——将 $\Sigma$ 中每个非零对角元素取倒数，零元素保持为零，然后转置：

$\Sigma = \begin{bmatrix}\sigma_1 & & \\ & \ddots & \\ & & \sigma_r \\ & & & 0 \\ & & & & \ddots\end{bmatrix}_{m \times n} \implies \Sigma^+ = \begin{bmatrix}1/\sigma_1 & & \\ & \ddots & \\ & & 1/\sigma_r \\ & & & 0 \\ & & & & \ddots\end{bmatrix}_{n \times m}$

注意 $\Sigma^+$ 的维度是 $n \times m$ （转置了 $\Sigma$ 的维度），所以 $A^+ \in \mathbb{R}^{n \times m}$ 。

Penrose 条件

$A^+$ 是满足以下四个条件（Penrose conditions）的唯一矩阵：

$AA^+A = A$ （ $A^+$ 是 $A$ 的广义逆）
$A^+AA^+ = A^+$ （ $A$ 是 $A^+$ 的广义逆）
$(AA^+)^T = AA^+$ （ $AA^+$ 是对称的——正交投影到 $A$ 的列空间）
$(A^+A)^T = A^+A$ （ $A^+A$ 是对称的——正交投影到 $A$ 的行空间）

这四个条件保证了伪逆的唯一性和良好的几何性质。（详见 Wikipedia, Moore-Penrose inverse）

伪逆与最小二乘

为什么伪逆重要？因为它给出了线性方程组 $A\mathbf{x} = \mathbf{b}$ 的”最优”解：

$\mathbf{x}^+ = A^+\mathbf{b}$

具体来说， $\mathbf{x}^+ = A^+\mathbf{b}$ 是以下问题的解：

在所有使 $\|A\mathbf{x} - \mathbf{b}\|_2$ 最小的 $\mathbf{x}$ 中，找范数 $\|\mathbf{x}\|_2$ 最小的那个。

这正是最小二乘问题（least squares）的最小范数解。分三种情况理解：

情况	方程数 vs 未知数	$A\mathbf{x} = \mathbf{b}$ 的解	$A^+\mathbf{b}$ 的作用
超定（ $m > n$ ，方程多于未知数）	通常无精确解	找使 $\\|A\mathbf{x} - \mathbf{b}\\|^2$ 最小的 $\mathbf{x}$	最小二乘解
欠定（ $m < n$ ，未知数多于方程）	无穷多解	在所有解中找 $\\|\mathbf{x}\\|$ 最小的	最小范数解
恰定且满秩（ $m = n$ ， $A$ 可逆）	唯一解 $A^{-1}\mathbf{b}$	$A^+ = A^{-1}$ ，退化为普通逆

与投影解法的关系

最小二乘有另一种经典推导——正交投影。理解两种方法的联系，能让伪逆的几何含义更加清晰。

投影视角： $\mathbf{b}$ 不一定在 $A$ 的列空间 $\text{Col}(A)$ 中。 $A\mathbf{x}$ 能取到的最接近 $\mathbf{b}$ 的点，是 $\mathbf{b}$ 到 $\text{Col}(A)$ 的正交投影 $\hat{\mathbf{b}}$ 。正交条件 $A^T(\mathbf{b} - A\mathbf{x}) = \mathbf{0}$ 给出法方程（normal equation）：

$A^TA\mathbf{x} = A^T\mathbf{b}$

当 $A$ 列满秩时（ $\text{rank}(A) = n$ ，即列线性无关）， $A^TA$ 是 $n \times n$ 可逆矩阵，法方程有唯一解：

$\mathbf{x}_{\text{LS}} = (A^TA)^{-1}A^T\mathbf{b}$

这个 $(A^TA)^{-1}A^T$ 就是列满秩时的左伪逆。可以验证它等于 $A^+ = V\Sigma^+U^T$ （把 $A = U\Sigma V^T$ 代入展开即可—— $V(\Sigma^T\Sigma)^{-1}\Sigma^TU^T = V\Sigma^+U^T$ ）。此时投影解法和伪逆给出完全相同的答案。

当 $A$ 不是列满秩时（ $\text{rank}(A) < n$ ）， $A^TA$ 奇异，法方程有无穷多解——有无穷多个 $\mathbf{x}$ 都能让 $A\mathbf{x}$ 等于那个投影 $\hat{\mathbf{b}}$ 。原因在零空间 $\text{null}(A)$ 中：如果 $\mathbf{x}_0$ 是一个解，那么 $\mathbf{x}_0 + \mathbf{z}$ （ $\mathbf{z} \in \text{null}(A)$ ）也是解，因为 $A\mathbf{z} = \mathbf{0}$ 不改变残差。

注意这不是两种方法”给出不同答案”——投影解法正确地找到了最优残差，只是它给出的是一个解集而非单个解。伪逆在这个解集里做了关键的第二步选择：选 $\|\mathbf{x}\|$ 最小的那个。几何上， $\mathbf{x}^+ = A^+\mathbf{b}$ 完全在行空间 $\text{Row}(A) = \text{null}(A)^\perp$ 中——它没有在零空间方向上浪费任何”长度”，是到达 $\hat{\mathbf{b}}$ 的最短路径。

总结两者的关系：

	投影 / 法方程	伪逆
解决什么	输出空间最优： $\\|A\mathbf{x} - \mathbf{b}\\|$ 最小	输出最优 + 输入空间也最优： $\\|\mathbf{x}\\|$ 最小
列满秩时	$(A^TA)^{-1}A^T\mathbf{b}$ = 唯一解	$A^+\mathbf{b}$ = 同一个解
列不满秩时	法方程有无穷多解	$A^+\mathbf{b}$ 在其中选范数最小的
适用范围	需要 $A^TA$ 的结构（实际计算中常用 QR 分解代替）	任意矩阵，通过 SVD 直接给出

伪逆的应用

伪逆不只是一个理论工具——它在 ML 和工程中频繁出现：

线性回归：经典最小二乘回归 $\hat{\boldsymbol{\beta}} = (X^TX)^{-1}X^T\mathbf{y}$ 就是 $X^+\mathbf{y}$ 。当特征矩阵 $X$ 存在多重共线性（ $X^TX$ 接近奇异）时，直接求逆会导致数值爆炸，而 SVD 伪逆通过截断小奇异值自然地实现了正则化——这就是截断 SVD 回归（truncated SVD regression / TSVD）。

控制与机器人学：机器人的运动学方程 $\mathbf{v} = J(\theta)\dot{\boldsymbol{\theta}}$ 将关节速度映射到末端速度。求解”给定目标末端速度 $\mathbf{v}^*$ ，关节应该怎么动？“就是 $\dot{\boldsymbol{\theta}} = J^+\mathbf{v}^*$ 。冗余机器人（关节数 > 自由度）的 Jacobian $J$ 是欠定的，伪逆给出能量最小的关节运动。

信号恢复：在压缩感知、图像重建等逆问题中，观测模型 $\mathbf{y} = A\mathbf{x} + \mathbf{n}$ （ $A$ 是观测矩阵， $\mathbf{n}$ 是噪声）， $A^+\mathbf{y}$ 是最小范数重建的起点。更精细的方法（如 LASSO、迭代收缩）在此基础上加入正则化。

神经网络分析：在理解线性网络（ $f(\mathbf{x}) = W_L \cdots W_1 \mathbf{x}$ ）的泛化性质时，梯度下降隐式地偏好低 nuclear norm 的解——即倾向于找到低秩的端到端矩阵（Gunasekar et al., 2017, Implicit Regularization in Matrix Factorization）。这与伪逆给出最小 $\ell_2$ 范数解的思路一脉相承：两者都揭示了”在多个解中自动选最’简洁’的那个”这一主题。

“求解”操作的归属：回顾 Art. 1 分解概述中六类矩阵操作，“求解 $A\mathbf{x} = \mathbf{b}$ “是其中之一。通过伪逆 $A^+ = V\Sigma^+U^T$ ，这个操作被SVD 完全覆盖——SVD 不仅能分解矩阵、近似矩阵，还能”求解”方程。

数值例子：伪逆

沿用前面的 $A = \begin{bmatrix}1&1\\0&1\\1&0\end{bmatrix}$ （ $3 \times 2$ ，超定），其 SVD 已知。

$A^+ = V\Sigma^+U^T$

$\Sigma^+ = \begin{bmatrix}1/\sqrt{3} & 0 & 0 \\ 0 & 1 & 0\end{bmatrix}$

计算 $A^+$ （ $2 \times 3$ 矩阵）：

$A^+ = V\Sigma^+U^T = \frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix}\begin{bmatrix}\frac{1}{\sqrt{3}} & 0 & 0 \\ 0 & 1 & 0\end{bmatrix}U^T$

直接代入可得（读者可以验证）：

$A^+ = \frac{1}{3}\begin{bmatrix}1 & -1 & 2 \\ 1 & 2 & -1\end{bmatrix}$

验证 Penrose 条件中的第一个： $AA^+A = \frac{1}{3}\begin{bmatrix}1&1\\0&1\\1&0\end{bmatrix}\begin{bmatrix}1&-1&2\\1&2&-1\end{bmatrix}\begin{bmatrix}1&1\\0&1\\1&0\end{bmatrix}$ 。

$AA^+ = \frac{1}{3}\begin{bmatrix}2 & 1 & 1 \\ 1 & 2 & -1 \\ 1 & -1 & 2\end{bmatrix}$

$AA^+A = \frac{1}{3}\begin{bmatrix}2&1&1\\1&2&-1\\1&-1&2\end{bmatrix}\begin{bmatrix}1&1\\0&1\\1&0\end{bmatrix} = \frac{1}{3}\begin{bmatrix}3&3\\0&3\\3&0\end{bmatrix} = \begin{bmatrix}1&1\\0&1\\1&0\end{bmatrix} = A \quad ✓$

CUR 分解：可解释的替代方案

SVD 的一个实际不便是： $U$ 和 $V$ 的列是原始数据的线性组合——它们通常没有直观的物理含义。例如，在用户-物品矩阵的 SVD 中， $\mathbf{u}_1$ 可能是所有用户评分的某种加权组合，但你无法指着它说”这代表某个具体的用户群体”。

CUR 分解（Mahoney & Drineas, 2009）提供了一个可解释性更好的替代：它从原始矩阵 $A$ 中选取实际的列（C）和行（R），用一个小的链接矩阵 $U$ 将它们组合起来：

$A \approx C \cdot U_{\text{CUR}} \cdot R$

其中 $C \in \mathbb{R}^{m \times c}$ 是 $A$ 的 $c$ 个实际列， $R \in \mathbb{R}^{r' \times n}$ 是 $A$ 的 $r'$ 个实际行， $U_{\text{CUR}} \in \mathbb{R}^{c \times r'}$ 是一个小的链接矩阵。

优势： $C$ 和 $R$ 保持了原始数据的稀疏性和可解释性——你可以说”这个近似基于这些具体的用户和这些具体的物品”。

代价：Eckart-Young 定理告诉我们，在同等秩下，SVD 是最优的。CUR 分解的近似质量一定不如截断 SVD。这是可解释性与最优性之间的 trade-off。

CUR 在需要解释性的场景（如推荐系统中向用户解释推荐原因）比 SVD 更合适，但在纯粹追求近似精度的场景（如降噪、压缩）中 SVD 仍然是首选。

总结与展望

本文建立了整条路径最核心的工具——奇异值分解。回顾关键要点：

SVD 对任意矩阵都存在： $A = U\Sigma V^T$ ，没有方阵、对称、可逆等限制条件
几何含义：任何线性变换 = 输入空间旋转（ $V^T$ ）→ 逐方向拉伸（ $\Sigma$ ）→ 输出空间旋转（ $U$ ）
与特征分解的关系：奇异值是 $A^TA$ 特征值的平方根，SVD 本质上是两次特征分解
Eckart-Young 定理：截断 SVD 是最佳低秩近似——在 Frobenius 和 spectral 范数下都无可超越
外积展开 $A = \sum_i \sigma_i \mathbf{u}_i\mathbf{v}_i^T$ 将矩阵表示为按重要性排序的秩一成分之和
伪逆 $A^+ = V\Sigma^+U^T$ 统一处理了超定、欠定、奇异方程组，覆盖了”求解”操作

SVD 是后续几乎所有文章的数学基础。从下一篇开始，我们将学习如何衡量这些近似的质量——矩阵范数与条件数将给出精确的度量工具，让我们能定量回答”截断到秩 $k$ 丢失了多少信息”这个问题。

几何直觉：任何线性变换 = 旋转 → 拉伸 → 旋转

从特征分解的局限出发

SVD 的几何图像

严格定义与存在性证明

SVD 定理

逐项理解各因子

观察：ATAA^TAATA 与 AATAA^TAAT 这对孪生矩阵

发现：它们共享非零特征值

追问：AAA 在 VVV 基下的行为是什么？

拼出 A=UΣVTA = U\Sigma V^TA=UΣVT

严格验证

总结：SVD = 两次特征分解的打包

紧凑 SVD 与外积展开

紧凑形式（compact/thin SVD）

外积展开形式

数值例子：手算 3×2 矩阵的 SVD

第一步：计算 ATAA^TAATA

第二步：求 ATAA^TAATA 的特征值（= 奇异值的平方）

第三步：求右奇异向量 VVV（ATAA^TAATA 的特征向量）

第四步：求左奇异向量 UUU

第五步：组装并验证

第六步：截断 SVD 演示

截断 SVD 与 Eckart-Young 定理

截断 SVD：最佳低秩近似

Eckart-Young-Mirsky 定理

信息保留与截断误差

伪逆与最小二乘

Moore-Penrose 伪逆

Penrose 条件

伪逆与最小二乘

与投影解法的关系

伪逆的应用

数值例子：伪逆

总结与展望

观察： $A^TA$ 与 $AA^T$ 这对孪生矩阵

追问： $A$ 在 $V$ 基下的行为是什么？

拼出 $A = U\Sigma V^T$

第一步：计算 $A^TA$

第二步：求 $A^TA$ 的特征值（= 奇异值的平方）

第三步：求右奇异向量 $V$ （ $A^TA$ 的特征向量）

第四步：求左奇异向量 $U$