本文是 Art. 0–5 的速查总结。先用一张关系图展示核心概念之间的推导链条,再按主题列出所有必须记住的公式和等价条件。
使用方式:读完前 6 篇文章后,用本文做回顾和自测。如果某条结论不确定,点击来源链接回到原文复习。
概念关系图
下图的核心信息:ATA 是连接最多的枢纽——它同时是对称的、半正定的、投影的基础、SVD 的推导起点、协方差矩阵的本体。理解了 ATA,就串联了大半张图。
一、对称矩阵家族
对称矩阵 A=AT 的核心地位
- 二次型 xTBx 只受 B 的对称部分影响 → 正定性只对对称矩阵讨论
- ATA 必对称:(ATA)T=ATA
- Hessian 必对称(Schwarz 定理)
- 谱定理保证:实特征值 + 正交特征向量 + 正交对角化 A=QΛQT
来源:Art. 1B §3、Art. 2 §3
二、正交矩阵家族
正交矩阵 QTQ=I
Q−1=QT∥Qx∥=∥x∥(Qx)T(Qy)=xTy
转置即逆,保长度,保角度。det(Q)=+1 旋转,det(Q)=−1 反射。条件数 κ(Q)=1。
投影核心公式
| 投影目标 | 条件 | 投影矩阵 | 投影结果 |
|---|
| 单位向量 q | ∥q∥=1 | P=qqT | v^=(qTv)q |
| 正交基 W | k 列标准正交 | P=WWT | v^=W(WTv) |
| 一般列满秩 A | ATA 可逆 | P=A(ATA)−1AT | b^=Pb(最小二乘) |
正交投影矩阵的充要条件:P2=P(幂等)且 PT=P(对称)。
来源:Art. 1A §2、Art. 1A §5
三、正定与半正定
正定性等价条件链
| 条件 | 正定 | 半正定 |
|---|
| 二次型 | xTAx>0(∀x=0) | xTAx≥0 |
| 特征值 | 全部 λi>0 | 全部 λi≥0 |
| BTB 形式 | A=BTB 且 B 列满秩 | A=BTB |
| 可逆性 | 必可逆 | 可能奇异 |
ML 中的半正定矩阵:协方差矩阵(n1XTX)、Gram 矩阵(VTV)、Kernel 矩阵(ΦΦT)——都是 BTB 形式,天然对称半正定。
来源:Art. 1B §2、Art. 2 §4
四、特征分解与谱定理
特征分解 = 对角化
A=PΛP−1⟺Λ=P−1AP
幂运算:An=PΛnP−1。矩阵函数:f(A)=Pf(Λ)P−1。
对称特例(谱定理):P 变为正交矩阵 Q,A=QΛQT=∑iλiqiqiT
其中每个 qiqiT 就是向 qi 方向的正交投影矩阵(见第二节投影表第 1 行)。谱分解的直觉:对称矩阵 = 各特征方向投影的 λi 加权和。
| 性质 | 公式 |
|---|
| 迹 = 特征值之和 | tr(A)=∑iλi |
| 行列式 = 特征值之积 | det(A)=∏iλi |
| 可逆 ⟺ 无零特征值 | det(A)=0⟺λi=0∀i |
来源:Art. 2 §2、Art. 2 §3
五、SVD
SVD 核心公式(任意 m×n 矩阵均可分解)
A=UΣVT=∑i=1rσiuiviT
每个 uiviT 是秩一矩阵,把输入方向 vi 连接到输出方向 ui。SVD = 各奇异方向秩一分量的 σi 加权和——与谱分解 ∑λiqiqiT 完全对应:对称时 ui=vi=qi,秩一分量退化为投影矩阵,SVD 退化为谱定理。
| 连接 | 关系 |
|---|
| ATA | =VΣ2VT,特征向量 = 右奇异向量 V |
| AAT | =UΣ2UT,特征向量 = 左奇异向量 U |
| 对称时 | U=V=Q,$\Sigma = |
| 秩 | rank(A) = 非零 σi 个数 |
Eckart-Young 定理:截断 SVD Ak 是最优 rank-k 近似。信息保留率 =∑i=1rσi2∑i=1kσi2。
伪逆:A+=VΣ+UT(对非零奇异值取倒数,零保持零)。
随机化 SVD:精确 SVD 复杂度 O(mnmin(m,n)),对大矩阵不可行。核心思路:用随机投影 Y=AΩ 捕获 A 的主要列空间 → QR 得正交基 Q → 在小空间 B=QTA 里做精确 SVD → 恢复 U=QU^。复杂度降到 O(mn(k+p))。理论基础:JL 引理保证随机投影保持距离,k≥8lnN/ε2(只取决于点数,与原始维度无关)。
来源:Art. 3 §2、Art. 3 §5、Art. 6
六、范数与条件数
三大范数(全部用奇异值表达)
| 范数 | 公式 | 含义 |
|---|
| Frobenius | ∥A∥F=∑σi2=tr(ATA) | 总能量 |
| Spectral | ∥A∥2=σmax | 最大拉伸 |
| Nuclear | ∥A∥∗=∑σi | rank 的凸松弛 |
条件数:κ(A)=σmax/σmin。κ≈1 良态,κ≫1 病态。
来源:Art. 4 §1、Art. 4 §4
七、微积分桥梁
统一视角:导数的作用总是把输入空间的微小扰动线性地映射到输出空间的变化——只是随维度升高,“乘法”的形式在变:
| 层级 | 扰动 → 变化 | ”乘法”形式 |
|---|
| 标量→标量 | Δy≈f′Δx | 标量乘法 |
| 向量→标量 | Δf≈∇fTΔx | 向量内积 |
| 向量→向量 | Δy≈JΔx | 矩阵-向量乘法 |
| 矩阵→标量 | ΔL≈⟨∇WL,ΔW⟩=tr(∇WLTΔW) | 矩阵内积 |
常用梯度 + Taylor 展开
∇(aTx)=a∇(xTAx)=2Ax
f(x+Δx)≈f(x)+∇fTΔx+21ΔxTHΔx
Hessian H 必对称 → 谱定理适用 → 特征值 = 各方向曲率。H 正定 → 局部最小。κ(H) 大 → 梯度下降收敛慢。
来源:Art. 5 §1、Art. 5 §4
八、助记口诀
| 口诀 | 公式 | 含义 |
|---|
| 左行右列 | DA缩行、AD缩列;Ax=∑jxjaj组合列、xTA=∑ixiaiT组合行 | 同一原则:左乘动行,右乘动列。对角阵 D、列向量 x、行向量 xT 全部遵守 |
| vvT / WWT = 投影 | vvT(v 为单位向量);WWT(W 为列正交矩阵) | vvT 是秩一正交投影矩阵,v 必须是单位向量(∥v∥=1);WWT 投影到 W 各列张成的子空间。遵循左行右列:PA 左乘投影每一列,AP 右乘投影每一行。谱分解 A=∑λiqiqiT 中每项都是投影 × 权重 |
| 正交 → 转置即逆 | 正交矩阵 Q−1=QT | Q 的逆就是转置,计算代价为零 |
| 对称 → 正交对角化 | A=QΛQT(谱定理) | 对称矩阵一定可以用正交矩阵对角化,特征值全为实数,特征向量两两正交 |
| 谱分解 ↔ SVD 外积展开 | 谱:∑λiqiqiT;SVD:∑σiuiviT | 谱分解是对称矩阵的特例(ui=vi=qi,秩一分量退化为投影)。SVD 是任意矩阵的广义谱分解:每个 uiviT 连接输入/输出方向 |
| ATA → 对称 + 半正定 + SVD 起点 | (ATA)T=ATA;xTATAx=∥Ax∥2≥0 | 对称 → 可正交对角化(特征向量 = 右奇异向量 V);半正定 → 特征值 ≥0;特征值 =σi2 → 开方得奇异值,Avi=σiui 配对出左奇异向量 |
| 截断 SVD = 双侧投影 | Ak=Uk(UkTA)=(AVk)VkT | 左乘 UkUkT 投影列(输出空间),右乘 VkVkT 投影行(输入空间),两边切出同一个最优秩 k 近似 |
| tr(ATB) = 矩阵内积 = 拍平内积 | tr(ATB)=∑ijaijbij=vec(A)Tvec(B) | 矩阵内积 = 逐元素相乘求和 = 拉平成向量后做点积。特例 B=A 时 tr(ATA)=∥A∥F2 |
| 奇异值统一度量 | ∥A∥F, ∥A∥2, ∥A∥∗ | Frobenius = ℓ2,Spectral = ℓ∞,Nuclear = ℓ1,全部作用在奇异值向量 σ 上 |