本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

核心性质速查:概念关系图与公式速查表

核心性质速查:概念关系图与公式速查表

更新于 2026-04-24

本文是 Art. 0–5 的速查总结。先用一张关系图展示核心概念之间的推导链条,再按主题列出所有必须记住的公式和等价条件。

使用方式:读完前 6 篇文章后,用本文做回顾和自测。如果某条结论不确定,点击来源链接回到原文复习。

概念关系图

核心概念关系图基础定义核心定理 / 性质分解工具度量 & 应用优化桥梁对称矩阵A = Aᵀ正交矩阵QᵀQ = I,Q⁻¹ = Qᵀ二次型xᵀAx谱定理A = QΛQᵀ(正交对角化)正定 / 半正定xᵀAx > 0 / ≥ 0正交投影P² = P,Pᵀ = P特征分解 = 对角化A = PΛP⁻¹AᵀA / AAᵀGram 矩阵(枢纽)SVDA = UΣVᵀ非零 σᵢ 个数范数‖A‖₂=σ₁ ‖A‖F²=Σσᵢ²协方差矩阵¹⁄ₙ XᵀX伪逆 A⁺VΣ⁺UᵀHessian ↔ TaylorL ≈ L₀ + ∇Lᵀ Δw + ½ΔwᵀHΔw实特征值 + 正交特征向量正定性只对对称讨论> 0 ⟺ 正定对称时 P = Q 正交qqᵀ / WWᵀ,保范保角Q 来自谱定理λᵢ 全 > 0 ⟺ 正定 → 可逆H 正定 → 局部最小(AᵀA)ᵀ = AᵀA 必对称‖Ax‖² ≥ 0 必半正定AᵀA=VΣ²Vᵀ → 推导SVDA(AᵀA)⁻¹Aᵀ 投影¹⁄ₙ XᵀX非零 σᵢ 个数 = rankσ₁、Σσᵢ²、ΣσᵢA⁺ = VΣ⁺Uᵀ对称时 SVD = 谱定理H 必对称 (Schwarz)Taylor 二阶项 = 二次型κ(H) → 收敛速度AᵀA 特征值 = σᵢ²对称家族正交家族AᵀA 家族分解家族正定 / 优化度量直接推导间接关联

下图的核心信息:ATAA^TA 是连接最多的枢纽——它同时是对称的、半正定的、投影的基础、SVD 的推导起点、协方差矩阵的本体。理解了 ATAA^TA,就串联了大半张图。


一、对称矩阵家族

对称矩阵 A=ATA = A^T 的核心地位

  • 二次型 xTBx\mathbf{x}^TB\mathbf{x} 只受 BB 的对称部分影响 → 正定性只对对称矩阵讨论
  • ATAA^TA 必对称:(ATA)T=ATA(A^TA)^T = A^TA
  • Hessian 必对称(Schwarz 定理)
  • 谱定理保证:实特征值 + 正交特征向量 + 正交对角化 A=QΛQTA = Q\Lambda Q^T

来源Art. 1B §3Art. 2 §3

二、正交矩阵家族

正交矩阵 QTQ=IQ^TQ = I

Q1=QTQx=x(Qx)T(Qy)=xTyQ^{-1} = Q^T \qquad \|Q\mathbf{x}\| = \|\mathbf{x}\| \qquad (Q\mathbf{x})^T(Q\mathbf{y}) = \mathbf{x}^T\mathbf{y}

转置即逆,保长度,保角度。det(Q)=+1\det(Q) = +1 旋转,det(Q)=1\det(Q) = -1 反射。条件数 κ(Q)=1\kappa(Q) = 1

投影核心公式

投影目标条件投影矩阵投影结果
单位向量 q\mathbf{q}q=1\|\mathbf{q}\|=1P=qqTP = \mathbf{q}\mathbf{q}^Tv^=(qTv)q\hat{\mathbf{v}} = (\mathbf{q}^T\mathbf{v})\,\mathbf{q}
正交基 WWkk 列标准正交P=WWTP = WW^Tv^=W(WTv)\hat{\mathbf{v}} = W(W^T\mathbf{v})
一般列满秩 AAATAA^TA 可逆P=A(ATA)1ATP = A(A^TA)^{-1}A^Tb^=Pb\hat{\mathbf{b}} = P\mathbf{b}(最小二乘)

正交投影矩阵的充要条件:P2=PP^2 = P(幂等)且 PT=PP^T = P(对称)。

来源Art. 1A §2Art. 1A §5

三、正定与半正定

正定性等价条件链

条件正定半正定
二次型xTAx>0\mathbf{x}^TA\mathbf{x} > 0x0\forall \mathbf{x} \neq \mathbf{0}xTAx0\mathbf{x}^TA\mathbf{x} \geq 0
特征值全部 λi>0\lambda_i > 0全部 λi0\lambda_i \geq 0
BTBB^TB 形式A=BTBA = B^TBBB 列满秩A=BTBA = B^TB
可逆性必可逆可能奇异

ML 中的半正定矩阵:协方差矩阵(1nXTX\frac{1}{n}X^TX)、Gram 矩阵(VTVV^TV)、Kernel 矩阵(ΦΦT\Phi\Phi^T)——都是 BTBB^TB 形式,天然对称半正定。

来源Art. 1B §2Art. 2 §4

四、特征分解与谱定理

特征分解 = 对角化

A=PΛP1Λ=P1APA = P\Lambda P^{-1} \quad \Longleftrightarrow \quad \Lambda = P^{-1}AP

幂运算:An=PΛnP1A^n = P\Lambda^n P^{-1}。矩阵函数:f(A)=Pf(Λ)P1f(A) = Pf(\Lambda)P^{-1}

对称特例(谱定理)PP 变为正交矩阵 QQA=QΛQT=iλiqiqiTA = Q\Lambda Q^T = \sum_i \lambda_i \mathbf{q}_i\mathbf{q}_i^T

其中每个 qiqiT\mathbf{q}_i\mathbf{q}_i^T 就是向 qi\mathbf{q}_i 方向的正交投影矩阵(见第二节投影表第 1 行)。谱分解的直觉:对称矩阵 = 各特征方向投影的 λi\lambda_i 加权和

性质公式
迹 = 特征值之和tr(A)=iλi\text{tr}(A) = \sum_i \lambda_i
行列式 = 特征值之积det(A)=iλi\det(A) = \prod_i \lambda_i
可逆 ⟺ 无零特征值det(A)0    λi0  i\det(A) \neq 0 \iff \lambda_i \neq 0 \; \forall i

来源Art. 2 §2Art. 2 §3

五、SVD

SVD 核心公式(任意 m×nm \times n 矩阵均可分解)

A=UΣVT=i=1rσiuiviTA = U\Sigma V^T = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^T

每个 uiviT\mathbf{u}_i\mathbf{v}_i^T 是秩一矩阵,把输入方向 vi\mathbf{v}_i 连接到输出方向 ui\mathbf{u}_iSVD = 各奇异方向秩一分量的 σi\sigma_i 加权和——与谱分解 λiqiqiT\sum \lambda_i \mathbf{q}_i\mathbf{q}_i^T 完全对应:对称时 ui=vi=qi\mathbf{u}_i = \mathbf{v}_i = \mathbf{q}_i,秩一分量退化为投影矩阵,SVD 退化为谱定理。

连接关系
ATAA^TA=VΣ2VT= V\Sigma^2 V^T,特征向量 = 右奇异向量 VV
AATAA^T=UΣ2UT= U\Sigma^2 U^T,特征向量 = 左奇异向量 UU
对称时U=V=QU = V = Q,$\Sigma =
rank(A)\text{rank}(A) = 非零 σi\sigma_i 个数

Eckart-Young 定理:截断 SVD AkA_k 是最优 rank-kk 近似。信息保留率 =i=1kσi2i=1rσi2= \frac{\sum_{i=1}^k \sigma_i^2}{\sum_{i=1}^r \sigma_i^2}

伪逆A+=VΣ+UTA^+ = V\Sigma^+ U^T(对非零奇异值取倒数,零保持零)。

随机化 SVD:精确 SVD 复杂度 O(mnmin(m,n))O(mn\min(m,n)),对大矩阵不可行。核心思路:用随机投影 Y=AΩY = A\Omega 捕获 AA 的主要列空间 → QR 得正交基 QQ → 在小空间 B=QTAB = Q^TA 里做精确 SVD → 恢复 U=QU^U = Q\hat{U}。复杂度降到 O(mn(k+p))O(mn(k+p))。理论基础:JL 引理保证随机投影保持距离,k8lnN/ε2k \geq 8\ln N / \varepsilon^2(只取决于点数,与原始维度无关)。

来源Art. 3 §2Art. 3 §5Art. 6

六、范数与条件数

三大范数(全部用奇异值表达)

范数公式含义
FrobeniusAF=σi2=tr(ATA)\|A\|_F = \sqrt{\sum \sigma_i^2} = \sqrt{\text{tr}(A^TA)}总能量
SpectralA2=σmax\|A\|_2 = \sigma_{\max}最大拉伸
NuclearA=σi\|A\|_* = \sum \sigma_irank 的凸松弛

条件数κ(A)=σmax/σmin\kappa(A) = \sigma_{\max} / \sigma_{\min}κ1\kappa \approx 1 良态,κ1\kappa \gg 1 病态。

来源Art. 4 §1Art. 4 §4

七、微积分桥梁

统一视角:导数的作用总是把输入空间的微小扰动线性地映射到输出空间的变化——只是随维度升高,“乘法”的形式在变:

层级扰动 → 变化”乘法”形式
标量→标量ΔyfΔx\Delta y \approx f'\,\Delta x标量乘法
向量→标量ΔffTΔx\Delta f \approx \nabla f^T \Delta\mathbf{x}向量内积
向量→向量ΔyJΔx\Delta\mathbf{y} \approx J\,\Delta\mathbf{x}矩阵-向量乘法
矩阵→标量ΔLWL,ΔW=tr(WLTΔW)\Delta L \approx \langle \nabla_W L,\,\Delta W \rangle = \text{tr}(\nabla_W L^T\,\Delta W)矩阵内积

常用梯度 + Taylor 展开

(aTx)=a(xTAx)=2Ax\nabla(\mathbf{a}^T\mathbf{x}) = \mathbf{a} \qquad \nabla(\mathbf{x}^TA\mathbf{x}) = 2A\mathbf{x}

f(x+Δx)f(x)+fTΔx+12ΔxTHΔxf(\mathbf{x}+\Delta\mathbf{x}) \approx f(\mathbf{x}) + \nabla f^T\Delta\mathbf{x} + \tfrac{1}{2}\Delta\mathbf{x}^T H \Delta\mathbf{x}

Hessian HH 必对称 → 谱定理适用 → 特征值 = 各方向曲率。HH 正定 → 局部最小。κ(H)\kappa(H) 大 → 梯度下降收敛慢。

来源Art. 5 §1Art. 5 §4

八、助记口诀

口诀公式含义
左行右列DADA缩行、ADAD缩列;Ax=jxjajA\mathbf{x}=\sum_j x_j\mathbf{a}_j组合列、xTA=ixiaiT\mathbf{x}^TA=\sum_i x_i\mathbf{a}_i^T组合行同一原则:左乘动行,右乘动列。对角阵 DD、列向量 x\mathbf{x}、行向量 xT\mathbf{x}^T 全部遵守
vvT\mathbf{v}\mathbf{v}^T / WWTWW^T = 投影vvT\mathbf{v}\mathbf{v}^Tv\mathbf{v} 为单位向量);WWTWW^TWW 为列正交矩阵)vvT\mathbf{v}\mathbf{v}^T 是秩一正交投影矩阵,v\mathbf{v} 必须是单位向量v=1\lVert\mathbf{v}\rVert=1);WWTWW^T 投影到 WW 各列张成的子空间。遵循左行右列:PAPA 乘投影每一APAP 乘投影每一。谱分解 A=λiqiqiTA = \sum \lambda_i \mathbf{q}_i\mathbf{q}_i^T 中每项都是投影 × 权重
正交 → 转置即逆正交矩阵 Q1=QTQ^{-1} = Q^TQQ 的逆就是转置,计算代价为零
对称 → 正交对角化A=QΛQTA = Q\Lambda Q^T(谱定理)对称矩阵一定可以用正交矩阵对角化,特征值全为实数,特征向量两两正交
谱分解 ↔ SVD 外积展开谱:λiqiqiT\sum \lambda_i \mathbf{q}_i\mathbf{q}_i^T;SVD:σiuiviT\sum \sigma_i \mathbf{u}_i\mathbf{v}_i^T谱分解是对称矩阵的特例(ui=vi=qi\mathbf{u}_i = \mathbf{v}_i = \mathbf{q}_i,秩一分量退化为投影)。SVD 是任意矩阵的广义谱分解:每个 uiviT\mathbf{u}_i\mathbf{v}_i^T 连接输入/输出方向
ATAA^TA → 对称 + 半正定 + SVD 起点(ATA)T=ATA(A^TA)^T = A^TAxTATAx=Ax20\mathbf{x}^T A^TA\mathbf{x} = \lVert A\mathbf{x}\rVert^2 \geq 0对称 → 可正交对角化(特征向量 = 右奇异向量 VV);半正定 → 特征值 0\geq 0;特征值 =σi2= \sigma_i^2 → 开方得奇异值,Avi=σiuiA\mathbf{v}_i = \sigma_i\mathbf{u}_i 配对出左奇异向量
截断 SVD = 双侧投影Ak=Uk(UkTA)=(AVk)VkTA_k = U_k(U_k^TA) = (AV_k)V_k^T左乘 UkUkTU_kU_k^T 投影列(输出空间),右乘 VkVkTV_kV_k^T 投影行(输入空间),两边切出同一个最优秩 kk 近似
tr(ATB)\text{tr}(A^TB) = 矩阵内积 = 拍平内积tr(ATB)=ijaijbij=vec(A)Tvec(B)\text{tr}(A^TB) = \sum_{ij} a_{ij}b_{ij} = \text{vec}(A)^T\text{vec}(B)矩阵内积 = 逐元素相乘求和 = 拉平成向量后做点积。特例 B=AB=Atr(ATA)=AF2\text{tr}(A^TA) = \lVert A\rVert_F^2
奇异值统一度量AF\lVert A\rVert_F, A2\lVert A\rVert_2, A\lVert A\rVert_*Frobenius = 2\ell_2,Spectral = \ell_\infty,Nuclear = 1\ell_1,全部作用在奇异值向量 σ\boldsymbol{\sigma}