矩阵结构的几何：二次型、正定性与协方差

上一篇（Art. 1A）给了我们描述向量和子空间的几何语言——内积度量对齐、投影做分解、秩衡量独立方向。这些是向量级的工具。

现在我们要问一个更深层的问题：矩阵本身有什么内在结构？ 一个矩阵不只是一堆数字排成方阵。不同的矩阵有不同的”形状”——对称、正定、协方差、Gram……这些结构标签意味着什么？为什么 ML 中遇到的矩阵大多是对称半正定的？矩阵的迹和行列式这两个标量数字又凝缩了什么信息？

连接线是二次型（quadratic form） $\mathbf{x}^TA\mathbf{x}$ ——它把矩阵变成一个标量值函数，几何上画出椭圆、双曲线等曲面。正定意味着椭圆不退化——所有方向都在拉伸。协方差矩阵是”数据云的形状描述”，天然半正定。 $V^TV$ 度量列之间的相似度， $VV^T$ 把向量投影到列空间。迹和行列式是矩阵的两个最浓缩的”摘要”——总拉伸量和体积缩放。

这六个概念构成了矩阵级的几何语言，为 Art. 2 的特征分解做好最后的铺垫。

二次型：把矩阵变成几何曲面

从矩阵到标量函数

给定一个对称矩阵 $A \in \mathbb{R}^{n \times n}$ （即 $A = A^T$ ），二次型（quadratic form）定义为：

$f(\mathbf{x}) = \mathbf{x}^TA\mathbf{x}$

这是一个从 $\mathbb{R}^n$ 到 $\mathbb{R}$ 的函数——输入一个向量，输出一个标量。

为什么要求 $A$ 对称？因为任何矩阵的二次型都等于其对称部分的二次型。具体来说，任意矩阵 $B$ 都可以唯一分解为对称部分和反对称部分之和：

$B = \underbrace{\frac{B + B^T}{2}}_{\text{对称部分 } S} + \underbrace{\frac{B - B^T}{2}}_{\text{反对称部分 } K}$

其中 $S = S^T$ ， $K = -K^T$ 。关键观察：反对称矩阵对二次型的贡献恒为零。这是因为 $\mathbf{x}^TK\mathbf{x}$ 是一个标量，标量的转置等于自身：

$\mathbf{x}^TK\mathbf{x} = (\mathbf{x}^TK\mathbf{x})^T = \mathbf{x}^TK^T\mathbf{x} = \mathbf{x}^T(-K)\mathbf{x} = -\mathbf{x}^TK\mathbf{x}$

一个数等于它自己的负数，只能是零。因此：

二次型只看到对称部分

$\mathbf{x}^TB\mathbf{x} = \mathbf{x}^T\!\left(\frac{B + B^T}{2}\right)\mathbf{x}$

反对称部分对二次型贡献恒为零 → 正定性只对对称矩阵讨论。

也就是说，二次型只”看到”矩阵的对称部分——反对称部分完全隐形。所以不失一般性，我们只讨论对称矩阵。

用 $2 \times 2$ 验证：取 $B = \begin{bmatrix}1 & 3 \\ 1 & 2\end{bmatrix}$ ，对称部分 $S = \begin{bmatrix}1 & 2 \\ 2 & 2\end{bmatrix}$ ，反对称部分 $K = \begin{bmatrix}0 & 1 \\ -1 & 0\end{bmatrix}$ 。对 $\mathbf{x} = (x_1, x_2)^T$ ： $\mathbf{x}^TK\mathbf{x} = x_1 x_2 - x_2 x_1 = 0$ ✓。反对称部分产生的两个交叉项恰好正负抵消。

2D 展开：看清每一项

在二维空间中，设 $\mathbf{x} = (x_1, x_2)^T$ ，对称矩阵 $A = \begin{bmatrix}a & b \\ b & c\end{bmatrix}$ 。展开二次型：

$\mathbf{x}^TA\mathbf{x} = \begin{pmatrix}x_1 & x_2\end{pmatrix}\begin{bmatrix}a & b \\ b & c\end{bmatrix}\begin{pmatrix}x_1 \\ x_2\end{pmatrix} = ax_1^2 + 2bx_1x_2 + cx_2^2$

逐项含义：

$ax_1^2$ ：沿 $x_1$ 轴的”拉伸”，系数 $a$ 决定拉伸强度
$cx_2^2$ ：沿 $x_2$ 轴的”拉伸”，系数 $c$ 决定拉伸强度
$2bx_1x_2$ ：耦合项——两个坐标轴之间的”交叉作用”。 $b = 0$ 时两轴独立

等值线的几何：矩阵决定形状

二次型的等值线（contour）是满足 $\mathbf{x}^TA\mathbf{x} = c$ 的所有点的集合。不同的矩阵画出截然不同的几何图形。

例 1：对角正定矩阵 $A = \begin{bmatrix}3 & 0 \\ 0 & 1\end{bmatrix}$

$3x_1^2 + x_2^2 = 1$

这是一个标准椭圆—— $x_1$ 方向被压得更窄（系数 3 更大）， $x_2$ 方向更宽。椭圆的轴就沿坐标轴方向。

例 2：对角不定矩阵 $A = \begin{bmatrix}2 & 0 \\ 0 & -1\end{bmatrix}$

$2x_1^2 - x_2^2 = 1$

这是一条双曲线—— $x_1$ 方向的系数为正， $x_2$ 方向为负，两个方向的”拉伸”相互矛盾。

例 3：非对角正定矩阵 $A = \begin{bmatrix}2 & 1 \\ 1 & 2\end{bmatrix}$

$2x_1^2 + 2x_1x_2 + 2x_2^2 = 1$

仍然是椭圆（因为两个方向的系数都为正且足够大），但椭圆旋转了——轴不再沿坐标轴。耦合项 $2x_1x_2$ 让椭圆倾斜了 45 度。

二次型的等值线：矩阵结构决定几何形状

xᵀAx = c 的等值线由矩阵 A 的性质决定

关键观察：椭圆/双曲线的轴方向和长度，完全由矩阵 $A$ 决定。 找到这些”天然轴”——让二次型的等值线变成最简单的形式——正是 Art. 2 特征分解要做的事。

二次型为什么重要

二次型不是一个纯数学游戏。在优化中，一个光滑函数在极值点附近的 Taylor 展开恰好是二次型：

$f(\mathbf{x}) \approx f(\mathbf{x}_0) + \nabla f(\mathbf{x}_0)^T(\mathbf{x} - \mathbf{x}_0) + \frac{1}{2}(\mathbf{x} - \mathbf{x}_0)^T H (\mathbf{x} - \mathbf{x}_0)$

在极值点 $\nabla f = \mathbf{0}$ ，函数的局部行为就由二次型 $\frac{1}{2}\mathbf{d}^TH\mathbf{d}$ 决定（ $H$ 是 Hessian 矩阵）。椭圆形等值线意味着碗底（极小值），双曲线意味着鞍点。深度学习中损失函数的地形分析，核心就是在分析这个二次型。

同时，PCA 的优化目标 $\max_{\mathbf{w}} \mathbf{w}^TC\mathbf{w}$ （约束 $\|\mathbf{w}\| = 1$ ）本身就是协方差矩阵 $C$ 的二次型——在单位球面上找二次型的最大值。

正定与半正定：所有方向都在拉伸

定义

二次型的”形状”引出了矩阵最重要的分类之一：

正定（positive definite）： $\mathbf{x}^TA\mathbf{x} > 0$ 对所有 $\mathbf{x} \neq \mathbf{0}$
半正定（positive semidefinite，简写 PSD）： $\mathbf{x}^TA\mathbf{x} \geq 0$ 对所有 $\mathbf{x}$
不定（indefinite）：存在 $\mathbf{x}$ 使 $\mathbf{x}^TA\mathbf{x} > 0$ ，也存在 $\mathbf{y}$ 使 $\mathbf{y}^TA\mathbf{y} < 0$

直观理解：

正定 = 不管从哪个方向看，二次型都严格为正 = 等值线是封闭椭圆 = 碗形曲面
半正定 = 所有方向都非负，但某些方向可能为零 = 椭圆可能退化成椭圆柱
不定 = 有些方向为正、有些为负 = 等值线是双曲线 = 鞍面

正定 vs 不定：等值线的几何区别

正定 = 封闭椭圆（碗底）不定 = 双曲线（鞍点）

不依赖特征分解的判定方法

判断正定/半正定，有一个非常直接的充分条件：

$B^TB$ 判据： $A = B^TB$ $\Longrightarrow$ $A$ 半正定

$\mathbf{x}^TA\mathbf{x} = \|B\mathbf{x}\|^2 \geq 0$

推论：协方差矩阵（ $\frac{1}{n}X^TX$ ）、Gram 矩阵、Kernel 矩阵都是对称半正定的。

什么时候严格正定？当 $B\mathbf{x} = \mathbf{0}$ 只有 $\mathbf{x} = \mathbf{0}$ 这个解时——即 $B$ 的零空间只包含零向量—— $B^TB$ 就是正定的。

另一个简单判据：对角矩阵的正定性直接由对角元素决定。 如果 $A = \text{diag}(d_1, \ldots, d_n)$ ，则：

$\mathbf{x}^TA\mathbf{x} = d_1 x_1^2 + d_2 x_2^2 + \cdots + d_n x_n^2$

所有 $d_i > 0$ 则正定，所有 $d_i \geq 0$ 则半正定，有正有负则不定。

Art. 2 预告：特征分解会揭示一个优雅的等价条件——正定 $\iff$ 所有特征值 $> 0$ 。这把一般矩阵的正定性判断归结为了对角矩阵的情况。

为什么 ML 关心正定性

正定/半正定不只是数学家的分类游戏，它在 ML 中有直接的实际意义：

协方差矩阵半正定：方差不能为负——这个直觉将在下面的 §4 中精确化
Hessian 正定 $\Rightarrow$ 局部极小：优化算法在正定 Hessian 处找到的是碗底，不是鞍点
Kernel 矩阵要求半正定：支持向量机、高斯过程等 kernel 方法的数学基础要求 kernel 矩阵 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 是半正定的

对称矩阵：ML 中最常见的结构

在一般线性代数课程中，矩阵可以是任意形状的。但在 ML 中，你遇到的重要方阵绝大多数是对称的。这不是巧合，而是有结构性原因的。

为什么对称矩阵无处不在

ML 中的对称矩阵无处不在

对称 + 半正定是 ML 中最常见的矩阵结构

$A^TA$ 必对称

$(A^TA)^T = A^T(A^T)^T = A^TA$

结合 $B^TB$ 判据 → $A^TA$ 同时是对称且半正定的。

这一条就解释了大量的对称矩阵来源。以下 ML 中的核心矩阵都是 $B^TB$ （或类似形式）：

协方差矩阵 $C = \frac{1}{n-1}\tilde{X}^T\tilde{X}$ ：中心化数据的 Gram 矩阵，对称且半正定
Gram 矩阵 $G = V^TV$ ：度量向量集合的两两内积，对称且半正定
Kernel 矩阵 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ ：如果 kernel 函数 $k$ 满足 Mercer 条件， $K$ 对称半正定
图 Laplacian $L = D - W$ ： $D$ 是度数对角矩阵， $W$ 是邻接矩阵。 $L$ 对称（对无向图）且半正定
Hessian 矩阵：二阶偏导数矩阵 $H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}$ ，由偏导数交换性保证对称

对称矩阵有什么特殊？

对称矩阵不仅仅是" $A = A^T$ "这样的代数条件。从几何上看，对称矩阵有一个核心性质：它的二次型等值线一定有互相正交的轴。

回顾前面的例子： $\begin{bmatrix}2 & 1 \\ 1 & 2\end{bmatrix}$ 的等值线是旋转了 45° 的椭圆。但无论怎么旋转，椭圆的长轴和短轴一定互相垂直——这不是偶然，而是对称性保证的。

边界声明：为什么对称矩阵一定有正交的轴？这背后是谱定理（spectral theorem），将在 Art. 2 特征分解给出完整答案。本节只需要记住两点：

对称矩阵在 ML 中无处不在（因为 $B^TB$ 结构）
对称矩阵有某种内在的正交结构——这使得它们特别适合分析和分解

协方差矩阵：数据云的形状

前三节建立了二次型、正定性和对称性这三个概念。现在把它们统一到一个 ML 中最重要的矩阵上：协方差矩阵（covariance matrix）。

从散点图到椭球

想象在二维平面上撒了一把点——有些像圆形分布，有些像细长的椭圆。协方差矩阵精确地描述了这种”形状”：点云是圆形还是椭圆？椭圆指向哪个方向？椭圆有多扁？

定义

给定 $n$ 个 $d$ 维数据点 $\mathbf{x}_1, \ldots, \mathbf{x}_n$ ，均值为 $\bar{\mathbf{x}} = \frac{1}{n}\sum_{i=1}^n \mathbf{x}_i$ 。中心化数据 $\tilde{\mathbf{x}}_i = \mathbf{x}_i - \bar{\mathbf{x}}$ ，写成矩阵形式 $\tilde{X} \in \mathbb{R}^{n \times d}$ （每行是一个中心化样本）。

协方差矩阵定义为：

$C = \frac{1}{n-1}\tilde{X}^T\tilde{X}$

这是一个 $d \times d$ 的矩阵。分母 $n-1$ （而非 $n$ ）是无偏估计的 Bessel 校正。

逐项解读

$C$ 的每个元素都有清晰的含义：

$C_{ij} = \frac{1}{n-1}\sum_{k=1}^n \tilde{x}_{ki}\,\tilde{x}_{kj}$

对角线 $C_{ii} = \frac{1}{n-1}\sum_{k=1}^n \tilde{x}_{ki}^2 = \text{Var}(x_i)$ ：第 $i$ 个特征的方差——数据在第 $i$ 个坐标方向上散布的程度
非对角 $C_{ij}$ $C_{ij}$ ( $i \neq j$ $i \neq = j$ )：第 $i$ $i$ 和第 $j$ $j$ 个特征之间的协方差——两个特征是否”一起变大”或”一个变大另一个变小”
- $C_{ij} > 0$ ：正相关（同增同减）
- $C_{ij} = 0$ ：不相关
- $C_{ij} < 0$ ：负相关

几何意义： $\mathbf{v}^TC\mathbf{v}$ 就是方向方差

协方差矩阵直接决定了数据云的”形状”。这个说法的精确含义需要分三步理解。

第一步：把高维数据投影到一个方向上。 取任意单位向量 $\mathbf{v}$ （ $\|\mathbf{v}\| = 1$ ），代表空间中的一个方向。每个中心化样本 $\tilde{\mathbf{x}}_i$ 在 $\mathbf{v}$ 方向上的投影是一个标量：

$p_i = \tilde{\mathbf{x}}_i^T \mathbf{v}$

这 $n$ 个标量 $p_1, p_2, \ldots, p_n$ 描述了数据沿 $\mathbf{v}$ 方向的分布——它们就是”从 $\mathbf{v}$ 方向看过去”数据散布的程度。

第二步：这些投影值的方差恰好等于 $\mathbf{v}^TC\mathbf{v}$ 。 因为数据已经中心化（均值为零），投影值的均值也为零，所以方差就是平方和除以 $n-1$ ：

$\text{Var}(\text{投影}) = \frac{1}{n-1}\sum_{i=1}^{n} p_i^2 = \frac{1}{n-1}\sum_{i=1}^{n} (\tilde{\mathbf{x}}_i^T \mathbf{v})^2$

把 $n$ 个投影值排成向量： $\tilde{X}\mathbf{v} = (p_1, p_2, \ldots, p_n)^T$ ，则

$\text{Var}(\text{投影}) = \frac{1}{n-1}\|\tilde{X}\mathbf{v}\|^2 = \frac{1}{n-1}(\tilde{X}\mathbf{v})^T(\tilde{X}\mathbf{v}) = \mathbf{v}^T\underbrace{\frac{1}{n-1}\tilde{X}^T\tilde{X}}_{= \, C}\mathbf{v} = \mathbf{v}^TC\mathbf{v}$

这就是关键等式： $\mathbf{v}^TC\mathbf{v}$ = 数据在方向 $\mathbf{v}$ 上的方差。 选不同的方向 $\mathbf{v}$ ，二次型给出不同的方差值。数据云在某些方向上”胖”（方差大），在另一些方向上”瘦”（方差小）——这些差异全部编码在 $C$ 中。

第三步：等值面 $\mathbf{v}^TC\mathbf{v} = c$ 画出椭球。 如果我们把所有方向 $\mathbf{v}$ 按其方差值”等高着色”，方差相同的方向构成的曲面 $\mathbf{v}^TC\mathbf{v} = c$ 就是一个椭球——和前面 §2 中二次型的等值线完全一致。对高斯分布 $\mathcal{N}(\mathbf{0}, C)$ 来说，概率密度 $\propto \exp(-\frac{1}{2}\mathbf{x}^TC^{-1}\mathbf{x})$ ，等密度曲线 $\mathbf{x}^TC^{-1}\mathbf{x} = c$ 也是椭球，形状由 $C$ 决定。

协方差矩阵 = 数据云的形状

椭圆的轴方向 = 数据散布的主方向，轴长度 ∝ 标准差

椭球的性质完全由 $C$ 决定：

椭球的轴方向是 $C$ 的”天然轴”——即方差最大/最小的正交方向（这正是 PCA 要找的主成分方向，将在 Art. 6 PCA 正式建立）
椭球沿各轴的半径与该方向上的标准差成正比

为什么协方差矩阵一定半正定

上面的推导已经给出了答案—— $\mathbf{v}^TC\mathbf{v}$ 是方差，方差不能为负：

$\mathbf{v}^TC\mathbf{v} = \frac{1}{n-1}\|\tilde{X}\mathbf{v}\|^2 \geq 0$

这也是 §2 中 $B^TB$ 判据的直接应用（ $C = \frac{1}{n-1}\tilde{X}^T\tilde{X}$ ，取 $B = \frac{1}{\sqrt{n-1}}\tilde{X}$ ）。

直接连接 PCA

PCA 的优化目标”找方差最大的方向”可以精确写成：

$\max_{\|\mathbf{w}\|=1} \mathbf{w}^TC\mathbf{w}$

这正是在单位球面上最大化协方差矩阵的二次型。Art. 2 特征分解的特征分解给出答案——最大方差方向是 $C$ 的最大特征向量。Art. 6（PCA）将展开这个故事的完整版本。

$V^TV$ 与 $VV^T$ ：Gram 矩阵与投影矩阵

在讨论协方差矩阵时，我们遇到了 $\tilde{X}^T\tilde{X}$ 。现在更一般地讨论这对”孪生矩阵”：给定矩阵 $V \in \mathbb{R}^{n \times d}$ ， $V^TV$ 和 $VV^T$ 是两个看起来相似但含义不同的矩阵。

$V^TV$ （Gram 矩阵）：列相似度

$V^TV$ 是一个 $d \times d$ 矩阵，它的 $(i, j)$ 元素是 $V$ 的第 $i$ 列和第 $j$ 列的内积：

$(V^TV)_{ij} = \mathbf{v}_i^T\mathbf{v}_j$

其中 $\mathbf{v}_i$ 是 $V$ 的第 $i$ 个列向量。

这就是 Gram 矩阵——它完整编码了列向量之间的两两相似度：

对角线 $(V^TV)_{ii} = \|\mathbf{v}_i\|^2$ ：第 $i$ 列的”能量”
非对角 $(V^TV)_{ij}$ ：第 $i$ 列和第 $j$ 列的对齐程度

Gram 矩阵一定是对称半正定的（因为它本身就是 $B^TB$ 的形式）。

$VV^T$ （投影矩阵族）：投影到列空间

$VV^T$ 是一个 $n \times n$ 矩阵。当 $V$ 的列是标准正交的（ $V^TV = I$ ）时， $P = VV^T$ 就是向 $V$ 的列空间的正交投影矩阵——正是 Art. 1A 向量空间几何中讨论过的投影矩阵。

即使列不正交， $VV^T$ 也有明确的几何含义：它把任何向量 $\mathbf{x}$ 映射为 $V$ 的列向量的一个线性组合 $V(V^T\mathbf{x})$ ——其中 $V^T\mathbf{x}$ 计算了 $\mathbf{x}$ 与每个列的内积（“在各列方向上的分量”），然后 $V$ 把这些分量重新组合回原始空间。

VᵀV（Gram 矩阵）vs VVᵀ（投影矩阵）

前者度量列之间的相似度，后者把向量投影到列空间

核心联系：共享非零特征值

$V^TV$ 和 $VV^T$ 有一个意义深远的性质：它们共享所有非零特征值（含重数）。

这意味着，虽然 $V^TV$ 是 $d \times d$ 、 $VV^T$ 是 $n \times n$ （尺寸可能差很多），但它们”编码了同样的信息”。区别只在于：

$V^TV$ 从”列空间”的视角看
$VV^T$ 从”行空间”的视角看

$\tilde{X}^T\tilde{X}$ vs $\tilde{X}\tilde{X}^T$ ：同样的信息，不同的尺寸

回到协方差的场景： $\tilde{X} \in \mathbb{R}^{n \times d}$ （ $n$ 个样本， $d$ 维特征）。

$\tilde{X}^T\tilde{X}$ （ $d \times d$ ）：特征之间的 Gram 矩阵。除以 $n-1$ 就是协方差矩阵 $C$ 。当 $d$ 较小时，直接处理这个矩阵
$\tilde{X}\tilde{X}^T$ （ $n \times n$ ）：样本之间的 Gram 矩阵。 $(i, j)$ 元素是样本 $i$ 和样本 $j$ 的内积——度量两个样本的”相似度”

当 $n \ll d$ （样本数远小于特征维度）时，处理 $n \times n$ 的 $\tilde{X}\tilde{X}^T$ 比处理 $d \times d$ 的 $\tilde{X}^T\tilde{X}$ 便宜得多。这正是 Turk & Pentland（1991）在 Eigenfaces 人脸识别中使用的技巧：图像维度 $d = 10304$ （ $112 \times 92$ 像素），但样本数 $n$ 只有几百。先对小矩阵 $\tilde{X}\tilde{X}^T$ 做分解，再用共享非零特征值的性质恢复大矩阵的分解结果。Art. 6（PCA）将详细展示这个技巧。

迹与行列式：矩阵的两个”摘要数字”

一个 $n \times n$ 矩阵有 $n^2$ 个元素。有没有办法用一两个数字浓缩矩阵的关键信息？迹和行列式就是两个最重要的标量摘要。

迹：总拉伸量

矩阵 $A$ 的迹（trace）是对角元素之和：

$\text{tr}(A) = \sum_{i=1}^n a_{ii}$

迹有一个深层身份：迹等于所有特征值之和。 也就是说，迹衡量了矩阵”在所有方向上的拉伸的总量”——不管你选什么坐标系，这个总量是不变的。

迹还有几个非常有用的性质：

循环置换不变性： $\text{tr}(ABC) = \text{tr}(BCA) = \text{tr}(CAB)$ （但不等于 $\text{tr}(BAC)$ ）
转置不变性： $\text{tr}(A^T) = \text{tr}(A)$
线性： $\text{tr}(A + B) = \text{tr}(A) + \text{tr}(B)$ ， $\text{tr}(\alpha A) = \alpha \cdot \text{tr}(A)$

协方差矩阵的迹 = 总方差。 因为 $\text{tr}(C) = \sum_i C_{ii} = \sum_i \text{Var}(x_i)$ ——对角元素就是各维度的方差。在 PCA 中，保留的方差占总方差的比例就是 $\frac{\sum_{i=1}^k \lambda_i}{\text{tr}(C)}$ 。

行列式：体积缩放因子

矩阵 $A$ 的行列式（determinant） $\det(A)$ 衡量的是： $A$ 作为线性变换，把体积放大或缩小了多少倍。

行列式 = 面积（体积）缩放因子

单位正方形经矩阵变换后，面积变为 |det(A)| 倍

几何直觉：

二维中， $|\det(A)|$ = 单位正方形变换后的平行四边形面积
三维中， $|\det(A)|$ = 单位立方体变换后的平行六面体体积
$\det(A) > 0$ ：保持方向（不翻转）
$\det(A) < 0$ ：翻转方向（镜像）

行列式也有一个深层身份：行列式等于所有特征值之积。 所以：

$\det(A) = 0 \iff \text{某个特征值为 } 0 \iff A \text{ 不可逆}$

这给出了判断矩阵可逆性的一个标量测试。

对于 $2 \times 2$ 矩阵，行列式有一个简洁的公式：

$\det\begin{bmatrix}a & b \\ c & d\end{bmatrix} = ad - bc$

可以直接验证： $A = \begin{bmatrix}2 & 1 \\ 0.5 & 1.5\end{bmatrix}$ ， $\det(A) = 2 \times 1.5 - 1 \times 0.5 = 2.5$ ——单位正方形变成面积为 2.5 的平行四边形，与上图一致。

协同洞察：加法 vs 乘法

迹和行列式是矩阵的两个互补视角：

	迹 $\text{tr}(A)$	行列式 $\det(A)$
定义	对角元素之和	（通过置换或递归定义）
特征值关系	特征值之和	特征值之积
几何含义	总拉伸量	体积缩放因子
为零的含义	拉伸的”平均”为零	矩阵不可逆
协方差矩阵	总方差	”广义方差”

迹是加法摘要（求和），行列式是乘法摘要（求积）。两者缺一不可——知道了迹但不知道行列式（或反过来），你对矩阵的理解是不完整的。

完整数值例子

把本文的所有概念串在一起，用一个具体的 2D 数据集完整走一遍。

数据

5 个二维数据点：

$\mathbf{p}_1 = (1, 2), \quad \mathbf{p}_2 = (2, 1), \quad \mathbf{p}_3 = (3, 3), \quad \mathbf{p}_4 = (4, 5), \quad \mathbf{p}_5 = (5, 4)$

第一步：中心化

均值： $\bar{\mathbf{x}} = \left(\frac{1+2+3+4+5}{5},\; \frac{2+1+3+5+4}{5}\right) = (3, 3)$

中心化数据（每个点减去均值）：

$\tilde{\mathbf{x}}_1 = (-2, -1), \quad \tilde{\mathbf{x}}_2 = (-1, -2), \quad \tilde{\mathbf{x}}_3 = (0, 0), \quad \tilde{\mathbf{x}}_4 = (1, 2), \quad \tilde{\mathbf{x}}_5 = (2, 1)$

写成矩阵： $\tilde{X} = \begin{bmatrix}-2 & -1 \\ -1 & -2 \\ 0 & 0 \\ 1 & 2 \\ 2 & 1\end{bmatrix}$

第二步：计算协方差矩阵

$\tilde{X}^T\tilde{X} = \begin{bmatrix}-2&-1&0&1&2 \\ -1&-2&0&2&1\end{bmatrix}\begin{bmatrix}-2&-1\\-1&-2\\0&0\\1&2\\2&1\end{bmatrix} = \begin{bmatrix}10 & 8 \\ 8 & 10\end{bmatrix}$

验证：第一行第一列 $= (-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2 = 4+1+0+1+4 = 10$ ✓

第一行第二列 $= (-2)(-1) + (-1)(-2) + 0 \cdot 0 + 1 \cdot 2 + 2 \cdot 1 = 2+2+0+2+2 = 8$ ✓

协方差矩阵：

$C = \frac{1}{n-1}\tilde{X}^T\tilde{X} = \frac{1}{4}\begin{bmatrix}10 & 8 \\ 8 & 10\end{bmatrix} = \begin{bmatrix}2.5 & 2 \\ 2 & 2.5\end{bmatrix}$

解读：

对角元素 $C_{11} = C_{22} = 2.5$ ：两个维度的方差相等
非对角元素 $C_{12} = C_{21} = 2$ ：强正相关—— $x_1$ 增大时 $x_2$ 也倾向于增大

第三步：验证半正定

用 $B^TB$ 判据： $C = \frac{1}{4}\tilde{X}^T\tilde{X}$ ，所以对任意 $\mathbf{v}$ ：

$\mathbf{v}^TC\mathbf{v} = \frac{1}{4}\|\tilde{X}\mathbf{v}\|^2 \geq 0 \quad \checkmark$

具体验证几个方向：

$\mathbf{v} = (1, 0)$ ： $\mathbf{v}^TC\mathbf{v} = 2.5 > 0$ ✓
$\mathbf{v} = (0, 1)$ ： $\mathbf{v}^TC\mathbf{v} = 2.5 > 0$ ✓
$\mathbf{v} = \frac{1}{\sqrt{2}}(1, 1)$ ： $\mathbf{v}^TC\mathbf{v} = \frac{1}{2}(2.5 + 2 + 2 + 2.5) = 4.5 > 0$ ✓（最大方差方向）
$\mathbf{v} = \frac{1}{\sqrt{2}}(1, -1)$ ： $\mathbf{v}^TC\mathbf{v} = \frac{1}{2}(2.5 - 2 - 2 + 2.5) = 0.5 > 0$ ✓（最小方差方向）

注意 4.5 和 0.5 的巨大差异——沿 $(1,1)$ 方向数据散布极广，沿 $(1,-1)$ 方向数据紧凑。这正是 PCA 发现的：前者是第一主成分方向，后者是第二主成分方向。

第四步： $\tilde{X}^T\tilde{X}$ vs $\tilde{X}\tilde{X}^T$

$\tilde{X}^T\tilde{X}$ （ $2 \times 2$ ）我们已经算了： $\begin{bmatrix}10 & 8 \\ 8 & 10\end{bmatrix}$ 。

$\tilde{X}\tilde{X}^T$ （ $5 \times 5$ ）的每个元素是两个样本的内积：

$\tilde{X}\tilde{X}^T = \begin{bmatrix}5&4&0&-4&-5\\4&5&0&-5&-4\\0&0&0&0&0\\-4&-5&0&5&4\\-5&-4&0&4&5\end{bmatrix}$

验证： $(1,1)$ 元素 $= (-2)^2 + (-1)^2 = 5$ ✓。 $(1,2)$ 元素 $= (-2)(-1)+(-1)(-2) = 4$ ✓。

共享非零特征值验证： $\tilde{X}^T\tilde{X}$ 的特征值为 18 和 2。 $\tilde{X}\tilde{X}^T$ 是 $5 \times 5$ 矩阵，它的特征值为 18, 2, 0, 0, 0。非零特征值 $\{18, 2\}$ 完全一致 ✓

（协方差矩阵 $C = \frac{1}{4}\tilde{X}^T\tilde{X}$ 的特征值为 $\frac{18}{4} = 4.5$ 和 $\frac{2}{4} = 0.5$ 。）

第五步：迹和行列式

$\text{tr}(C) = 2.5 + 2.5 = 5.0 = \text{总方差}$

验证： $\text{tr}(C) = \lambda_1 + \lambda_2 = 4.5 + 0.5 = 5.0$ ✓

$\det(C) = 2.5 \times 2.5 - 2 \times 2 = 6.25 - 4 = 2.25$

验证： $\det(C) = \lambda_1 \times \lambda_2 = 4.5 \times 0.5 = 2.25$ ✓

行列式不为零，说明 $C$ 不仅是半正定的，而且是正定的——两个方向都有非零方差，没有退化。

种子：椭球的轴方向就是特征向量

从 §3 的计算中，我们已经发现了椭球的两个轴方向： $(1,1)/\sqrt{2}$ 对应方差 4.5， $(1,-1)/\sqrt{2}$ 对应方差 0.5。这两个方向互相正交，分别是方差最大和最小的方向。

这就是 $C$ 的特征分解做的事——找到让 $C$ 变成对角形式的那组正交坐标轴。在新坐标下：

$C \to \begin{bmatrix}4.5 & 0 \\ 0 & 0.5\end{bmatrix}$

对角矩阵——没有耦合项，两个方向完全独立。这就是特征分解的核心目标：找到让矩阵变成最简形式的坐标系。 Art. 2 特征分解将给出完整的理论。

总结与展望

本文建立了描述矩阵内在结构的六个核心概念：

概念	核心含义	在 ML 中的作用
二次型	矩阵 → 标量函数 → 几何曲面	损失函数局部分析、PCA 目标
正定性	所有方向都在拉伸	协方差矩阵、Hessian 判断、kernel
对称性	$A = A^T$ ，等值线有正交轴	几乎所有 ML 核心矩阵都对称
协方差矩阵	数据云的形状描述	PCA、高斯分布、特征选择
Gram / 投影	列相似度 / 子空间投影	Eigenfaces 技巧、kernel 方法
迹 / 行列式	加法摘要 / 乘法摘要	总方差、可逆性判断

至此，Art. 1A 和 1B 共同建立了完整的几何语言——向量级（内积、投影、秩、零空间）和矩阵级（二次型、正定性、协方差、迹、行列式）。

但我们一直在说”找到天然轴”、“让矩阵变成对角形式”，却还没有给出系统的方法。有没有一组”天然坐标轴”，让任何矩阵在新坐标下变成最简单的对角形式？每个方向上的拉伸倍数是多少？

这正是 Art. 2 特征分解要回答的问题——它将把本文中反复出现的”天然轴”精确化为特征向量，把”拉伸倍数”精确化为特征值，并给出对称矩阵的完整分解定理。