矩阵数学全景图：ML 的通用语言

机器学习的每一个核心操作，最终都落在矩阵上。一批数据是一个矩阵（行=样本，列=特征）；一次线性变换是一个矩阵（权重矩阵 $W$ ）；一步梯度下降要算矩阵对矩阵的导数；一个图的结构可以编码为邻接矩阵；甚至 Transformer 的 attention 分数也是一个矩阵。理解矩阵的性质和操作，就是理解 ML 的底层语言。

本路径从这个观察出发，构建一套完整的矩阵数学工具箱。我们不会试图覆盖线性代数的所有内容——而是聚焦于 ML 中真正反复出现的那些矩阵方法，从基础的特征分解一路走到 LoRA、Attention 和 SSM/Mamba。

三类矩阵：一个关键洞察

在 ML 中，矩阵扮演三种截然不同的角色。识别出一个矩阵属于哪种角色，决定了你该用什么工具来分析它。

数据容器：矩阵装着你的数据

最直接的情况：矩阵的每个元素就是一个数据点。

$A \in \mathbb{R}^{m \times n}, \quad A_{ij} = \text{第 } i \text{ 个样本在第 } j \text{ 个特征上的值}$

用户-物品评分矩阵： $A_{ij}$ = 用户 $i$ 对物品 $j$ 的评分。10 万用户 × 5 万物品，99% 是空的——你想补全它（矩阵补全）、分解它发现潜在兴趣（MF/FM）。
词-上下文共现矩阵： $A_{ij}$ = 词 $i$ 在词 $j$ 上下文中出现的次数。Word2Vec 本质上是对这个矩阵的隐式分解。
图像矩阵： $A \in \mathbb{R}^{H \times W}$ ，每个像素是一个灰度值。SVD 截断到秩 $k$ 就是图像压缩。

这些矩阵的共同特点：数据本身就是矩阵的值。我们的目标是从中提取隐藏结构——降维、补全、聚类、发现 parts。核心工具是各种分解方法。

给定算子：矩阵编码一个过程

有时矩阵不装数据，而是描述一个过程或变换。乘一次矩阵 = 执行一步操作。

$\mathbf{x}_{t+1} = P \, \mathbf{x}_t$

转移矩阵 $P$ ： $P_{ij}$ = 从状态 $i$ 到状态 $j$ 的概率。行和为 1。马尔可夫链乘 $P$ 一次 = 走一步，乘 $n$ 次 = 走 $n$ 步， $n \to \infty$ 趋向稳态。
图 Laplacian $L = D - A_G$ ：编码图的连接结构。 $L$ 的特征值和特征向量揭示图的连通分量、聚类结构。
Kernel 矩阵 $K$ ： $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 度量样本间的相似度。正半定性保证它可以被解释为内积。

这些矩阵有额外的数学结构（随机矩阵行和为 1、Laplacian 半正定且行和为 0、Kernel 矩阵正半定），这些结构带来额外的定理——但分析它们的基本工具（特征分解、SVD）仍然来自 Part 1。关键的新操作是迭代：反复乘以算子，观察系统行为。

学习算子：矩阵是训练出来的

神经网络中，每一层的权重矩阵 $W$ 是通过训练学到的线性变换：

$\mathbf{h} = W\mathbf{x} + \mathbf{b}$

这些矩阵既不是”原始数据”（它们不直接对应观测值），也不是”给定的”（它们是优化出来的）。一个有趣的经验发现：训练好的大模型，其权重矩阵经常呈现低秩结构——有效信息集中在少数几个奇异向量方向上。

这个发现带来了实际应用：

LoRA：不微调整个 $W$ ，而是学一个低秩增量 $\Delta W = BA$ ，其中 $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times d}$ , $r \ll d$
Efficient Attention：attention 矩阵 $\text{softmax}(QK^T/\sqrt{d})$ 经验上近似低秩，可以用线性近似加速
SSM/Mamba：状态转移矩阵 $\bar{A}$ 被约束为对角矩阵——特征分解的极端形式，使得卷积计算成为可能

重要澄清：本路径分为三个 Part——Part 1 “拆”聚焦数据容器、Part 2 “传”聚焦给定算子、Part 3 “汇”聚焦学习算子（详见下文”拆→传→汇”一节）。但 Part 1 建立的工具（特征分解、SVD、范数、微积分）是通用的——对任何矩阵都能用，无论它是数据容器、给定算子还是学习算子。“算子”这个标签只意味着矩阵中的数据恰好表示一个过程或变换，因此有额外的数学结构可以利用。三个 Part 不是三套独立的数学，而是同一套工具在不同语境下的应用。

六类矩阵操作

面对一个矩阵，我们可以对它做什么？以下六类操作涵盖了 ML 中最常见的矩阵操作。前四类是本路径显式覆盖的核心，后两类被前四类自然包含。

分解：矩阵里藏着什么结构？

将矩阵拆成几个”更简单”的矩阵的乘积，从中提取隐藏结构。

$A = U\Sigma V^T \quad (\text{SVD})$

SVD 告诉我们：任何矩阵都可以分解为”旋转 → 拉伸 → 旋转”。截断到前 $k$ 个奇异值，得到最佳秩- $k$ 近似（Eckart-Young 定理）。加上不同的约束，派生出不同的方法：正交约束 → PCA，非负约束 → NMF，稀疏+低秩 → Robust PCA。

分解是 Part 1 的核心操作。

度量：这个矩阵/近似有多好？

分解产生近似，近似需要度量好坏。矩阵范数提供这个度量：

范数	定义	ML 中的角色
Frobenius $\\|A\\|_F = \sqrt{\sum_{ij} a_{ij}^2}$	逐元素平方和的根	重建误差、正则化
Spectral $\\|A\\|_2 = \sigma_{\max}$	最大奇异值	训练稳定性（Lipschitz 约束）
Nuclear $\\|A\\|_* = \sum_i \sigma_i$	奇异值之和	秩的凸松弛 → 矩阵补全

条件数 $\kappa(A) = \sigma_{\max} / \sigma_{\min}$ 衡量矩阵对微小扰动的敏感性。 $\kappa$ 越大，数值计算越不稳定。

微分：参数变了，输出怎么变？

训练神经网络 = 最小化损失 $\mathcal{L}(W)$ 。梯度下降需要计算 $\nabla_W \mathcal{L}$ ——损失对权重矩阵的导数。这不是标量对标量的导数，而是涉及 Jacobian 矩阵和链式法则在矩阵空间中的推广。

$\frac{\partial \mathcal{L}}{\partial W} \in \mathbb{R}^{m \times n} \quad (\text{与 } W \text{ 同形状})$

Jacobian $J \in \mathbb{R}^{m \times n}$ 描述向量值函数的局部线性近似；Hessian $H \in \mathbb{R}^{n \times n}$ 描述损失曲面的二阶曲率，决定优化的难易程度。

迭代：反复作用算子会怎样？

给定算子矩阵 $P$ ，反复作用：

$\mathbf{x}, \; P\mathbf{x}, \; P^2\mathbf{x}, \; P^3\mathbf{x}, \; \ldots$

这个序列收敛吗？收敛到哪里？速度多快？答案取决于 $P$ 的谱性质——特征值的大小和分布。

$|\lambda_{\max}| < 1$ ：序列收敛到零（衰减系统）
$|\lambda_{\max}| = 1$ ：可能收敛到稳态（马尔可夫链的稳态分布）
$|\lambda_{\max}| > 1$ ：序列发散（不稳定系统）

PageRank 就是幂迭代的经典应用：反复乘以（修改后的）网页转移矩阵，收敛到的稳态向量就是每个网页的重要性排名。

迭代是 Part 2 的核心操作。

求解 $Ax = b$ ：被分解覆盖

给定约束 $Ax = b$ ，求 $x$ 。当 $A$ 不是方阵或不可逆时，我们需要最小二乘解：

$\hat{x} = A^+ b = V\Sigma^+ U^T b$

其中 $A^+ = V\Sigma^+ U^T$ 是 Moore-Penrose 伪逆，直接从 SVD 得到（ $\Sigma^+$ 是将 $\Sigma$ 中非零奇异值取倒数）。所以”求解”操作本质上被 SVD（分解）覆盖了。

变换：换一个基看同一问题——被分解覆盖

特征分解 $A = Q\Lambda Q^{-1}$ 的本质就是基变换：在特征基下，矩阵变成对角的，乘法变成逐分量缩放。对角化是理解矩阵最强大的视角——SSM/Mamba 的核心加速就来自于将状态转移矩阵约束为对角形式。

所以”变换”操作也被特征分解（分解的一种）覆盖了。

小结：六类操作中，分解、度量、微分、迭代是四件独立的核心工具，贯穿整条路径。求解和变换不是独立操作，而是分解的自然推论。

拆 → 传 → 汇：路径弧线

整条路径沿着一条弧线展开：

Part 1 “拆”（Art. 1–13）：面对一个装着数据的矩阵，我们想提取它的低维结构。从特征分解和 SVD 这两件基础工具出发，建立范数（衡量近似好坏）和微积分（分析变化敏感性）两件辅助工具，然后用这套工具箱解决一系列具体问题——PCA 降维、NMF 非负分解、矩阵补全、Word2Vec 词嵌入、张量分解。

Part 2 “传”（Art. 14–22）：矩阵不再装数据，而是编码一个过程。转移矩阵描述随机过程，图 Laplacian 编码网络结构，Kernel 矩阵度量相似性。核心操作从”分解”转向”迭代”——反复作用算子，观察系统如何演化。PageRank、谱聚类、图神经网络都是这个框架的实例。

Part 3 “汇”（Art. 23–26）：前两个 Part 学到的工具在这里汇聚。神经网络的权重矩阵既可以用 Part 1 的 SVD 分析其低秩结构，也可以被视为 Part 2 中的算子（attention 矩阵编码 token 间的信息传播过程）。LoRA 利用低秩分解做高效微调，SSM/Mamba 利用对角化做高效序列建模。同一套数学工具，在不同语境下反复出现。

路径地图

文章编号速查

编号	标题	核心内容
Part 1 “拆”		数据矩阵分解
Art. 0	全景图（本文）	三类矩阵、六类操作、路径弧线
Art. 1	分解概述	问题、工具与方法谱系
Art. 1A	向量空间几何	内积、投影、秩、基变换
Art. 1B	矩阵结构几何	二次型、正定性、协方差
Art. 2	特征分解	$A = Q\Lambda Q^{-1}$ ，对角化
Art. 3	SVD	$A = U\Sigma V^T$ ，Eckart-Young
Art. 4	范数与条件数	Frobenius / spectral / nuclear
Art. 5	矩阵微积分	Jacobian、Hessian、链式法则
Art. 6	PCA	方差最大化降维，Eigenfaces
Art. 7	随机化 SVD	大规模矩阵的高效近似
Art. 8	矩阵补全	Nuclear 范数松弛
Art. 9	NMF	非负约束，parts-based 表示
Art. 10	MF/FM	推荐系统的矩阵分解
Art. 11	Word2Vec	词嵌入 = 隐式矩阵分解
Art. 12	Robust PCA	低秩 + 稀疏分离
Art. 13	张量分解	CP/Tucker，知识图谱嵌入
Part 2 “传”		给定算子
Art. 14	算子全景	三族算子、迭代视角
Art. 15	马尔可夫链	转移矩阵、稳态分布
Art. 16	HMM	隐状态推断、Viterbi
Art. 17	连续系统与 Kalman	矩阵指数、离散化
Art. 18	PageRank	幂迭代求稳态向量
Art. 19	随机游走	DeepWalk / Node2Vec
Art. 20	Kernel	核技巧、Gaussian Process
Art. 21	图 Laplacian	谱聚类
Art. 22	图扩散与 GNN	热方程、消息传递
Part 3 “汇”		学习算子
Art. 23	学习算子	权重矩阵的低秩结构
Art. 24	LoRA	低秩微调
Art. 25	Efficient Attention	注意力矩阵的低秩近似
Art. 26	SSM/Mamba	对角化的终极应用

矩阵的幂级数与 Taylor 展开：一个预告

在后续文章中，“Taylor 展开”这个词会在两个完全不同的语境中出现。它们长得像、名字像，但输入输出、数学结构、适用范围都不同。本节先建立直觉，帮你在后续遇到时不会混淆。

回顾：标量幂级数

标量函数可以用幂级数（围绕 $x_0 = 0$ 的 Maclaurin 级数）表示：

$e^x = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots \qquad \sin(x) = x - \frac{x^3}{3!} + \frac{x^5}{5!} - \cdots \qquad (1-x)^{-1} = 1 + x + x^2 + \cdots \;(|x|<1)$

这些等式的右边是把标量 $x$ 不断乘以自身（ $x^n$ ），再加权求和。

第一种：矩阵函数 $f(A)$ ——输入矩阵，输出矩阵

一个自然的想法：既然标量可以不断自乘，矩阵也可以—— $A^2 = AA$ ， $A^3 = AAA$ ……那把标量幂级数中的 $x$ 直接替换成方阵 $A$ ，得到的是什么？

$e^A \;{\color{gray}\stackrel{\text{def}}{=}}\; I + A + \frac{A^2}{2!} + \frac{A^3}{3!} + \cdots$

$(I - A)^{-1} \;{\color{gray}\stackrel{\text{def}}{=}}\; I + A + A^2 + A^3 + \cdots \qquad \text{（Neumann 级数，要求 $\|A\| < 1$）}$

注意 $\stackrel{\text{def}}{=}$ ——这是定义，不是推导。我们直接规定： $e^A$ 就是这个无穷级数求和的结果。输入一个 $n \times n$ 矩阵，输出一个 $n \times n$ 矩阵（每一项 $A^n$ 都是 $n \times n$ 的，加权求和后仍是 $n \times n$ 的）。对 $\sin(A)$ 、 $(I-A)^{-1}$ 等同理。

为什么这个定义是合理的？ 因为它完美保留了标量版本的关键性质。例如标量中 $\frac{d}{dt}e^{at} = ae^{at}$ （指数函数的导数等于自身乘以系数），矩阵版本同样成立： $\frac{d}{dt}e^{At} = Ae^{At}$ 。这意味着微分方程 $\dot{\mathbf{x}}(t) = A\mathbf{x}(t)$ 的解恰好是 $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$ ——和标量 ODE $\dot{x} = ax$ 的解 $x(t) = e^{at}x(0)$ 形式完全一致。

但你不需要真的去求无穷级数。 如果 $A$ 可以对角化为 $A = Q\Lambda Q^{-1}$ （Art. 2），那么：

$A^n = Q\Lambda^n Q^{-1} = Q\,\text{diag}(\lambda_1^n, \ldots, \lambda_n^n)\,Q^{-1}$

代入幂级数：

$e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!} = Q\left(\sum_{k=0}^{\infty} \frac{\Lambda^k}{k!}\right)Q^{-1} = Q\,\text{diag}(e^{\lambda_1}, \ldots, e^{\lambda_n})\,Q^{-1}$

无穷级数坍缩为 $n$ 个标量指数。幂级数是定义工具（告诉你 $e^A$ 是什么意思），对角化是计算工具（告诉你怎么算出来）。 同理 $\sin(A) = Q\,\text{diag}(\sin\lambda_1, \ldots, \sin\lambda_n)\,Q^{-1}$ ——任何能用幂级数定义的标量函数，都可以这样”穿透”到特征值上。

一个 $2 \times 2$ 例子：取 $A = \begin{bmatrix}0 & -\pi/2 \\ \pi/2 & 0\end{bmatrix}$ （一个反对称矩阵）。它的特征值是 $\pm i\pi/2$ 。那么：

$e^A = Q\,\text{diag}(e^{i\pi/2}, e^{-i\pi/2})\,Q^{-1} = \begin{bmatrix}\cos(\pi/2) & -\sin(\pi/2) \\ \sin(\pi/2) & \cos(\pi/2)\end{bmatrix} = \begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix}$

这个结果是一个旋转 90° 的旋转矩阵。注意 $A$ 本身不是旋转矩阵——它是一个反对称矩阵。上面例子中的 $A$ 把旋转角度 $\pi/2$ 直接编进了矩阵里（ $A = \frac{\pi}{2}\begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix}$ ）。如果我们把”角度”和”方向”分离开，定义单位生成元：

$J = \begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix}$

那么 $A = \frac{\pi}{2}J$ ，上面的例子就是 $e^A = e^{(\pi/2)J}$ = 旋转 $\pi/2$ 。更一般地， $e^{\theta J}$ 就是旋转 $\theta$ 角—— $J$ 编码”往哪个方向转”（逆时针）， $\theta$ 控制”转多少”。 $J$ 被称为旋转的生成元（generator）。

为什么叫”生成元”？想象你要把一个向量逆时针旋转 $\theta$ 角。你可以分成 $N$ 步，每步只转 $\theta/N$ 。当 $N$ 很大时，每一小步的旋转矩阵接近单位矩阵，可以近似为 $I + \frac{\theta}{N}J$ ——单位矩阵加上一个无穷小的修正。把 $N$ 步连乘取极限：

$R(\theta) = \lim_{N\to\infty}\left(I + \frac{\theta}{N}J\right)^N = e^{\theta J}$

这恰好是标量等式 $e^x = \lim_{N\to\infty}(1+x/N)^N$ 的矩阵版本。生成元 $J$ 编码了旋转的方向（逆时针 vs 顺时针）， $\theta$ 控制转多少， $e^{\theta J}$ 把无穷多个”无穷小的旋转”累积成一个有限角度的旋转。这就是为什么矩阵指数在物理（刚体旋转、量子力学）和工程（控制系统、机器人学）中无处不在。

第二种：多元 Taylor 展开——输入向量/矩阵，输出标量

在 ML 中，另一种”Taylor 展开”更常见：损失函数 $\mathcal{L}(\mathbf{w})$ 在当前参数 $\mathbf{w}_0$ 附近的近似。这就是标准的多元微积分：

$\mathcal{L}(\mathbf{w}_0 + \Delta\mathbf{w}) = \mathcal{L}(\mathbf{w}_0) + \nabla\mathcal{L}^T \Delta\mathbf{w} + \frac{1}{2}\Delta\mathbf{w}^T H \Delta\mathbf{w} + \text{（三阶及更高阶项）}$

其中 $\nabla\mathcal{L}$ 是梯度（ $n$ 维向量）， $H$ 是 Hessian（ $n \times n$ 矩阵）。

高阶项存在但极少使用。 三阶项涉及三阶导数张量（一个 $n \times n \times n$ 的”立方体”）与三个 $\Delta\mathbf{w}$ 的缩并，四阶项涉及四阶导数张量……维度每升一阶，参数数量就多乘一个 $n$ 。对于深度学习中动辄 $n = 10^6$ 的参数空间，连 Hessian（ $n^2$ 个元素）都无法显式存储，更不用说三阶（ $n^3$ ）、四阶（ $n^4$ ）了。所以实践中几乎只用到二阶，等号变成 $\approx$ 。

这里的核心运算是向量的内积和二次型——完全是有限步的加减乘，没有无穷级数，没有矩阵幂 $A^n$ 。

当参数是矩阵 $W \in \mathbb{R}^{m \times n}$ 时（如神经网络的权重），只需把 $W$ 展平成 $mn$ 维向量 $\text{vec}(W)$ ，就回到了向量情形——Art. 5 会详细展开。

两种展开的对比

	矩阵函数 $f(A)$	多元 Taylor 展开 $\mathcal{L}(\mathbf{w})$
输入	方阵 $A \in \mathbb{R}^{n \times n}$	向量 $\mathbf{w} \in \mathbb{R}^n$ （或展平的矩阵）
输出	矩阵 $\in \mathbb{R}^{n \times n}$	标量 $\in \mathbb{R}$
核心运算	矩阵幂 $A^n$ （无穷级数）	内积和二次型（有限步）
计算方法	对角化： $f(A) = Q\,f(\Lambda)\,Q^{-1}$	求梯度 $\nabla\mathcal{L}$ 和 Hessian $H$
本路径出现位置	Part 2 $e^{At}$ ，Part 3 SSM/Mamba	Art. 1B 二次型，Art. 5 矩阵微积分

关键区别：第一种的 $A$ 是函数的自变量——你在问” $e$ 的矩阵次方是什么”。第二种的矩阵（Hessian $H$ ）是函数的二阶导数——你在问”损失函数在这一点附近长什么样”。两者都叫”矩阵 Taylor 展开”，但数学结构完全不同。

围绕非零点展开的限制

标量 Taylor 展开可以围绕任意点 $x_0$ 展开： $f(x) = f(x_0) + f'(x_0)(x - x_0) + \frac{1}{2}f''(x_0)(x-x_0)^2 + \cdots$ 。

对于第二种（多元 Taylor），这没有任何额外困难—— $\Delta\mathbf{w} = \mathbf{w} - \mathbf{w}_0$ 就是向量减法，和标量情形完全类比。

但对于第一种（矩阵函数），围绕非零矩阵 $A_0$ 展开时会遇到一个标量世界不存在的问题。标量中 $(x - x_0)^2 = (x - x_0)(x - x_0)$ 不需要考虑顺序。但矩阵中 $(A - A_0)^2 = (A - A_0)(A - A_0)$ 展开后包含 $AA_0$ 和 $A_0A$ 两项——如果 $A$ 和 $A_0$ 不可交换（ $AA_0 \neq A_0 A$ ），展开就不像标量那样简单了，需要用更复杂的工具（如 Fréchet 导数）来处理。

好消息是，本路径中用到的所有矩阵幂级数都是围绕零点展开的 Maclaurin 形式（ $e^{At}$ 、Neumann 级数 $(I-A)^{-1}$ ），不涉及这个困难——因为 $(A - 0)^n = A^n$ ，没有第二个矩阵参与。

$A^n$ 的直觉

矩阵幂级数在 Part 2（连续时间系统的 $e^{At}$ ）和 Part 3（SSM/Mamba 的离散化 $e^{A\Delta}$ ）中会正式登场。这里只需记住一个直觉：矩阵的幂 $A^n$ 有明确的含义——对于转移矩阵， $A^n$ 表示走 $n$ 步后的转移概率；对于图的邻接矩阵， $(A^n)_{ij}$ 是从节点 $i$ 到节点 $j$ 的长度为 $n$ 的路径数。

本路径不覆盖什么

为了保持聚焦，以下重要主题不在本路径范围内：

优化方法：梯度下降、Adam、二阶方法（K-FAC、Fisher 信息矩阵）。我们会在 Art. 5 中讲 Jacobian 和 Hessian 作为微分工具，但优化算法本身属于另一个方向。
统计推断：协方差矩阵的估计、假设检验、贝叶斯方法。PCA 会用到协方差矩阵，但统计视角不是我们的重点。
数值线性代数的工程细节：Householder 变换、Givens 旋转、数值稳定性的精细分析。我们关注数学概念和 ML 应用，不深入数值算法的实现。
稀疏矩阵：虽然实践中非常重要，但稀疏矩阵的存储格式和算法属于系统优化层面。

前置知识

本路径假设读者已经熟悉以下概念：

矩阵乘法、转置、逆
行列式（知道它衡量”体积缩放”即可）
向量空间、线性无关、秩的直觉

如果你对这些概念还不太确定，MIT 18.06（Gilbert Strang 的线性代数课程）是最好的起点。

总结与展望

本文建立了整条路径的概念框架：

三类矩阵（数据容器、给定算子、学习算子）决定了分析视角
六类操作（分解、度量、微分、迭代 + 求解、变换）覆盖了 ML 中的核心矩阵操作
拆→传→汇的弧线将 27 篇文章组织成一个连贯的叙事

下一篇我们进入 Part 1，从数据矩阵分解的全局图景开始——为什么数据矩阵往往高维、稀疏、有噪声，以及我们有哪些工具来提取其中的低维结构。