本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

矩阵数学全景图:ML 的通用语言

矩阵数学全景图:ML 的通用语言

更新于 2026-04-23

机器学习的每一个核心操作,最终都落在矩阵上。一批数据是一个矩阵(行=样本,列=特征);一次线性变换是一个矩阵(权重矩阵 WW);一步梯度下降要算矩阵对矩阵的导数;一个图的结构可以编码为邻接矩阵;甚至 Transformer 的 attention 分数也是一个矩阵。理解矩阵的性质和操作,就是理解 ML 的底层语言。

本路径从这个观察出发,构建一套完整的矩阵数学工具箱。我们不会试图覆盖线性代数的所有内容——而是聚焦于 ML 中真正反复出现的那些矩阵方法,从基础的特征分解一路走到 LoRA、Attention 和 SSM/Mamba。

三类矩阵:一个关键洞察

在 ML 中,矩阵扮演三种截然不同的角色。识别出一个矩阵属于哪种角色,决定了你该用什么工具来分析它。

数据容器Part 1 "拆"评分矩阵、共现矩阵分解 → 提取结构给定算子Part 2 "传"转移矩阵、Laplacian迭代 → 观察行为学习算子Part 3 "汇"权重矩阵、Attention压缩 → 高效利用共享基础工具:特征分解 · SVD · 范数 · 微积分ML 中矩阵的三类角色

数据容器:矩阵装着你的数据

最直接的情况:矩阵的每个元素就是一个数据点。

ARm×n,Aij=第 i 个样本在第 j 个特征上的值A \in \mathbb{R}^{m \times n}, \quad A_{ij} = \text{第 } i \text{ 个样本在第 } j \text{ 个特征上的值}

  • 用户-物品评分矩阵AijA_{ij} = 用户 ii 对物品 jj 的评分。10 万用户 × 5 万物品,99% 是空的——你想补全它(矩阵补全)、分解它发现潜在兴趣(MF/FM)。
  • 词-上下文共现矩阵AijA_{ij} = 词 ii 在词 jj 上下文中出现的次数。Word2Vec 本质上是对这个矩阵的隐式分解。
  • 图像矩阵ARH×WA \in \mathbb{R}^{H \times W},每个像素是一个灰度值。SVD 截断到秩 kk 就是图像压缩。

这些矩阵的共同特点:数据本身就是矩阵的值。我们的目标是从中提取隐藏结构——降维、补全、聚类、发现 parts。核心工具是各种分解方法。

给定算子:矩阵编码一个过程

给定算子:编码过程/变换的矩阵x₍ₜ₊₁₎ = P·xₜ (乘一次 = 走一步)转移矩阵 PPᵢⱼ = 从 i 到 j 的概率行和 = 1图 Laplacian LL = D − A半正定,行和 = 0Kernel 矩阵 KKᵢⱼ = k(xᵢ, xⱼ)正半定(内积)额外的数学结构(行和、正定性)带来额外定理,但分析工具仍是特征分解和 SVD

有时矩阵不装数据,而是描述一个过程变换。乘一次矩阵 = 执行一步操作。

xt+1=Pxt\mathbf{x}_{t+1} = P \, \mathbf{x}_t

  • 转移矩阵 PPPijP_{ij} = 从状态 ii 到状态 jj 的概率。行和为 1。马尔可夫链乘 PP 一次 = 走一步,乘 nn 次 = 走 nn 步,nn \to \infty 趋向稳态。
  • 图 Laplacian L=DAGL = D - A_G:编码图的连接结构。LL 的特征值和特征向量揭示图的连通分量、聚类结构。
  • Kernel 矩阵 KKKij=k(xi,xj)K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j) 度量样本间的相似度。正半定性保证它可以被解释为内积。

这些矩阵有额外的数学结构(随机矩阵行和为 1、Laplacian 半正定且行和为 0、Kernel 矩阵正半定),这些结构带来额外的定理——但分析它们的基本工具(特征分解、SVD)仍然来自 Part 1。关键的新操作是迭代:反复乘以算子,观察系统行为。

学习算子:矩阵是训练出来的

学习算子:训练出来的权重矩阵 Wh = Wx + bLoRA低秩增量 ΔW = BAr ≪ dEff. AttentionAttention 矩阵近似低秩softmax(QKᵀ/√d)SSM/MambaĀ 约束为对角阵对角化 → 卷积共同发现:训练好的大模型权重矩阵经常呈现低秩结构

神经网络中,每一层的权重矩阵 WW 是通过训练学到的线性变换:

h=Wx+b\mathbf{h} = W\mathbf{x} + \mathbf{b}

这些矩阵既不是”原始数据”(它们不直接对应观测值),也不是”给定的”(它们是优化出来的)。一个有趣的经验发现:训练好的大模型,其权重矩阵经常呈现低秩结构——有效信息集中在少数几个奇异向量方向上。

这个发现带来了实际应用:

  • LoRA:不微调整个 WW,而是学一个低秩增量 ΔW=BA\Delta W = BA,其中 BRd×rB \in \mathbb{R}^{d \times r}, ARr×dA \in \mathbb{R}^{r \times d}, rdr \ll d
  • Efficient Attention:attention 矩阵 softmax(QKT/d)\text{softmax}(QK^T/\sqrt{d}) 经验上近似低秩,可以用线性近似加速
  • SSM/Mamba:状态转移矩阵 Aˉ\bar{A} 被约束为对角矩阵——特征分解的极端形式,使得卷积计算成为可能

重要澄清:本路径分为三个 Part——Part 1 “拆”聚焦数据容器、Part 2 “传”聚焦给定算子、Part 3 “汇”聚焦学习算子(详见下文”拆→传→汇”一节)。但 Part 1 建立的工具(特征分解、SVD、范数、微积分)是通用的——对任何矩阵都能用,无论它是数据容器、给定算子还是学习算子。“算子”这个标签只意味着矩阵中的数据恰好表示一个过程或变换,因此有额外的数学结构可以利用。三个 Part 不是三套独立的数学,而是同一套工具在不同语境下的应用

六类矩阵操作

面对一个矩阵,我们可以对它做什么?以下六类操作涵盖了 ML 中最常见的矩阵操作。前四类是本路径显式覆盖的核心,后两类被前四类自然包含。

六类矩阵操作核心分解提取隐结构度量衡量近似质量微分分析变化敏感性迭代观察系统行为求解 Ax=b← 被分解覆盖变换(换基)← 被分解覆盖派生

分解:矩阵里藏着什么结构?

将矩阵拆成几个”更简单”的矩阵的乘积,从中提取隐藏结构。

A=UΣVT(SVD)A = U\Sigma V^T \quad (\text{SVD})

SVD 告诉我们:任何矩阵都可以分解为”旋转 → 拉伸 → 旋转”。截断到前 kk 个奇异值,得到最佳秩-kk 近似(Eckart-Young 定理)。加上不同的约束,派生出不同的方法:正交约束 → PCA,非负约束 → NMF,稀疏+低秩 → Robust PCA。

分解是 Part 1 的核心操作。

度量:这个矩阵/近似有多好?

分解产生近似,近似需要度量好坏。矩阵范数提供这个度量:

范数定义ML 中的角色
Frobenius AF=ijaij2\|A\|_F = \sqrt{\sum_{ij} a_{ij}^2}逐元素平方和的根重建误差、正则化
Spectral A2=σmax\|A\|_2 = \sigma_{\max}最大奇异值训练稳定性(Lipschitz 约束)
Nuclear A=iσi\|A\|_* = \sum_i \sigma_i奇异值之和秩的凸松弛 → 矩阵补全

条件数 κ(A)=σmax/σmin\kappa(A) = \sigma_{\max} / \sigma_{\min} 衡量矩阵对微小扰动的敏感性。κ\kappa 越大,数值计算越不稳定。

微分:参数变了,输出怎么变?

训练神经网络 = 最小化损失 L(W)\mathcal{L}(W)。梯度下降需要计算 WL\nabla_W \mathcal{L}——损失对权重矩阵的导数。这不是标量对标量的导数,而是涉及 Jacobian 矩阵和链式法则在矩阵空间中的推广。

LWRm×n(与 W 同形状)\frac{\partial \mathcal{L}}{\partial W} \in \mathbb{R}^{m \times n} \quad (\text{与 } W \text{ 同形状})

Jacobian JRm×nJ \in \mathbb{R}^{m \times n} 描述向量值函数的局部线性近似;Hessian HRn×nH \in \mathbb{R}^{n \times n} 描述损失曲面的二阶曲率,决定优化的难易程度。

迭代:反复作用算子会怎样?

迭代行为:x, Px, P²x, P³x, ...|λ| < 1收敛到零|λ| = 1可能稳态|λ| > 1发散PageRank:|λ_max|=1 的稳态特征向量 = 网页重要性排名

给定算子矩阵 PP,反复作用:

x,  Px,  P2x,  P3x,  \mathbf{x}, \; P\mathbf{x}, \; P^2\mathbf{x}, \; P^3\mathbf{x}, \; \ldots

这个序列收敛吗?收敛到哪里?速度多快?答案取决于 PP谱性质——特征值的大小和分布。

  • λmax<1|\lambda_{\max}| < 1:序列收敛到零(衰减系统)
  • λmax=1|\lambda_{\max}| = 1:可能收敛到稳态(马尔可夫链的稳态分布)
  • λmax>1|\lambda_{\max}| > 1:序列发散(不稳定系统)

PageRank 就是幂迭代的经典应用:反复乘以(修改后的)网页转移矩阵,收敛到的稳态向量就是每个网页的重要性排名。

迭代是 Part 2 的核心操作。

求解 Ax=bAx = b:被分解覆盖

给定约束 Ax=bAx = b,求 xx。当 AA 不是方阵或不可逆时,我们需要最小二乘解:

x^=A+b=VΣ+UTb\hat{x} = A^+ b = V\Sigma^+ U^T b

其中 A+=VΣ+UTA^+ = V\Sigma^+ U^T 是 Moore-Penrose 伪逆,直接从 SVD 得到(Σ+\Sigma^+ 是将 Σ\Sigma 中非零奇异值取倒数)。所以”求解”操作本质上被 SVD(分解)覆盖了。

变换:换一个基看同一问题——被分解覆盖

特征分解 A=QΛQ1A = Q\Lambda Q^{-1} 的本质就是基变换:在特征基下,矩阵变成对角的,乘法变成逐分量缩放。对角化是理解矩阵最强大的视角——SSM/Mamba 的核心加速就来自于将状态转移矩阵约束为对角形式。

所以”变换”操作也被特征分解(分解的一种)覆盖了。

小结:六类操作中,分解、度量、微分、迭代是四件独立的核心工具,贯穿整条路径。求解变换不是独立操作,而是分解的自然推论。

拆 → 传 → 汇:路径弧线

路径弧线:拆 → 传 → 汇Part 1 "拆"数据容器 → 提取低维结构Art. 1–13Part 2 "传"给定算子 → 迭代观察演化Art. 14–22Part 3 "汇"学习算子 → 工具汇聚应用Art. 23–26分解·度量·微分迭代·谱分析同一套数学工具(特征分解、SVD、范数、微积分)在不同语境下反复出现

整条路径沿着一条弧线展开:

Part 1 “拆”(Art. 1–13):面对一个装着数据的矩阵,我们想提取它的低维结构。从特征分解和 SVD 这两件基础工具出发,建立范数(衡量近似好坏)和微积分(分析变化敏感性)两件辅助工具,然后用这套工具箱解决一系列具体问题——PCA 降维、NMF 非负分解、矩阵补全、Word2Vec 词嵌入、张量分解。

Part 2 “传”(Art. 14–22):矩阵不再装数据,而是编码一个过程。转移矩阵描述随机过程,图 Laplacian 编码网络结构,Kernel 矩阵度量相似性。核心操作从”分解”转向”迭代”——反复作用算子,观察系统如何演化。PageRank、谱聚类、图神经网络都是这个框架的实例。

Part 3 “汇”(Art. 23–26):前两个 Part 学到的工具在这里汇聚。神经网络的权重矩阵既可以用 Part 1 的 SVD 分析其低秩结构,也可以被视为 Part 2 中的算子(attention 矩阵编码 token 间的信息传播过程)。LoRA 利用低秩分解做高效微调,SSM/Mamba 利用对角化做高效序列建模。同一套数学工具,在不同语境下反复出现。

路径地图

Part 1: 拆 — 数据矩阵Part 2: 传 — 给定算子Part 3: 汇 — 学习算子全景图分解概述特征分解SVD范数矩阵微积分PCA随机化 SVD矩阵补全NMFMF/FMWord2VecRobust PCA张量分解算子全景马尔可夫链HMMKalmanPageRank随机游走Kernel图 Laplacian图扩散+GNN学习算子概述LoRAAttentionSSM/Mamba

文章编号速查

编号标题核心内容
Part 1 “拆”数据矩阵分解
Art. 0全景图(本文)三类矩阵、六类操作、路径弧线
Art. 1分解概述问题、工具与方法谱系
Art. 1A向量空间几何内积、投影、秩、基变换
Art. 1B矩阵结构几何二次型、正定性、协方差
Art. 2特征分解A=QΛQ1A = Q\Lambda Q^{-1},对角化
Art. 3SVDA=UΣVTA = U\Sigma V^T,Eckart-Young
Art. 4范数与条件数Frobenius / spectral / nuclear
Art. 5矩阵微积分Jacobian、Hessian、链式法则
Art. 6PCA方差最大化降维,Eigenfaces
Art. 7随机化 SVD大规模矩阵的高效近似
Art. 8矩阵补全Nuclear 范数松弛
Art. 9NMF非负约束,parts-based 表示
Art. 10MF/FM推荐系统的矩阵分解
Art. 11Word2Vec词嵌入 = 隐式矩阵分解
Art. 12Robust PCA低秩 + 稀疏分离
Art. 13张量分解CP/Tucker,知识图谱嵌入
Part 2 “传”给定算子
Art. 14算子全景三族算子、迭代视角
Art. 15马尔可夫链转移矩阵、稳态分布
Art. 16HMM隐状态推断、Viterbi
Art. 17连续系统与 Kalman矩阵指数、离散化
Art. 18PageRank幂迭代求稳态向量
Art. 19随机游走DeepWalk / Node2Vec
Art. 20Kernel核技巧、Gaussian Process
Art. 21图 Laplacian谱聚类
Art. 22图扩散与 GNN热方程、消息传递
Part 3 “汇”学习算子
Art. 23学习算子权重矩阵的低秩结构
Art. 24LoRA低秩微调
Art. 25Efficient Attention注意力矩阵的低秩近似
Art. 26SSM/Mamba对角化的终极应用

矩阵的幂级数与 Taylor 展开:一个预告

矩阵幂级数:e^A = I + A + A²/2! + A³/3! + ···I起点×AA一步×A两步×A三步×A···转移矩阵:Aⁿ = n 步转移概率 | 邻接矩阵:(Aⁿ)ᵢⱼ = 长度 n 的路径数

在后续文章中,“Taylor 展开”这个词会在两个完全不同的语境中出现。它们长得像、名字像,但输入输出、数学结构、适用范围都不同。本节先建立直觉,帮你在后续遇到时不会混淆。

回顾:标量幂级数

标量函数可以用幂级数(围绕 x0=0x_0 = 0 的 Maclaurin 级数)表示:

ex=1+x+x22!+x33!+sin(x)=xx33!+x55!(1x)1=1+x+x2+  (x<1)e^x = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots \qquad \sin(x) = x - \frac{x^3}{3!} + \frac{x^5}{5!} - \cdots \qquad (1-x)^{-1} = 1 + x + x^2 + \cdots \;(|x|<1)

这些等式的右边是把标量 xx 不断乘以自身(xnx^n),再加权求和。

第一种:矩阵函数 f(A)f(A)——输入矩阵,输出矩阵

一个自然的想法:既然标量可以不断自乘,矩阵也可以——A2=AAA^2 = AAA3=AAAA^3 = AAA……那把标量幂级数中的 xx 直接替换成方阵 AA,得到的是什么?

eA  =def  I+A+A22!+A33!+e^A \;{\color{gray}\stackrel{\text{def}}{=}}\; I + A + \frac{A^2}{2!} + \frac{A^3}{3!} + \cdots

(IA)1  =def  I+A+A2+A3+(Neumann 级数,要求 A<1(I - A)^{-1} \;{\color{gray}\stackrel{\text{def}}{=}}\; I + A + A^2 + A^3 + \cdots \qquad \text{(Neumann 级数,要求 $\|A\| < 1$)}

注意 =def\stackrel{\text{def}}{=} ——这是定义,不是推导。我们直接规定:eAe^A 就是这个无穷级数求和的结果。输入一个 n×nn \times n 矩阵,输出一个 n×nn \times n 矩阵(每一项 AnA^n 都是 n×nn \times n 的,加权求和后仍是 n×nn \times n 的)。对 sin(A)\sin(A)(IA)1(I-A)^{-1} 等同理。

为什么这个定义是合理的? 因为它完美保留了标量版本的关键性质。例如标量中 ddteat=aeat\frac{d}{dt}e^{at} = ae^{at}(指数函数的导数等于自身乘以系数),矩阵版本同样成立:ddteAt=AeAt\frac{d}{dt}e^{At} = Ae^{At}。这意味着微分方程 x˙(t)=Ax(t)\dot{\mathbf{x}}(t) = A\mathbf{x}(t) 的解恰好是 x(t)=eAtx(0)\mathbf{x}(t) = e^{At}\mathbf{x}(0)——和标量 ODE x˙=ax\dot{x} = ax 的解 x(t)=eatx(0)x(t) = e^{at}x(0) 形式完全一致。

但你不需要真的去求无穷级数。 如果 AA 可以对角化为 A=QΛQ1A = Q\Lambda Q^{-1}(Art. 2),那么:

An=QΛnQ1=Qdiag(λ1n,,λnn)Q1A^n = Q\Lambda^n Q^{-1} = Q\,\text{diag}(\lambda_1^n, \ldots, \lambda_n^n)\,Q^{-1}

代入幂级数:

eA=k=0Akk!=Q(k=0Λkk!)Q1=Qdiag(eλ1,,eλn)Q1e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!} = Q\left(\sum_{k=0}^{\infty} \frac{\Lambda^k}{k!}\right)Q^{-1} = Q\,\text{diag}(e^{\lambda_1}, \ldots, e^{\lambda_n})\,Q^{-1}

无穷级数坍缩为 nn 个标量指数。幂级数是定义工具(告诉你 eAe^A 是什么意思),对角化是计算工具(告诉你怎么算出来)。 同理 sin(A)=Qdiag(sinλ1,,sinλn)Q1\sin(A) = Q\,\text{diag}(\sin\lambda_1, \ldots, \sin\lambda_n)\,Q^{-1}——任何能用幂级数定义的标量函数,都可以这样”穿透”到特征值上。

一个 2×22 \times 2 例子:取 A=[0π/2π/20]A = \begin{bmatrix}0 & -\pi/2 \\ \pi/2 & 0\end{bmatrix}(一个反对称矩阵)。它的特征值是 ±iπ/2\pm i\pi/2。那么:

eA=Qdiag(eiπ/2,eiπ/2)Q1=[cos(π/2)sin(π/2)sin(π/2)cos(π/2)]=[0110]e^A = Q\,\text{diag}(e^{i\pi/2}, e^{-i\pi/2})\,Q^{-1} = \begin{bmatrix}\cos(\pi/2) & -\sin(\pi/2) \\ \sin(\pi/2) & \cos(\pi/2)\end{bmatrix} = \begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix}

这个结果是一个旋转 90° 的旋转矩阵。注意 AA 本身不是旋转矩阵——它是一个反对称矩阵。上面例子中的 AA 把旋转角度 π/2\pi/2 直接编进了矩阵里(A=π2[0110]A = \frac{\pi}{2}\begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix})。如果我们把”角度”和”方向”分离开,定义单位生成元

J=[0110]J = \begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix}

那么 A=π2JA = \frac{\pi}{2}J,上面的例子就是 eA=e(π/2)Je^A = e^{(\pi/2)J} = 旋转 π/2\pi/2。更一般地,eθJe^{\theta J} 就是旋转 θ\theta 角——JJ 编码”往哪个方向转”(逆时针),θ\theta 控制”转多少”。JJ 被称为旋转的生成元(generator)。

为什么叫”生成元”?想象你要把一个向量逆时针旋转 θ\theta 角。你可以分成 NN 步,每步只转 θ/N\theta/N。当 NN 很大时,每一小步的旋转矩阵接近单位矩阵,可以近似为 I+θNJI + \frac{\theta}{N}J——单位矩阵加上一个无穷小的修正。把 NN 步连乘取极限:

R(θ)=limN(I+θNJ)N=eθJR(\theta) = \lim_{N\to\infty}\left(I + \frac{\theta}{N}J\right)^N = e^{\theta J}

这恰好是标量等式 ex=limN(1+x/N)Ne^x = \lim_{N\to\infty}(1+x/N)^N 的矩阵版本。生成元 JJ 编码了旋转的方向(逆时针 vs 顺时针),θ\theta 控制转多少eθJe^{\theta J} 把无穷多个”无穷小的旋转”累积成一个有限角度的旋转。这就是为什么矩阵指数在物理(刚体旋转、量子力学)和工程(控制系统、机器人学)中无处不在。

第二种:多元 Taylor 展开——输入向量/矩阵,输出标量

在 ML 中,另一种”Taylor 展开”更常见:损失函数 L(w)\mathcal{L}(\mathbf{w}) 在当前参数 w0\mathbf{w}_0 附近的近似。这就是标准的多元微积分:

L(w0+Δw)=L(w0)+LTΔw+12ΔwTHΔw+(三阶及更高阶项)\mathcal{L}(\mathbf{w}_0 + \Delta\mathbf{w}) = \mathcal{L}(\mathbf{w}_0) + \nabla\mathcal{L}^T \Delta\mathbf{w} + \frac{1}{2}\Delta\mathbf{w}^T H \Delta\mathbf{w} + \text{(三阶及更高阶项)}

其中 L\nabla\mathcal{L} 是梯度(nn 维向量),HH 是 Hessian(n×nn \times n 矩阵)。

高阶项存在但极少使用。 三阶项涉及三阶导数张量(一个 n×n×nn \times n \times n 的”立方体”)与三个 Δw\Delta\mathbf{w} 的缩并,四阶项涉及四阶导数张量……维度每升一阶,参数数量就多乘一个 nn。对于深度学习中动辄 n=106n = 10^6 的参数空间,连 Hessian(n2n^2 个元素)都无法显式存储,更不用说三阶(n3n^3)、四阶(n4n^4)了。所以实践中几乎只用到二阶,等号变成 \approx

这里的核心运算是向量的内积和二次型——完全是有限步的加减乘,没有无穷级数,没有矩阵幂 AnA^n

当参数是矩阵 WRm×nW \in \mathbb{R}^{m \times n} 时(如神经网络的权重),只需把 WW 展平成 mnmn 维向量 vec(W)\text{vec}(W),就回到了向量情形——Art. 5 会详细展开。

两种展开的对比

矩阵函数 f(A)f(A)多元 Taylor 展开 L(w)\mathcal{L}(\mathbf{w})
输入方阵 ARn×nA \in \mathbb{R}^{n \times n}向量 wRn\mathbf{w} \in \mathbb{R}^n(或展平的矩阵)
输出矩阵 Rn×n\in \mathbb{R}^{n \times n}标量 R\in \mathbb{R}
核心运算矩阵幂 AnA^n(无穷级数)内积和二次型(有限步)
计算方法对角化:f(A)=Qf(Λ)Q1f(A) = Q\,f(\Lambda)\,Q^{-1}求梯度 L\nabla\mathcal{L} 和 Hessian HH
本路径出现位置Part 2 eAte^{At},Part 3 SSM/MambaArt. 1B 二次型,Art. 5 矩阵微积分

关键区别:第一种的 AA 是函数的自变量——你在问”ee 的矩阵次方是什么”。第二种的矩阵(Hessian HH)是函数的二阶导数——你在问”损失函数在这一点附近长什么样”。两者都叫”矩阵 Taylor 展开”,但数学结构完全不同。

围绕非零点展开的限制

标量 Taylor 展开可以围绕任意点 x0x_0 展开:f(x)=f(x0)+f(x0)(xx0)+12f(x0)(xx0)2+f(x) = f(x_0) + f'(x_0)(x - x_0) + \frac{1}{2}f''(x_0)(x-x_0)^2 + \cdots

对于第二种(多元 Taylor),这没有任何额外困难——Δw=ww0\Delta\mathbf{w} = \mathbf{w} - \mathbf{w}_0 就是向量减法,和标量情形完全类比。

但对于第一种(矩阵函数),围绕非零矩阵 A0A_0 展开时会遇到一个标量世界不存在的问题。标量中 (xx0)2=(xx0)(xx0)(x - x_0)^2 = (x - x_0)(x - x_0) 不需要考虑顺序。但矩阵中 (AA0)2=(AA0)(AA0)(A - A_0)^2 = (A - A_0)(A - A_0) 展开后包含 AA0AA_0A0AA_0A 两项——如果 AAA0A_0 不可交换AA0A0AAA_0 \neq A_0 A),展开就不像标量那样简单了,需要用更复杂的工具(如 Fréchet 导数)来处理。

好消息是,本路径中用到的所有矩阵幂级数都是围绕零点展开的 Maclaurin 形式(eAte^{At}、Neumann 级数 (IA)1(I-A)^{-1}),不涉及这个困难——因为 (A0)n=An(A - 0)^n = A^n,没有第二个矩阵参与。

AnA^n 的直觉

矩阵幂级数在 Part 2(连续时间系统的 eAte^{At})和 Part 3(SSM/Mamba 的离散化 eAΔe^{A\Delta})中会正式登场。这里只需记住一个直觉:矩阵的幂 AnA^n 有明确的含义——对于转移矩阵,AnA^n 表示走 nn 步后的转移概率;对于图的邻接矩阵,(An)ij(A^n)_{ij} 是从节点 ii 到节点 jj 的长度为 nn 的路径数。

本路径不覆盖什么

为了保持聚焦,以下重要主题不在本路径范围内

  • 优化方法:梯度下降、Adam、二阶方法(K-FAC、Fisher 信息矩阵)。我们会在 Art. 5 中讲 Jacobian 和 Hessian 作为微分工具,但优化算法本身属于另一个方向。
  • 统计推断:协方差矩阵的估计、假设检验、贝叶斯方法。PCA 会用到协方差矩阵,但统计视角不是我们的重点。
  • 数值线性代数的工程细节:Householder 变换、Givens 旋转、数值稳定性的精细分析。我们关注数学概念和 ML 应用,不深入数值算法的实现。
  • 稀疏矩阵:虽然实践中非常重要,但稀疏矩阵的存储格式和算法属于系统优化层面。

前置知识

本路径假设读者已经熟悉以下概念:

  • 矩阵乘法、转置、逆
  • 行列式(知道它衡量”体积缩放”即可)
  • 向量空间、线性无关、秩的直觉

如果你对这些概念还不太确定,MIT 18.06(Gilbert Strang 的线性代数课程)是最好的起点。

总结与展望

本文建立了整条路径的概念框架:

  • 三类矩阵(数据容器、给定算子、学习算子)决定了分析视角
  • 六类操作(分解、度量、微分、迭代 + 求解、变换)覆盖了 ML 中的核心矩阵操作
  • 拆→传→汇的弧线将 27 篇文章组织成一个连贯的叙事

下一篇我们进入 Part 1,从数据矩阵分解的全局图景开始——为什么数据矩阵往往高维、稀疏、有噪声,以及我们有哪些工具来提取其中的低维结构。