矩阵数学全景图:ML 的通用语言
更新于 2026-04-23
机器学习的每一个核心操作,最终都落在矩阵上。一批数据是一个矩阵(行=样本,列=特征);一次线性变换是一个矩阵(权重矩阵 );一步梯度下降要算矩阵对矩阵的导数;一个图的结构可以编码为邻接矩阵;甚至 Transformer 的 attention 分数也是一个矩阵。理解矩阵的性质和操作,就是理解 ML 的底层语言。
本路径从这个观察出发,构建一套完整的矩阵数学工具箱。我们不会试图覆盖线性代数的所有内容——而是聚焦于 ML 中真正反复出现的那些矩阵方法,从基础的特征分解一路走到 LoRA、Attention 和 SSM/Mamba。
三类矩阵:一个关键洞察
在 ML 中,矩阵扮演三种截然不同的角色。识别出一个矩阵属于哪种角色,决定了你该用什么工具来分析它。
数据容器:矩阵装着你的数据
最直接的情况:矩阵的每个元素就是一个数据点。
- 用户-物品评分矩阵: = 用户 对物品 的评分。10 万用户 × 5 万物品,99% 是空的——你想补全它(矩阵补全)、分解它发现潜在兴趣(MF/FM)。
- 词-上下文共现矩阵: = 词 在词 上下文中出现的次数。Word2Vec 本质上是对这个矩阵的隐式分解。
- 图像矩阵:,每个像素是一个灰度值。SVD 截断到秩 就是图像压缩。
这些矩阵的共同特点:数据本身就是矩阵的值。我们的目标是从中提取隐藏结构——降维、补全、聚类、发现 parts。核心工具是各种分解方法。
给定算子:矩阵编码一个过程
有时矩阵不装数据,而是描述一个过程或变换。乘一次矩阵 = 执行一步操作。
- 转移矩阵 : = 从状态 到状态 的概率。行和为 1。马尔可夫链乘 一次 = 走一步,乘 次 = 走 步, 趋向稳态。
- 图 Laplacian :编码图的连接结构。 的特征值和特征向量揭示图的连通分量、聚类结构。
- Kernel 矩阵 : 度量样本间的相似度。正半定性保证它可以被解释为内积。
这些矩阵有额外的数学结构(随机矩阵行和为 1、Laplacian 半正定且行和为 0、Kernel 矩阵正半定),这些结构带来额外的定理——但分析它们的基本工具(特征分解、SVD)仍然来自 Part 1。关键的新操作是迭代:反复乘以算子,观察系统行为。
学习算子:矩阵是训练出来的
神经网络中,每一层的权重矩阵 是通过训练学到的线性变换:
这些矩阵既不是”原始数据”(它们不直接对应观测值),也不是”给定的”(它们是优化出来的)。一个有趣的经验发现:训练好的大模型,其权重矩阵经常呈现低秩结构——有效信息集中在少数几个奇异向量方向上。
这个发现带来了实际应用:
- LoRA:不微调整个 ,而是学一个低秩增量 ,其中 , ,
- Efficient Attention:attention 矩阵 经验上近似低秩,可以用线性近似加速
- SSM/Mamba:状态转移矩阵 被约束为对角矩阵——特征分解的极端形式,使得卷积计算成为可能
重要澄清:本路径分为三个 Part——Part 1 “拆”聚焦数据容器、Part 2 “传”聚焦给定算子、Part 3 “汇”聚焦学习算子(详见下文”拆→传→汇”一节)。但 Part 1 建立的工具(特征分解、SVD、范数、微积分)是通用的——对任何矩阵都能用,无论它是数据容器、给定算子还是学习算子。“算子”这个标签只意味着矩阵中的数据恰好表示一个过程或变换,因此有额外的数学结构可以利用。三个 Part 不是三套独立的数学,而是同一套工具在不同语境下的应用。
六类矩阵操作
面对一个矩阵,我们可以对它做什么?以下六类操作涵盖了 ML 中最常见的矩阵操作。前四类是本路径显式覆盖的核心,后两类被前四类自然包含。
分解:矩阵里藏着什么结构?
将矩阵拆成几个”更简单”的矩阵的乘积,从中提取隐藏结构。
SVD 告诉我们:任何矩阵都可以分解为”旋转 → 拉伸 → 旋转”。截断到前 个奇异值,得到最佳秩- 近似(Eckart-Young 定理)。加上不同的约束,派生出不同的方法:正交约束 → PCA,非负约束 → NMF,稀疏+低秩 → Robust PCA。
分解是 Part 1 的核心操作。
度量:这个矩阵/近似有多好?
分解产生近似,近似需要度量好坏。矩阵范数提供这个度量:
| 范数 | 定义 | ML 中的角色 |
|---|---|---|
| Frobenius | 逐元素平方和的根 | 重建误差、正则化 |
| Spectral | 最大奇异值 | 训练稳定性(Lipschitz 约束) |
| Nuclear | 奇异值之和 | 秩的凸松弛 → 矩阵补全 |
条件数 衡量矩阵对微小扰动的敏感性。 越大,数值计算越不稳定。
微分:参数变了,输出怎么变?
训练神经网络 = 最小化损失 。梯度下降需要计算 ——损失对权重矩阵的导数。这不是标量对标量的导数,而是涉及 Jacobian 矩阵和链式法则在矩阵空间中的推广。
Jacobian 描述向量值函数的局部线性近似;Hessian 描述损失曲面的二阶曲率,决定优化的难易程度。
迭代:反复作用算子会怎样?
给定算子矩阵 ,反复作用:
这个序列收敛吗?收敛到哪里?速度多快?答案取决于 的谱性质——特征值的大小和分布。
- :序列收敛到零(衰减系统)
- :可能收敛到稳态(马尔可夫链的稳态分布)
- :序列发散(不稳定系统)
PageRank 就是幂迭代的经典应用:反复乘以(修改后的)网页转移矩阵,收敛到的稳态向量就是每个网页的重要性排名。
迭代是 Part 2 的核心操作。
求解 :被分解覆盖
给定约束 ,求 。当 不是方阵或不可逆时,我们需要最小二乘解:
其中 是 Moore-Penrose 伪逆,直接从 SVD 得到( 是将 中非零奇异值取倒数)。所以”求解”操作本质上被 SVD(分解)覆盖了。
变换:换一个基看同一问题——被分解覆盖
特征分解 的本质就是基变换:在特征基下,矩阵变成对角的,乘法变成逐分量缩放。对角化是理解矩阵最强大的视角——SSM/Mamba 的核心加速就来自于将状态转移矩阵约束为对角形式。
所以”变换”操作也被特征分解(分解的一种)覆盖了。
小结:六类操作中,分解、度量、微分、迭代是四件独立的核心工具,贯穿整条路径。求解和变换不是独立操作,而是分解的自然推论。
拆 → 传 → 汇:路径弧线
整条路径沿着一条弧线展开:
Part 1 “拆”(Art. 1–13):面对一个装着数据的矩阵,我们想提取它的低维结构。从特征分解和 SVD 这两件基础工具出发,建立范数(衡量近似好坏)和微积分(分析变化敏感性)两件辅助工具,然后用这套工具箱解决一系列具体问题——PCA 降维、NMF 非负分解、矩阵补全、Word2Vec 词嵌入、张量分解。
Part 2 “传”(Art. 14–22):矩阵不再装数据,而是编码一个过程。转移矩阵描述随机过程,图 Laplacian 编码网络结构,Kernel 矩阵度量相似性。核心操作从”分解”转向”迭代”——反复作用算子,观察系统如何演化。PageRank、谱聚类、图神经网络都是这个框架的实例。
Part 3 “汇”(Art. 23–26):前两个 Part 学到的工具在这里汇聚。神经网络的权重矩阵既可以用 Part 1 的 SVD 分析其低秩结构,也可以被视为 Part 2 中的算子(attention 矩阵编码 token 间的信息传播过程)。LoRA 利用低秩分解做高效微调,SSM/Mamba 利用对角化做高效序列建模。同一套数学工具,在不同语境下反复出现。
路径地图
文章编号速查
| 编号 | 标题 | 核心内容 |
|---|---|---|
| Part 1 “拆” | 数据矩阵分解 | |
| Art. 0 | 全景图(本文) | 三类矩阵、六类操作、路径弧线 |
| Art. 1 | 分解概述 | 问题、工具与方法谱系 |
| Art. 1A | 向量空间几何 | 内积、投影、秩、基变换 |
| Art. 1B | 矩阵结构几何 | 二次型、正定性、协方差 |
| Art. 2 | 特征分解 | ,对角化 |
| Art. 3 | SVD | ,Eckart-Young |
| Art. 4 | 范数与条件数 | Frobenius / spectral / nuclear |
| Art. 5 | 矩阵微积分 | Jacobian、Hessian、链式法则 |
| Art. 6 | PCA | 方差最大化降维,Eigenfaces |
| Art. 7 | 随机化 SVD | 大规模矩阵的高效近似 |
| Art. 8 | 矩阵补全 | Nuclear 范数松弛 |
| Art. 9 | NMF | 非负约束,parts-based 表示 |
| Art. 10 | MF/FM | 推荐系统的矩阵分解 |
| Art. 11 | Word2Vec | 词嵌入 = 隐式矩阵分解 |
| Art. 12 | Robust PCA | 低秩 + 稀疏分离 |
| Art. 13 | 张量分解 | CP/Tucker,知识图谱嵌入 |
| Part 2 “传” | 给定算子 | |
| Art. 14 | 算子全景 | 三族算子、迭代视角 |
| Art. 15 | 马尔可夫链 | 转移矩阵、稳态分布 |
| Art. 16 | HMM | 隐状态推断、Viterbi |
| Art. 17 | 连续系统与 Kalman | 矩阵指数、离散化 |
| Art. 18 | PageRank | 幂迭代求稳态向量 |
| Art. 19 | 随机游走 | DeepWalk / Node2Vec |
| Art. 20 | Kernel | 核技巧、Gaussian Process |
| Art. 21 | 图 Laplacian | 谱聚类 |
| Art. 22 | 图扩散与 GNN | 热方程、消息传递 |
| Part 3 “汇” | 学习算子 | |
| Art. 23 | 学习算子 | 权重矩阵的低秩结构 |
| Art. 24 | LoRA | 低秩微调 |
| Art. 25 | Efficient Attention | 注意力矩阵的低秩近似 |
| Art. 26 | SSM/Mamba | 对角化的终极应用 |
矩阵的幂级数与 Taylor 展开:一个预告
在后续文章中,“Taylor 展开”这个词会在两个完全不同的语境中出现。它们长得像、名字像,但输入输出、数学结构、适用范围都不同。本节先建立直觉,帮你在后续遇到时不会混淆。
回顾:标量幂级数
标量函数可以用幂级数(围绕 的 Maclaurin 级数)表示:
这些等式的右边是把标量 不断乘以自身(),再加权求和。
第一种:矩阵函数 ——输入矩阵,输出矩阵
一个自然的想法:既然标量可以不断自乘,矩阵也可以——,……那把标量幂级数中的 直接替换成方阵 ,得到的是什么?
注意 ——这是定义,不是推导。我们直接规定: 就是这个无穷级数求和的结果。输入一个 矩阵,输出一个 矩阵(每一项 都是 的,加权求和后仍是 的)。对 、 等同理。
为什么这个定义是合理的? 因为它完美保留了标量版本的关键性质。例如标量中 (指数函数的导数等于自身乘以系数),矩阵版本同样成立:。这意味着微分方程 的解恰好是 ——和标量 ODE 的解 形式完全一致。
但你不需要真的去求无穷级数。 如果 可以对角化为 (Art. 2),那么:
代入幂级数:
无穷级数坍缩为 个标量指数。幂级数是定义工具(告诉你 是什么意思),对角化是计算工具(告诉你怎么算出来)。 同理 ——任何能用幂级数定义的标量函数,都可以这样”穿透”到特征值上。
一个 例子:取 (一个反对称矩阵)。它的特征值是 。那么:
这个结果是一个旋转 90° 的旋转矩阵。注意 本身不是旋转矩阵——它是一个反对称矩阵。上面例子中的 把旋转角度 直接编进了矩阵里()。如果我们把”角度”和”方向”分离开,定义单位生成元:
那么 ,上面的例子就是 = 旋转 。更一般地, 就是旋转 角—— 编码”往哪个方向转”(逆时针), 控制”转多少”。 被称为旋转的生成元(generator)。
为什么叫”生成元”?想象你要把一个向量逆时针旋转 角。你可以分成 步,每步只转 。当 很大时,每一小步的旋转矩阵接近单位矩阵,可以近似为 ——单位矩阵加上一个无穷小的修正。把 步连乘取极限:
这恰好是标量等式 的矩阵版本。生成元 编码了旋转的方向(逆时针 vs 顺时针), 控制转多少, 把无穷多个”无穷小的旋转”累积成一个有限角度的旋转。这就是为什么矩阵指数在物理(刚体旋转、量子力学)和工程(控制系统、机器人学)中无处不在。
第二种:多元 Taylor 展开——输入向量/矩阵,输出标量
在 ML 中,另一种”Taylor 展开”更常见:损失函数 在当前参数 附近的近似。这就是标准的多元微积分:
其中 是梯度( 维向量), 是 Hessian( 矩阵)。
高阶项存在但极少使用。 三阶项涉及三阶导数张量(一个 的”立方体”)与三个 的缩并,四阶项涉及四阶导数张量……维度每升一阶,参数数量就多乘一个 。对于深度学习中动辄 的参数空间,连 Hessian( 个元素)都无法显式存储,更不用说三阶()、四阶()了。所以实践中几乎只用到二阶,等号变成 。
这里的核心运算是向量的内积和二次型——完全是有限步的加减乘,没有无穷级数,没有矩阵幂 。
当参数是矩阵 时(如神经网络的权重),只需把 展平成 维向量 ,就回到了向量情形——Art. 5 会详细展开。
两种展开的对比
| 矩阵函数 | 多元 Taylor 展开 | |
|---|---|---|
| 输入 | 方阵 | 向量 (或展平的矩阵) |
| 输出 | 矩阵 | 标量 |
| 核心运算 | 矩阵幂 (无穷级数) | 内积和二次型(有限步) |
| 计算方法 | 对角化: | 求梯度 和 Hessian |
| 本路径出现位置 | Part 2 ,Part 3 SSM/Mamba | Art. 1B 二次型,Art. 5 矩阵微积分 |
关键区别:第一种的 是函数的自变量——你在问” 的矩阵次方是什么”。第二种的矩阵(Hessian )是函数的二阶导数——你在问”损失函数在这一点附近长什么样”。两者都叫”矩阵 Taylor 展开”,但数学结构完全不同。
围绕非零点展开的限制
标量 Taylor 展开可以围绕任意点 展开:。
对于第二种(多元 Taylor),这没有任何额外困难—— 就是向量减法,和标量情形完全类比。
但对于第一种(矩阵函数),围绕非零矩阵 展开时会遇到一个标量世界不存在的问题。标量中 不需要考虑顺序。但矩阵中 展开后包含 和 两项——如果 和 不可交换(),展开就不像标量那样简单了,需要用更复杂的工具(如 Fréchet 导数)来处理。
好消息是,本路径中用到的所有矩阵幂级数都是围绕零点展开的 Maclaurin 形式(、Neumann 级数 ),不涉及这个困难——因为 ,没有第二个矩阵参与。
的直觉
矩阵幂级数在 Part 2(连续时间系统的 )和 Part 3(SSM/Mamba 的离散化 )中会正式登场。这里只需记住一个直觉:矩阵的幂 有明确的含义——对于转移矩阵, 表示走 步后的转移概率;对于图的邻接矩阵, 是从节点 到节点 的长度为 的路径数。
本路径不覆盖什么
为了保持聚焦,以下重要主题不在本路径范围内:
- 优化方法:梯度下降、Adam、二阶方法(K-FAC、Fisher 信息矩阵)。我们会在 Art. 5 中讲 Jacobian 和 Hessian 作为微分工具,但优化算法本身属于另一个方向。
- 统计推断:协方差矩阵的估计、假设检验、贝叶斯方法。PCA 会用到协方差矩阵,但统计视角不是我们的重点。
- 数值线性代数的工程细节:Householder 变换、Givens 旋转、数值稳定性的精细分析。我们关注数学概念和 ML 应用,不深入数值算法的实现。
- 稀疏矩阵:虽然实践中非常重要,但稀疏矩阵的存储格式和算法属于系统优化层面。
前置知识
本路径假设读者已经熟悉以下概念:
- 矩阵乘法、转置、逆
- 行列式(知道它衡量”体积缩放”即可)
- 向量空间、线性无关、秩的直觉
如果你对这些概念还不太确定,MIT 18.06(Gilbert Strang 的线性代数课程)是最好的起点。
总结与展望
本文建立了整条路径的概念框架:
- 三类矩阵(数据容器、给定算子、学习算子)决定了分析视角
- 六类操作(分解、度量、微分、迭代 + 求解、变换)覆盖了 ML 中的核心矩阵操作
- 拆→传→汇的弧线将 27 篇文章组织成一个连贯的叙事
下一篇我们进入 Part 1,从数据矩阵分解的全局图景开始——为什么数据矩阵往往高维、稀疏、有噪声,以及我们有哪些工具来提取其中的低维结构。