算子矩阵全景:当矩阵不再装数据
更新于 2026-04-23
Part 1 用了 13 篇文章回答一个问题:矩阵里藏着什么结构? 我们把数据矩阵拆开——特征分解、SVD、PCA、NMF——从中提取低维结构、发现隐藏模式、分离信号与噪声。在那个世界里,矩阵是一个容器,装着用户评分、词共现频率、像素灰度值。分解的目的是”打开盒子看里面”。
现在,矩阵的角色发生了根本转变。
Part 1 里矩阵是数据的容器,我们拆开它看结构。Part 2 里矩阵本身就是一个过程——乘一次就是执行一步。
一个网页链接矩阵乘以当前的重要性向量,得到下一轮的重要性排名。一个 Markov 转移矩阵乘以当前的状态分布,得到一步之后的状态分布。一个图 Laplacian 乘以节点上的信号,得到信号经过一次扩散后的结果。矩阵不再是被拆的对象,而是一台执行运算的机器。
这就是 Part 2 “传” 的起点。本文是 Part 2 的路线图——我们将建立概念框架,预览三族算子矩阵的核心性质,并展示 Part 1 的工具如何在新语境下继续发挥作用。
Part 1 工具是通用的——额外结构带来额外定理
在继续之前,有一个关键澄清必须明确:
Part 1 建立的四件工具——特征分解、SVD、范数、矩阵微积分——是通用的。 它们对任何矩阵都能用,无论矩阵扮演什么角色。特征分解可以分解转移矩阵,SVD 可以分解 kernel 矩阵,范数可以度量任何矩阵的大小。这些工具不因”矩阵是数据容器还是算子”而改变。
那为什么要单独开 Part 2?因为当矩阵表示一个过程时,它往往有额外的数学结构:
- 随机矩阵(stochastic matrix):每行元素非负且行和为 1——这是概率分布的约束
- 图 Laplacian:对称、半正定、行和为 0——这是图结构的编码
- Kernel 矩阵:对称、正半定——这是内积空间的几何
这些额外结构带来额外的定理。例如,Perron-Frobenius 定理告诉我们:一个正的随机矩阵必有唯一的主特征值 ,对应的特征向量就是系统的稳态分布——这个结论对一般矩阵不成立。又如,图 Laplacian 的最小特征值必为 0,其重数等于图的连通分量数——这也是一般矩阵不具备的性质。
换言之:Part 2 不是一套新数学,而是同一套工具遇到有特殊结构的矩阵时,产生的更强结论。 这正是全景图中所强调的:三个 Part 不是三套独立的数学,而是同一套工具在不同语境下的应用。
从”拆”到”传”:核心操作的转变
Part 1 的核心操作是分解——把一个矩阵 写成若干更简单矩阵的乘积(, ),从因子中提取结构。
Part 2 的核心操作是迭代——给定一个算子矩阵 (这里用 表示一般的算子矩阵,具体到转移矩阵时它的行和为 1),反复作用于一个向量:
我们关心的问题变成了:
- 收敛性:这个序列趋向什么?
- 稳态:极限 存在吗?是什么?
- 速率:多快收敛?
- 结构:稳态揭示了系统的什么性质?
答案全部来自 的谱(spectrum)——它的特征值和特征向量。这正是 Part 1 工具链的第一环(Art. 2 特征分解)在新语境下的应用。
设 可对角化为 ,其中 。则:
而 。当 时:
- 如果 ,则 (该方向的分量衰减消失)
- 如果 ,则 (该方向的分量保持或振荡)
- 如果 ,则 (该方向的分量发散)
统一主题:算子的特征结构揭示系统行为。 特征值的大小决定收敛还是发散,特征向量决定方向和模式。Part 2 的每一篇文章都是这个主题的一个实例。
三族算子矩阵
Part 2 涉及的算子矩阵可以归为三个家族。它们看似不同——一个描述概率传播,一个编码图结构,一个度量相似性——但分析它们的基本范式是统一的:看谱。
第一族:随机矩阵——概率传播
定义:一个矩阵 称为(行)随机矩阵(row stochastic matrix),如果满足:
即每个元素非负,每行之和为 1。第 行就是从状态 出发的转移概率分布。
核心操作:矩阵乘法 = 概率传播。如果 是时刻 的状态分布(行向量),那么一步转移后:
步之后:。
谱性质(Perron-Frobenius 定理的推论):
- 是最大特征值(因为行和为 1,全 1 向量 是 的右特征向量)
- 所有特征值满足 (特征值被”锁”在复平面的单位圆内)
- 如果 是不可约且非周期的(irreducible and aperiodic),则 是严格主特征值(),系统收敛到唯一的稳态分布
收敛速率由谱隙(spectral gap) 控制。 越小,收敛越快——每乘一次 ,非稳态分量衰减的比例就是 。
ML 中的典型应用:
| 应用 | 矩阵 | 核心问题 |
|---|---|---|
| 马尔可夫链(Art. 15 马尔可夫链) | 转移矩阵 | 稳态分布、混合时间 |
| PageRank(Art. 18 PageRank) | 修改后的网页转移矩阵 | 幂迭代求稳态向量 |
| 随机游走(Art. 19 随机游走) | 图上的转移矩阵 | DeepWalk / Node2Vec 采样策略 |
第二族:图结构矩阵——结构编码
给定无向图 ,有 个节点。图的结构可以编码为几种相关的矩阵。
邻接矩阵 (这里用 而非 以避免与泛指矩阵混淆):
度矩阵 :对角矩阵, 是节点 的度(degree)。
图 Laplacian :
直觉上, 衡量的是”节点值与邻居均值的偏差”。对于节点上的信号 :
这是离散 Laplace 算子的矩阵形式——如果 远大于其邻居的平均值, 就大;如果 接近邻居均值, 就小。
谱性质:
- 是对称半正定的()
- 特征值全部是非负实数:
- 对应的特征向量是全 1 向量 (因为 ,每个节点与邻居的差为 0)
- 的重数等于图的连通分量数——如果图有 个连通分量,则前 个特征值都为 0
- (第二小特征值,称为 Fiedler 值 / algebraic connectivity)衡量图的”连通紧密度”
核心洞察:Laplacian 的小特征值对应的特征向量编码了图的全局结构——它们自然地将图分割成连通的群组。这就是谱聚类(spectral clustering)的数学基础:用 的前几个特征向量作为节点的低维嵌入,然后在嵌入空间中做 -means 聚类。
ML 中的典型应用:
| 应用 | 矩阵 | 核心问题 |
|---|---|---|
| 谱聚类(Art. 21 图 Laplacian) | 图 Laplacian (或归一化版本) | 用特征向量做图分割 |
| 图扩散 / GNN(Art. 22 图扩散与 GNN) | 归一化 Laplacian / 邻接矩阵 | 信号在图上的传播 |
第三族:相似度矩阵——关系度量
定义:给定 个数据点 和一个核函数(kernel function),kernel 矩阵(也称 Gram 矩阵) 定义为:
最常用的核函数是高斯核(RBF kernel):
其中 是带宽参数。
为什么 kernel 矩阵是”算子”? 因为 可以被理解为一个积分算子的离散化。在连续版本中,核函数 定义了一个积分变换:
矩阵乘以一个向量 ,就是在对函数 做一次”加权平均”——每个点的新值是所有点的值按相似度加权求和。这本质上也是一个扩散 / 平滑过程。
谱性质:
- 是对称正半定的(Mercer 定理保证:如果 是正定核,则 正半定)
- 特征值全部非负实数:
- 对于光滑核(如高斯核),特征值快速衰减——大部分”能量”集中在前几个特征值,矩阵具有低有效秩
核心洞察:Kernel 矩阵将非线性关系编码为线性内积。在 PCA(Art. 6 PCA)中我们提到了线性降维的局限——kernel 方法的核心思想是:将数据通过非线性映射 送入高维(甚至无穷维)特征空间,在那里做线性运算,但通过”kernel trick”避免显式计算 。 直接给出了高维空间中的内积。
ML 中的典型应用:
| 应用 | 矩阵 | 核心问题 |
|---|---|---|
| Kernel PCA / SVM(Art. 20 Kernel) | Kernel 矩阵 | 非线性特征空间中的线性方法 |
| Gaussian Process(Art. 20 Kernel) | 协方差矩阵 | 函数空间上的贝叶斯推断 |
谱性质对比
三族算子矩阵虽然来源不同、描述的过程不同,但分析方法统一:看特征值在复平面上的分布。下图将三族矩阵的典型谱并列展示。
读图要点:
- 随机矩阵:特征值散布在复平面的单位圆内。主特征值 锁定在实轴上,其余特征值严格在单位圆内部。 与 1 的距离(谱隙)越大,系统越快遗忘初始条件、收敛到稳态。
- 图 Laplacian:特征值全在非负实轴上。 对应”全局一致”模式(所有节点同值),后续特征值对应越来越”高频”的图信号——节点值交替正负的模式。
- Kernel 矩阵:特征值也在非负实轴上,但分布更不均匀——前几个特征值远大于后面的,呈现快速衰减的特征。这反映了数据的低维流形结构。
三者的共同点:特征值的位置和分布告诉我们系统最重要的信息。 这是 Part 2 的统一主题。
概念地图:可观测/隐藏 × 离散/连续
Part 2 的文章可以用一张二维表格组织,两个维度是:
- 状态是否可观测:我们能直接看到系统的状态,还是只能通过噪声观测间接推断?
- 状态空间是离散还是连续:系统在有限个离散状态间跳转,还是在连续空间中演化?
| 状态可观测 | 状态隐藏 | |
|---|---|---|
| 离散状态 | 马尔可夫链(Art. 15 马尔可夫链) | HMM(Art. 16 HMM) |
| 连续状态 | 线性动力系统(Art. 17 连续系统与 Kalman) | Kalman 滤波(Art. 17 连续系统与 Kalman) |
| 连续 + 学习 | — | SSM / Mamba(Part 3, Art. 26 SSM/Mamba) |
从左到右:状态从可观测变为隐藏,增加了推断的复杂度。马尔可夫链中我们直接观察状态序列;HMM 中状态看不到了,只能通过发射概率间接推断。
从上到下:状态从离散变为连续,矩阵从转移概率矩阵变为状态转移矩阵(线性动力系统中的 ),数学工具从概率论转向微分方程和矩阵指数 。
最后一行指向 Part 3:SSM/Mamba 将状态空间模型的参数变成可学习的,并利用对角化实现高效计算——这是 Part 1 的特征分解工具在 Part 3 的直接应用。
两条子线
Part 2 的九篇文章(Art. 14–22)沿两条子线展开,它们在 PageRank 处交汇。
子线 A:时序算子
这条线沿概念地图的行展开:离散可观测 → 离散隐藏 → 连续隐藏 → 连续可学习。
- 马尔可夫链(Art. 15):最简单的情况——状态有限、转移概率已知、状态可观测。核心问题:稳态分布是什么?多快收敛?
- HMM(Art. 16):状态隐藏了。我们只看到观测序列,要推断隐藏状态序列。三个经典问题:评估(前向算法)、解码(Viterbi)、学习(Baum-Welch / EM)。
- Kalman 滤波(Art. 17):状态从离散变为连续,系统用线性矩阵方程描述。预测步用状态转移矩阵 推进,更新步用观测修正——两步交替,形成最优估计。
- SSM / Mamba(Part 3, Art. 26):把 Kalman 的状态矩阵 变成可学习参数,并约束为对角矩阵以实现高效计算。这是 Part 1 特征分解在 Part 3 的终极应用。
子线 B:图/空间算子
这条线围绕图和空间展开:
- PageRank(Art. 18):互联网是一个有向图,网页是节点,超链接是边。PageRank 在这个图上定义一个随机游走——转移矩阵 由链接结构决定,稳态分布就是每个网页的”重要性”。求解方法是全景图中提到的幂迭代。
- 随机游走(Art. 19):将 PageRank 的思想推广到一般图。DeepWalk 和 Node2Vec 通过在图上做随机游走生成节点序列,然后用 Word2Vec(Art. 11 Word2Vec)学习节点嵌入——这是 Part 1 和 Part 2 的一次交汇。
- Kernel(Art. 20):从图结构扩展到连续空间中的相似度。Kernel 矩阵将非线性关系编码为内积,Gaussian Process 在 kernel 矩阵上做贝叶斯推断。
- 图 Laplacian(Art. 21):图的”第二视角”。如果随机游走关注的是”概率传播”,Laplacian 关注的是”信号扩散”。谱聚类用 Laplacian 的特征向量将图切分为群组。
- 图扩散 / GNN(Art. 22):将 Laplacian 的谱理论与深度学习结合。图卷积网络(GCN)的每一层本质上是一次 Laplacian 平滑——消息传递(message passing)就是矩阵乘法。
PageRank 是桥梁
注意 PageRank 同时出现在两条子线中。这不是巧合——PageRank 就是”图上的马尔可夫链”。它既是时序算子(随机过程随时间演化),又是图算子(定义在图的结构上)。PageRank 是理解这两条线如何统一的关键节点。
隐藏结构:静态 vs. 动态
Part 1 和 Part 2 都在揭示”隐藏结构”,但性质不同:
Part 1 的隐藏结构是静态的。 一个评分矩阵背后有固定的用户偏好因子和物品特征因子;一张图片可以用固定的特征向量组合来近似。SVD 揭示的是数据中已经存在但不直接可见的低维结构。做一次分解就够了。
Part 2 的隐藏结构是动态的。 HMM 背后的隐藏状态在随时间变化——每一步都可能跳到不同的状态。Kalman 滤波追踪的是一个随时间演化的连续状态。仅做一次分解不够,我们需要反复应用算子(迭代),或者设计递推算法(前向-后向、Viterbi、Kalman 更新)来追踪隐藏结构的动态。
这是从”拆”到”传”的深层对应:
| Part 1 “拆” | Part 2 “传” | |
|---|---|---|
| 矩阵角色 | 数据容器 | 给定算子 |
| 核心操作 | 分解(一次性) | 迭代(反复作用) |
| 隐藏结构 | 静态(固定因子) | 动态(随时间演化) |
| 关键工具 | SVD, 特征分解 | 特征分解 + 幂迭代 + 递推 |
| 典型问题 | ”矩阵的低秩近似是什么?" | "反复作用算子后系统去哪里?” |
但请注意:两列使用的底层数学是相同的。Part 2 的幂迭代依赖特征分解(),Kalman 滤波的协方差传播涉及矩阵乘法和求逆(Art. 3 SVD 中 SVD 的伪逆),谱聚类的性能度量用到矩阵范数(Art. 4 范数与条件数)。
Part 2 路线图
Part 2 的九篇文章沿以下脉络展开:
| 文章 | 主题 | 子线 | 核心矩阵 | 核心问题 |
|---|---|---|---|---|
| Art. 14 (本文) | 算子全景 | — | — | 概念框架与路线图 |
| Art. 15 | 马尔可夫链 | A | 转移矩阵 (行和=1) | 稳态、收敛、混合时间 |
| Art. 16 | HMM | A | 转移 + 发射 | 前向/Viterbi/Baum-Welch |
| Art. 17 | 线性系统 & Kalman | A | 状态矩阵 , 观测矩阵 | 连续状态估计 |
| Art. 18 | PageRank | A∩B | 修改后的转移矩阵 | 幂迭代求稳态 |
| Art. 19 | 随机游走 | B | 图上的转移矩阵 | 节点嵌入 (DeepWalk/Node2Vec) |
| Art. 20 | Kernel | B | Kernel 矩阵 (正半定) | 核技巧、GP |
| Art. 21 | 图 Laplacian | B | 谱聚类 | |
| Art. 22 | 图扩散 / GNN | B | 归一化 / | 消息传递、图卷积 |
一个预告:矩阵指数
在 Part 1 中,我们主要处理矩阵的幂 (离散步骤)。Part 2 后半段和 Part 3 中,我们将遇到矩阵的指数 (连续时间演化):
如果 可以对角化为 ,那么:
这与 的结构完全类似——从离散步骤到连续时间,数学形式只是从 变成了 ,对角化的核心作用不变。
当状态矩阵 被约束为对角矩阵时(), 的计算变成逐元素的标量指数——这正是 SSM/Mamba(Art. 26)的关键加速策略。Part 1 中特征分解的”对角化简化一切”这个洞察,在 Part 3 中以最极端的形式回归。
总结与展望
本文建立了 Part 2 的概念框架:
- 核心转变:矩阵从”数据容器”变为”过程编码器”——乘一次就是执行一步
- 工具连续性:Part 1 的特征分解、SVD 等工具是通用的;算子矩阵的额外结构(行和为 1、半正定等)带来额外定理,但底层工具不变
- 三族算子矩阵:随机矩阵(概率传播)、图结构矩阵(结构编码)、相似度矩阵(关系度量),分析方法统一为”看谱”
- 概念地图:可观测/隐藏 × 离散/连续 的二维表格组织了时序算子的完整谱系
- 两条子线:时序算子线(Markov → HMM → Kalman → SSM)和图/空间算子线(PageRank → 随机游走 → Kernel → Laplacian → GNN),在 PageRank 处交汇
- 统一主题:算子的特征结构揭示系统行为
下一篇我们从最简单的算子开始:马尔可夫链。一个有限状态的系统,每一步按固定概率转移——转移矩阵 的特征值告诉我们一切:系统是否收敛、收敛到哪里、多快到达。这是 Part 2 所有内容的基石。