算子矩阵全景：当矩阵不再装数据

Part 1 用了 13 篇文章回答一个问题：矩阵里藏着什么结构？ 我们把数据矩阵拆开——特征分解、SVD、PCA、NMF——从中提取低维结构、发现隐藏模式、分离信号与噪声。在那个世界里，矩阵是一个容器，装着用户评分、词共现频率、像素灰度值。分解的目的是”打开盒子看里面”。

现在，矩阵的角色发生了根本转变。

Part 1 里矩阵是数据的容器，我们拆开它看结构。Part 2 里矩阵本身就是一个过程——乘一次就是执行一步。

一个网页链接矩阵乘以当前的重要性向量，得到下一轮的重要性排名。一个 Markov 转移矩阵乘以当前的状态分布，得到一步之后的状态分布。一个图 Laplacian 乘以节点上的信号，得到信号经过一次扩散后的结果。矩阵不再是被拆的对象，而是一台执行运算的机器。

这就是 Part 2 “传” 的起点。本文是 Part 2 的路线图——我们将建立概念框架，预览三族算子矩阵的核心性质，并展示 Part 1 的工具如何在新语境下继续发挥作用。

矩阵的两种角色：从"拆"到"传"

Part 1 工具是通用的——额外结构带来额外定理

在继续之前，有一个关键澄清必须明确：

Part 1 建立的四件工具——特征分解、SVD、范数、矩阵微积分——是通用的。 它们对任何矩阵都能用，无论矩阵扮演什么角色。特征分解可以分解转移矩阵，SVD 可以分解 kernel 矩阵，范数可以度量任何矩阵的大小。这些工具不因”矩阵是数据容器还是算子”而改变。

那为什么要单独开 Part 2？因为当矩阵表示一个过程时，它往往有额外的数学结构：

随机矩阵（stochastic matrix）：每行元素非负且行和为 1——这是概率分布的约束
图 Laplacian：对称、半正定、行和为 0——这是图结构的编码
Kernel 矩阵：对称、正半定——这是内积空间的几何

这些额外结构带来额外的定理。例如，Perron-Frobenius 定理告诉我们：一个正的随机矩阵必有唯一的主特征值 $\lambda_1 = 1$ ，对应的特征向量就是系统的稳态分布——这个结论对一般矩阵不成立。又如，图 Laplacian 的最小特征值必为 0，其重数等于图的连通分量数——这也是一般矩阵不具备的性质。

换言之：Part 2 不是一套新数学，而是同一套工具遇到有特殊结构的矩阵时，产生的更强结论。 这正是全景图中所强调的：三个 Part 不是三套独立的数学，而是同一套工具在不同语境下的应用。

从”拆”到”传”：核心操作的转变

Part 1 的核心操作是分解——把一个矩阵 $A$ 写成若干更简单矩阵的乘积（ $A = Q\Lambda Q^{-1}$ , $A = U\Sigma V^T$ ），从因子中提取结构。

Part 2 的核心操作是迭代——给定一个算子矩阵 $P$ （这里用 $P$ 表示一般的算子矩阵，具体到转移矩阵时它的行和为 1），反复作用于一个向量：

$\mathbf{x}_0, \quad P\mathbf{x}_0, \quad P^2\mathbf{x}_0, \quad P^3\mathbf{x}_0, \quad \ldots$

我们关心的问题变成了：

收敛性：这个序列趋向什么？
稳态：极限 $\mathbf{x}_\infty = \lim_{n \to \infty} P^n \mathbf{x}_0$ 存在吗？是什么？
速率：多快收敛？
结构：稳态揭示了系统的什么性质？

答案全部来自 $P$ 的谱（spectrum）——它的特征值和特征向量。这正是 Part 1 工具链的第一环（Art. 2 特征分解）在新语境下的应用。

设 $P$ 可对角化为 $P = Q\Lambda Q^{-1}$ ，其中 $\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$ 。则：

$P^n = Q\Lambda^n Q^{-1}$

而 $\Lambda^n = \text{diag}(\lambda_1^n, \lambda_2^n, \ldots, \lambda_n^n)$ 。当 $n \to \infty$ 时：

如果 $|\lambda_i| < 1$ ，则 $\lambda_i^n \to 0$ （该方向的分量衰减消失）
如果 $|\lambda_i| = 1$ ，则 $|\lambda_i^n| = 1$ （该方向的分量保持或振荡）
如果 $|\lambda_i| > 1$ ，则 $|\lambda_i^n| \to \infty$ （该方向的分量发散）

统一主题：算子的特征结构揭示系统行为。 特征值的大小决定收敛还是发散，特征向量决定方向和模式。Part 2 的每一篇文章都是这个主题的一个实例。

三族算子矩阵

Part 2 涉及的算子矩阵可以归为三个家族。它们看似不同——一个描述概率传播，一个编码图结构，一个度量相似性——但分析它们的基本范式是统一的：看谱。

第一族：随机矩阵——概率传播

定义：一个矩阵 $P \in \mathbb{R}^{n \times n}$ 称为（行）随机矩阵（row stochastic matrix），如果满足：

$P_{ij} \geq 0, \quad \sum_{j=1}^n P_{ij} = 1 \quad \forall\, i$

即每个元素非负，每行之和为 1。第 $i$ 行就是从状态 $i$ 出发的转移概率分布。

核心操作：矩阵乘法 = 概率传播。如果 $\boldsymbol{\pi}_t \in \mathbb{R}^n$ 是时刻 $t$ 的状态分布（行向量），那么一步转移后：

$\boldsymbol{\pi}_{t+1} = \boldsymbol{\pi}_t P$

$n$ 步之后： $\boldsymbol{\pi}_{t+n} = \boldsymbol{\pi}_t P^n$ 。

谱性质（Perron-Frobenius 定理的推论）：

$\lambda_1 = 1$ 是最大特征值（因为行和为 1，全 1 向量 $\mathbf{1}$ 是 $P$ 的右特征向量）
所有特征值满足 $|\lambda_i| \leq 1$ （特征值被”锁”在复平面的单位圆内）
如果 $P$ 是不可约且非周期的（irreducible and aperiodic），则 $\lambda_1 = 1$ 是严格主特征值（ $|\lambda_2| < 1$ ），系统收敛到唯一的稳态分布 $\boldsymbol{\pi}^*$

ML 中的典型应用：

应用	矩阵	核心问题
马尔可夫链（Art. 15 马尔可夫链）	转移矩阵 $P$	稳态分布、混合时间
PageRank（Art. 18 PageRank）	修改后的网页转移矩阵	幂迭代求稳态向量
随机游走（Art. 19 随机游走）	图上的转移矩阵	DeepWalk / Node2Vec 采样策略

第二族：图结构矩阵——结构编码

给定无向图 $G = (V, E)$ ，有 $n = |V|$ 个节点。图的结构可以编码为几种相关的矩阵。

邻接矩阵 $A_G \in \mathbb{R}^{n \times n}$ （这里用 $A_G$ 而非 $A$ 以避免与泛指矩阵混淆）：

$(A_G)_{ij} = \begin{cases} 1 & \text{如果节点 } i \text{ 和 } j \text{ 相连} \\ 0 & \text{否则} \end{cases}$

度矩阵 $D \in \mathbb{R}^{n \times n}$ ：对角矩阵， $D_{ii} = \sum_j (A_G)_{ij}$ 是节点 $i$ 的度（degree）。

图 Laplacian $L \in \mathbb{R}^{n \times n}$ ：

$L = D - A_G$

直觉上， $L$ 衡量的是”节点值与邻居均值的偏差”。对于节点上的信号 $\mathbf{f} \in \mathbb{R}^n$ ：

$(L\mathbf{f})_i = \sum_{j: (i,j) \in E} (f_i - f_j)$

这是离散 Laplace 算子的矩阵形式——如果 $f_i$ 远大于其邻居的平均值， $(L\mathbf{f})_i$ 就大；如果 $f_i$ 接近邻居均值， $(L\mathbf{f})_i$ 就小。

谱性质：

$L$ 是对称半正定的（ $\mathbf{f}^T L \mathbf{f} = \frac{1}{2}\sum_{(i,j) \in E} (f_i - f_j)^2 \geq 0$ ）
特征值全部是非负实数： $0 = \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$
$\lambda_1 = 0$ 对应的特征向量是全 1 向量 $\mathbf{1}$ （因为 $L\mathbf{1} = \mathbf{0}$ ，每个节点与邻居的差为 0）
$\lambda_1 = 0$ 的重数等于图的连通分量数——如果图有 $k$ 个连通分量，则前 $k$ 个特征值都为 0
$\lambda_2$ （第二小特征值，称为 Fiedler 值 / algebraic connectivity）衡量图的”连通紧密度”

核心洞察：Laplacian 的小特征值对应的特征向量编码了图的全局结构——它们自然地将图分割成连通的群组。这就是谱聚类（spectral clustering）的数学基础：用 $L$ 的前几个特征向量作为节点的低维嵌入，然后在嵌入空间中做 $k$ -means 聚类。

ML 中的典型应用：

应用	矩阵	核心问题
谱聚类（Art. 21 图 Laplacian）	图 Laplacian $L$ （或归一化版本）	用特征向量做图分割
图扩散 / GNN（Art. 22 图扩散与 GNN）	归一化 Laplacian / 邻接矩阵	信号在图上的传播

第三族：相似度矩阵——关系度量

定义：给定 $n$ 个数据点 $\mathbf{x}_1, \ldots, \mathbf{x}_n$ 和一个核函数（kernel function） $k: \mathbb{R}^d \times \mathbb{R}^d \to \mathbb{R}$ ，kernel 矩阵（也称 Gram 矩阵） $K \in \mathbb{R}^{n \times n}$ 定义为：

$K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$

最常用的核函数是高斯核（RBF kernel）：

$k(\mathbf{x}, \mathbf{y}) = \exp\!\left(-\frac{\|\mathbf{x} - \mathbf{y}\|^2}{2\sigma^2}\right)$

其中 $\sigma > 0$ 是带宽参数。

为什么 kernel 矩阵是”算子”？ 因为 $K$ 可以被理解为一个积分算子的离散化。在连续版本中，核函数 $k$ 定义了一个积分变换：

$(T_k f)(\mathbf{x}) = \int k(\mathbf{x}, \mathbf{y}) f(\mathbf{y}) \, d\mu(\mathbf{y})$

$K$ 矩阵乘以一个向量 $\mathbf{f}$ ，就是在对函数 $f$ 做一次”加权平均”——每个点的新值是所有点的值按相似度加权求和。这本质上也是一个扩散 / 平滑过程。

谱性质：

$K$ 是对称正半定的（Mercer 定理保证：如果 $k$ 是正定核，则 $K$ 正半定）
特征值全部非负实数： $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0$
对于光滑核（如高斯核），特征值快速衰减——大部分”能量”集中在前几个特征值，矩阵具有低有效秩

核心洞察：Kernel 矩阵将非线性关系编码为线性内积。在 PCA（Art. 6 PCA）中我们提到了线性降维的局限——kernel 方法的核心思想是：将数据通过非线性映射 $\phi$ 送入高维（甚至无穷维）特征空间，在那里做线性运算，但通过”kernel trick”避免显式计算 $\phi$ 。 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle$ 直接给出了高维空间中的内积。

ML 中的典型应用：

应用	矩阵	核心问题
Kernel PCA / SVM（Art. 20 Kernel）	Kernel 矩阵 $K$	非线性特征空间中的线性方法
Gaussian Process（Art. 20 Kernel）	协方差矩阵 $K$	函数空间上的贝叶斯推断

谱性质对比

三族算子矩阵虽然来源不同、描述的过程不同，但分析方法统一：看特征值在复平面上的分布。下图将三族矩阵的典型谱并列展示。

读图要点：

随机矩阵：特征值散布在复平面的单位圆内。主特征值 $\lambda_1 = 1$ 锁定在实轴上，其余特征值严格在单位圆内部。 $|\lambda_2|$ 与 1 的距离（谱隙）越大，系统越快遗忘初始条件、收敛到稳态。
图 Laplacian：特征值全在非负实轴上。 $\lambda_1 = 0$ 对应”全局一致”模式（所有节点同值），后续特征值对应越来越”高频”的图信号——节点值交替正负的模式。
Kernel 矩阵：特征值也在非负实轴上，但分布更不均匀——前几个特征值远大于后面的，呈现快速衰减的特征。这反映了数据的低维流形结构。

三者的共同点：特征值的位置和分布告诉我们系统最重要的信息。 这是 Part 2 的统一主题。

概念地图：可观测/隐藏 × 离散/连续

Part 2 的文章可以用一张二维表格组织，两个维度是：

状态是否可观测：我们能直接看到系统的状态，还是只能通过噪声观测间接推断？
状态空间是离散还是连续：系统在有限个离散状态间跳转，还是在连续空间中演化？

	状态可观测	状态隐藏
离散状态	马尔可夫链（Art. 15 马尔可夫链）	HMM（Art. 16 HMM）
连续状态	线性动力系统（Art. 17 连续系统与 Kalman）	Kalman 滤波（Art. 17 连续系统与 Kalman）
连续 + 学习	—	SSM / Mamba（Part 3, Art. 26 SSM/Mamba）

概念地图：可观测/隐藏 × 离散/连续

从左到右：状态从可观测变为隐藏，增加了推断的复杂度。马尔可夫链中我们直接观察状态序列；HMM 中状态看不到了，只能通过发射概率间接推断。

从上到下：状态从离散变为连续，矩阵从转移概率矩阵变为状态转移矩阵（线性动力系统中的 $\mathbf{x}_{t+1} = A\mathbf{x}_t + B\mathbf{u}_t$ ），数学工具从概率论转向微分方程和矩阵指数 $e^{At}$ 。

最后一行指向 Part 3：SSM/Mamba 将状态空间模型的参数变成可学习的，并利用对角化实现高效计算——这是 Part 1 的特征分解工具在 Part 3 的直接应用。

两条子线

Part 2 的九篇文章（Art. 14–22）沿两条子线展开，它们在 PageRank 处交汇。

子线 A：时序算子

$\text{马尔可夫链} \to \text{HMM} \to \text{Kalman 滤波} \to (\text{Part 3: SSM / Mamba})$

这条线沿概念地图的行展开：离散可观测 → 离散隐藏 → 连续隐藏 → 连续可学习。

马尔可夫链（Art. 15）：最简单的情况——状态有限、转移概率已知、状态可观测。核心问题：稳态分布是什么？多快收敛？
HMM（Art. 16）：状态隐藏了。我们只看到观测序列，要推断隐藏状态序列。三个经典问题：评估（前向算法）、解码（Viterbi）、学习（Baum-Welch / EM）。
Kalman 滤波（Art. 17）：状态从离散变为连续，系统用线性矩阵方程描述。预测步用状态转移矩阵 $A$ 推进，更新步用观测修正——两步交替，形成最优估计。
SSM / Mamba（Part 3, Art. 26）：把 Kalman 的状态矩阵 $A$ 变成可学习参数，并约束为对角矩阵以实现高效计算。这是 Part 1 特征分解在 Part 3 的终极应用。

子线 B：图/空间算子

$\text{PageRank} \to \text{随机游走} \to \text{Kernel} \to \text{图 Laplacian} \to \text{图扩散 / GNN}$

这条线围绕图和空间展开：

PageRank（Art. 18）：互联网是一个有向图，网页是节点，超链接是边。PageRank 在这个图上定义一个随机游走——转移矩阵 $P$ 由链接结构决定，稳态分布就是每个网页的”重要性”。求解方法是全景图中提到的幂迭代。
随机游走（Art. 19）：将 PageRank 的思想推广到一般图。DeepWalk 和 Node2Vec 通过在图上做随机游走生成节点序列，然后用 Word2Vec（Art. 11 Word2Vec）学习节点嵌入——这是 Part 1 和 Part 2 的一次交汇。
Kernel（Art. 20）：从图结构扩展到连续空间中的相似度。Kernel 矩阵将非线性关系编码为内积，Gaussian Process 在 kernel 矩阵上做贝叶斯推断。
图 Laplacian（Art. 21）：图的”第二视角”。如果随机游走关注的是”概率传播”，Laplacian 关注的是”信号扩散”。谱聚类用 Laplacian 的特征向量将图切分为群组。
图扩散 / GNN（Art. 22）：将 Laplacian 的谱理论与深度学习结合。图卷积网络（GCN）的每一层本质上是一次 Laplacian 平滑——消息传递（message passing）就是矩阵乘法。

PageRank 是桥梁

注意 PageRank 同时出现在两条子线中。这不是巧合——PageRank 就是”图上的马尔可夫链”。它既是时序算子（随机过程随时间演化），又是图算子（定义在图的结构上）。PageRank 是理解这两条线如何统一的关键节点。

隐藏结构：静态 vs. 动态

Part 1 和 Part 2 都在揭示”隐藏结构”，但性质不同：

Part 1 的隐藏结构是静态的。 一个评分矩阵背后有固定的用户偏好因子和物品特征因子；一张图片可以用固定的特征向量组合来近似。SVD 揭示的是数据中已经存在但不直接可见的低维结构。做一次分解就够了。

Part 2 的隐藏结构是动态的。 HMM 背后的隐藏状态在随时间变化——每一步都可能跳到不同的状态。Kalman 滤波追踪的是一个随时间演化的连续状态。仅做一次分解不够，我们需要反复应用算子（迭代），或者设计递推算法（前向-后向、Viterbi、Kalman 更新）来追踪隐藏结构的动态。

这是从”拆”到”传”的深层对应：

	Part 1 “拆”	Part 2 “传”
矩阵角色	数据容器	给定算子
核心操作	分解（一次性）	迭代（反复作用）
隐藏结构	静态（固定因子）	动态（随时间演化）
关键工具	SVD, 特征分解	特征分解 + 幂迭代 + 递推
典型问题	”矩阵的低秩近似是什么？"	"反复作用算子后系统去哪里？”

但请注意：两列使用的底层数学是相同的。Part 2 的幂迭代依赖特征分解（ $P^n = Q\Lambda^n Q^{-1}$ ），Kalman 滤波的协方差传播涉及矩阵乘法和求逆（Art. 3 SVD 中 SVD 的伪逆），谱聚类的性能度量用到矩阵范数（Art. 4 范数与条件数）。

Part 2 路线图

Part 2 的九篇文章沿以下脉络展开：

文章	主题	子线	核心矩阵	核心问题
Art. 14 (本文)	算子全景	—	—	概念框架与路线图
Art. 15	马尔可夫链	A	转移矩阵 $P$ （行和=1）	稳态、收敛、混合时间
Art. 16	HMM	A	转移 $P$ + 发射 $B$	前向/Viterbi/Baum-Welch
Art. 17	线性系统 & Kalman	A	状态矩阵 $A$ , 观测矩阵 $C$	连续状态估计
Art. 18	PageRank	A∩B	修改后的转移矩阵	幂迭代求稳态
Art. 19	随机游走	B	图上的转移矩阵	节点嵌入 (DeepWalk/Node2Vec)
Art. 20	Kernel	B	Kernel 矩阵 $K$ （正半定）	核技巧、GP
Art. 21	图 Laplacian	B	$L = D - A_G$	谱聚类
Art. 22	图扩散 / GNN	B	归一化 $L$ / $A_G$	消息传递、图卷积

一个预告：矩阵指数

在 Part 1 中，我们主要处理矩阵的幂 $P^n$ （离散步骤）。Part 2 后半段和 Part 3 中，我们将遇到矩阵的指数 $e^{At}$ （连续时间演化）：

$e^{At} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \cdots$

如果 $A$ 可以对角化为 $A = Q\Lambda Q^{-1}$ ，那么：

$e^{At} = Q \, e^{\Lambda t} \, Q^{-1} = Q \, \text{diag}(e^{\lambda_1 t}, e^{\lambda_2 t}, \ldots, e^{\lambda_n t}) \, Q^{-1}$

这与 $P^n = Q\Lambda^n Q^{-1}$ 的结构完全类似——从离散步骤到连续时间，数学形式只是从 $\lambda^n$ 变成了 $e^{\lambda t}$ ，对角化的核心作用不变。

当状态矩阵 $A$ 被约束为对角矩阵时（ $A = \text{diag}(a_1, \ldots, a_n)$ ）， $e^{At}$ 的计算变成逐元素的标量指数——这正是 SSM/Mamba（Art. 26）的关键加速策略。Part 1 中特征分解的”对角化简化一切”这个洞察，在 Part 3 中以最极端的形式回归。

总结与展望

本文建立了 Part 2 的概念框架：

核心转变：矩阵从”数据容器”变为”过程编码器”——乘一次就是执行一步
工具连续性：Part 1 的特征分解、SVD 等工具是通用的；算子矩阵的额外结构（行和为 1、半正定等）带来额外定理，但底层工具不变
三族算子矩阵：随机矩阵（概率传播）、图结构矩阵（结构编码）、相似度矩阵（关系度量），分析方法统一为”看谱”
概念地图：可观测/隐藏 × 离散/连续的二维表格组织了时序算子的完整谱系
两条子线：时序算子线（Markov → HMM → Kalman → SSM）和图/空间算子线（PageRank → 随机游走 → Kernel → Laplacian → GNN），在 PageRank 处交汇
统一主题：算子的特征结构揭示系统行为

下一篇我们从最简单的算子开始：马尔可夫链。一个有限状态的系统，每一步按固定概率转移——转移矩阵 $P$ 的特征值告诉我们一切：系统是否收敛、收敛到哪里、多快到达。这是 Part 2 所有内容的基石。