本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

算子矩阵全景:当矩阵不再装数据

算子矩阵全景:当矩阵不再装数据

更新于 2026-04-23

Part 1 用了 13 篇文章回答一个问题:矩阵里藏着什么结构? 我们把数据矩阵拆开——特征分解、SVD、PCA、NMF——从中提取低维结构、发现隐藏模式、分离信号与噪声。在那个世界里,矩阵是一个容器,装着用户评分、词共现频率、像素灰度值。分解的目的是”打开盒子看里面”。

现在,矩阵的角色发生了根本转变。

Part 1 里矩阵是数据的容器,我们拆开它看结构。Part 2 里矩阵本身就是一个过程——乘一次就是执行一步。

一个网页链接矩阵乘以当前的重要性向量,得到下一轮的重要性排名。一个 Markov 转移矩阵乘以当前的状态分布,得到一步之后的状态分布。一个图 Laplacian 乘以节点上的信号,得到信号经过一次扩散后的结果。矩阵不再是被拆的对象,而是一台执行运算的机器。

这就是 Part 2 “传” 的起点。本文是 Part 2 的路线图——我们将建立概念框架,预览三族算子矩阵的核心性质,并展示 Part 1 的工具如何在新语境下继续发挥作用。

矩阵的两种角色:从"拆"到"传"
Part 1: 矩阵 = 数据容器数据SVDUΣV核心操作:分解(一次性)"矩阵里藏着什么结构?"评分矩阵 · 共现矩阵 · 像素矩阵Part 2: 矩阵 = 过程 / 算子Px0x1Px2Px*...核心操作:迭代(反复作用)"反复执行这个过程会去哪里?"转移矩阵 · 图 Laplacian · Kernel 矩阵

Part 1 工具是通用的——额外结构带来额外定理

在继续之前,有一个关键澄清必须明确:

Part 1 建立的四件工具——特征分解、SVD、范数、矩阵微积分——是通用的。 它们对任何矩阵都能用,无论矩阵扮演什么角色。特征分解可以分解转移矩阵,SVD 可以分解 kernel 矩阵,范数可以度量任何矩阵的大小。这些工具不因”矩阵是数据容器还是算子”而改变。

那为什么要单独开 Part 2?因为当矩阵表示一个过程时,它往往有额外的数学结构

  • 随机矩阵(stochastic matrix):每行元素非负且行和为 1——这是概率分布的约束
  • 图 Laplacian:对称、半正定、行和为 0——这是图结构的编码
  • Kernel 矩阵:对称、正半定——这是内积空间的几何

这些额外结构带来额外的定理。例如,Perron-Frobenius 定理告诉我们:一个正的随机矩阵必有唯一的主特征值 λ1=1\lambda_1 = 1,对应的特征向量就是系统的稳态分布——这个结论对一般矩阵不成立。又如,图 Laplacian 的最小特征值必为 0,其重数等于图的连通分量数——这也是一般矩阵不具备的性质。

换言之:Part 2 不是一套新数学,而是同一套工具遇到有特殊结构的矩阵时,产生的更强结论。 这正是全景图中所强调的:三个 Part 不是三套独立的数学,而是同一套工具在不同语境下的应用。

从”拆”到”传”:核心操作的转变

Part 1 的核心操作是分解——把一个矩阵 AA 写成若干更简单矩阵的乘积(A=QΛQ1A = Q\Lambda Q^{-1}, A=UΣVTA = U\Sigma V^T),从因子中提取结构。

Part 2 的核心操作是迭代——给定一个算子矩阵 PP(这里用 PP 表示一般的算子矩阵,具体到转移矩阵时它的行和为 1),反复作用于一个向量:

x0,Px0,P2x0,P3x0,\mathbf{x}_0, \quad P\mathbf{x}_0, \quad P^2\mathbf{x}_0, \quad P^3\mathbf{x}_0, \quad \ldots

我们关心的问题变成了:

  1. 收敛性:这个序列趋向什么?
  2. 稳态:极限 x=limnPnx0\mathbf{x}_\infty = \lim_{n \to \infty} P^n \mathbf{x}_0 存在吗?是什么?
  3. 速率:多快收敛?
  4. 结构:稳态揭示了系统的什么性质?

答案全部来自 PP(spectrum)——它的特征值和特征向量。这正是 Part 1 工具链的第一环(Art. 2 特征分解)在新语境下的应用。

PP 可对角化为 P=QΛQ1P = Q\Lambda Q^{-1},其中 Λ=diag(λ1,λ2,,λn)\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)。则:

Pn=QΛnQ1P^n = Q\Lambda^n Q^{-1}

Λn=diag(λ1n,λ2n,,λnn)\Lambda^n = \text{diag}(\lambda_1^n, \lambda_2^n, \ldots, \lambda_n^n)。当 nn \to \infty 时:

  • 如果 λi<1|\lambda_i| < 1,则 λin0\lambda_i^n \to 0(该方向的分量衰减消失)
  • 如果 λi=1|\lambda_i| = 1,则 λin=1|\lambda_i^n| = 1(该方向的分量保持或振荡)
  • 如果 λi>1|\lambda_i| > 1,则 λin|\lambda_i^n| \to \infty(该方向的分量发散)

统一主题:算子的特征结构揭示系统行为。 特征值的大小决定收敛还是发散,特征向量决定方向和模式。Part 2 的每一篇文章都是这个主题的一个实例。

核心操作:迭代 x₀, Px₀, P²x₀, ... → 收敛x∞x₀Px₀P⁽2⁾x₀P⁽3⁾x₀P⁽4⁾x₀x∞|λᵢ| < 1 → λᵢⁿ → 0(衰减),|λᵢ| = 1 → 保持,|λᵢ| > 1 → 发散Pⁿ = QΛⁿQ⁻¹:特征值大小决定收敛/发散,特征向量决定方向

三族算子矩阵

Part 2 涉及的算子矩阵可以归为三个家族。它们看似不同——一个描述概率传播,一个编码图结构,一个度量相似性——但分析它们的基本范式是统一的:看谱

第一族:随机矩阵——概率传播

定义:一个矩阵 PRn×nP \in \mathbb{R}^{n \times n} 称为(行)随机矩阵(row stochastic matrix),如果满足:

Pij0,j=1nPij=1iP_{ij} \geq 0, \quad \sum_{j=1}^n P_{ij} = 1 \quad \forall\, i

即每个元素非负,每行之和为 1。第 ii 行就是从状态 ii 出发的转移概率分布。

核心操作:矩阵乘法 = 概率传播。如果 πtRn\boldsymbol{\pi}_t \in \mathbb{R}^n 是时刻 tt 的状态分布(行向量),那么一步转移后:

πt+1=πtP\boldsymbol{\pi}_{t+1} = \boldsymbol{\pi}_t P

nn 步之后:πt+n=πtPn\boldsymbol{\pi}_{t+n} = \boldsymbol{\pi}_t P^n

谱性质(Perron-Frobenius 定理的推论):

  • λ1=1\lambda_1 = 1 是最大特征值(因为行和为 1,全 1 向量 1\mathbf{1}PP 的右特征向量)
  • 所有特征值满足 λi1|\lambda_i| \leq 1(特征值被”锁”在复平面的单位圆内)
  • 如果 PP 是不可约且非周期的(irreducible and aperiodic),则 λ1=1\lambda_1 = 1严格主特征值λ2<1|\lambda_2| < 1),系统收敛到唯一的稳态分布 π\boldsymbol{\pi}^*

收敛速率谱隙(spectral gap)1λ21 - |\lambda_2| 控制。λ2|\lambda_2| 越小,收敛越快——每乘一次 PP,非稳态分量衰减的比例就是 λ2|\lambda_2|

随机矩阵:行和为 1,特征值在单位圆内P =S₁S₂S₃S₄0.10.60.20.10.30.20.40.10.20.30.10.40.10.10.30.5= 1= 1= 1= 1每行和=1λ₁=1λ₂λ₃λ₄谱隙特征值分布λ₁=1 锁定(行和为1),|λ₂|<1 → 收敛到唯一稳态,谱隙 1−|λ₂| 越大收敛越快

ML 中的典型应用

应用矩阵核心问题
马尔可夫链(Art. 15 马尔可夫链转移矩阵 PP稳态分布、混合时间
PageRank(Art. 18 PageRank修改后的网页转移矩阵幂迭代求稳态向量
随机游走(Art. 19 随机游走图上的转移矩阵DeepWalk / Node2Vec 采样策略

第二族:图结构矩阵——结构编码

给定无向图 G=(V,E)G = (V, E),有 n=Vn = |V| 个节点。图的结构可以编码为几种相关的矩阵。

邻接矩阵 AGRn×nA_G \in \mathbb{R}^{n \times n}(这里用 AGA_G 而非 AA 以避免与泛指矩阵混淆):

(AG)ij={1如果节点 i 和 j 相连0否则(A_G)_{ij} = \begin{cases} 1 & \text{如果节点 } i \text{ 和 } j \text{ 相连} \\ 0 & \text{否则} \end{cases}

度矩阵 DRn×nD \in \mathbb{R}^{n \times n}:对角矩阵,Dii=j(AG)ijD_{ii} = \sum_j (A_G)_{ij} 是节点 ii 的度(degree)。

图 Laplacian LRn×nL \in \mathbb{R}^{n \times n}

L=DAGL = D - A_G

直觉上,LL 衡量的是”节点值与邻居均值的偏差”。对于节点上的信号 fRn\mathbf{f} \in \mathbb{R}^n

(Lf)i=j:(i,j)E(fifj)(L\mathbf{f})_i = \sum_{j: (i,j) \in E} (f_i - f_j)

这是离散 Laplace 算子的矩阵形式——如果 fif_i 远大于其邻居的平均值,(Lf)i(L\mathbf{f})_i 就大;如果 fif_i 接近邻居均值,(Lf)i(L\mathbf{f})_i 就小。

谱性质

  • LL 是对称半正定的(fTLf=12(i,j)E(fifj)20\mathbf{f}^T L \mathbf{f} = \frac{1}{2}\sum_{(i,j) \in E} (f_i - f_j)^2 \geq 0
  • 特征值全部是非负实数:0=λ1λ2λn0 = \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n
  • λ1=0\lambda_1 = 0 对应的特征向量是全 1 向量 1\mathbf{1}(因为 L1=0L\mathbf{1} = \mathbf{0},每个节点与邻居的差为 0)
  • λ1=0\lambda_1 = 0 的重数等于图的连通分量数——如果图有 kk 个连通分量,则前 kk 个特征值都为 0
  • λ2\lambda_2(第二小特征值,称为 Fiedler 值 / algebraic connectivity)衡量图的”连通紧密度”

核心洞察:Laplacian 的小特征值对应的特征向量编码了图的全局结构——它们自然地将图分割成连通的群组。这就是谱聚类(spectral clustering)的数学基础:用 LL 的前几个特征向量作为节点的低维嵌入,然后在嵌入空间中做 kk-means 聚类。

图 Laplacian 构造:L = D − A1234图 G邻接 A0110101111010110度对角度 D2000030000300002L = D − A2-1-10-13-1-1-1-13-10-1-12(Lf)ᵢ = Σⱼ∈N(i) (fᵢ − fⱼ):衡量节点值与邻居均值的偏差L 半正定,λ₁=0 的重数 = 连通分量数,λ₂(Fiedler 值)衡量连通紧密度

ML 中的典型应用

应用矩阵核心问题
谱聚类(Art. 21 图 Laplacian图 Laplacian LL(或归一化版本)用特征向量做图分割
图扩散 / GNN(Art. 22 图扩散与 GNN归一化 Laplacian / 邻接矩阵信号在图上的传播

第三族:相似度矩阵——关系度量

定义:给定 nn 个数据点 x1,,xn\mathbf{x}_1, \ldots, \mathbf{x}_n 和一个核函数(kernel function)k:Rd×RdRk: \mathbb{R}^d \times \mathbb{R}^d \to \mathbb{R},kernel 矩阵(也称 Gram 矩阵)KRn×nK \in \mathbb{R}^{n \times n} 定义为:

Kij=k(xi,xj)K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)

最常用的核函数是高斯核(RBF kernel):

k(x,y)=exp ⁣(xy22σ2)k(\mathbf{x}, \mathbf{y}) = \exp\!\left(-\frac{\|\mathbf{x} - \mathbf{y}\|^2}{2\sigma^2}\right)

其中 σ>0\sigma > 0 是带宽参数。

为什么 kernel 矩阵是”算子”? 因为 KK 可以被理解为一个积分算子的离散化。在连续版本中,核函数 kk 定义了一个积分变换:

(Tkf)(x)=k(x,y)f(y)dμ(y)(T_k f)(\mathbf{x}) = \int k(\mathbf{x}, \mathbf{y}) f(\mathbf{y}) \, d\mu(\mathbf{y})

KK 矩阵乘以一个向量 f\mathbf{f},就是在对函数 ff 做一次”加权平均”——每个点的新值是所有点的值按相似度加权求和。这本质上也是一个扩散 / 平滑过程。

谱性质

  • KK 是对称正半定的(Mercer 定理保证:如果 kk 是正定核,则 KK 正半定)
  • 特征值全部非负实数:λ1λ2λn0\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0
  • 对于光滑核(如高斯核),特征值快速衰减——大部分”能量”集中在前几个特征值,矩阵具有低有效秩

核心洞察:Kernel 矩阵将非线性关系编码为线性内积。在 PCA(Art. 6 PCA)中我们提到了线性降维的局限——kernel 方法的核心思想是:将数据通过非线性映射 ϕ\phi 送入高维(甚至无穷维)特征空间,在那里做线性运算,但通过”kernel trick”避免显式计算 ϕ\phiKij=k(xi,xj)=ϕ(xi),ϕ(xj)K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle 直接给出了高维空间中的内积。

Kernel 矩阵:Kᵢⱼ = k(xᵢ, xⱼ) = ⟨φ(xᵢ), φ(xⱼ)⟩输入空间 ℝᵈx₁x₂x₃x₄x₅k(xᵢ, xⱼ)高斯核K (对称正半定)1.00.80.70.50.80.81.00.80.70.60.70.81.00.80.60.50.70.81.00.30.80.60.60.31.0✓ 对称✓ 正半定✓ 对角线=1K 乘向量 f = 按相似度加权求和,本质是一个扩散/平滑算子;特征值快速衰减 → 低有效秩

ML 中的典型应用

应用矩阵核心问题
Kernel PCA / SVM(Art. 20 KernelKernel 矩阵 KK非线性特征空间中的线性方法
Gaussian Process(Art. 20 Kernel协方差矩阵 KK函数空间上的贝叶斯推断

谱性质对比

三族算子矩阵虽然来源不同、描述的过程不同,但分析方法统一:看特征值在复平面上的分布。下图将三族矩阵的典型谱并列展示。

随机矩阵行和 = 1,转移概率ReImλ₁=1主特征值 λ₁ = 1(Perron–Frobenius)所有 |λᵢ| ≤ 1(单位圆内)|λ₂| 决定收敛速度图 LaplacianL = D − A_G,对称半正定0λλ₁=0λ₁ = 0(对应全 1 向量)所有 λᵢ ≥ 0(半正定)0 的重数 = 连通分量数Kernel 矩阵K_ij = k(xᵢ, xⱼ),正半定0λλ₁所有 λᵢ ≥ 0(正半定)特征值快速衰减(有效秩低)Mercer 定理保证分解

读图要点

  • 随机矩阵:特征值散布在复平面的单位圆内。主特征值 λ1=1\lambda_1 = 1 锁定在实轴上,其余特征值严格在单位圆内部。λ2|\lambda_2| 与 1 的距离(谱隙)越大,系统越快遗忘初始条件、收敛到稳态。
  • 图 Laplacian:特征值全在非负实轴上。λ1=0\lambda_1 = 0 对应”全局一致”模式(所有节点同值),后续特征值对应越来越”高频”的图信号——节点值交替正负的模式。
  • Kernel 矩阵:特征值也在非负实轴上,但分布更不均匀——前几个特征值远大于后面的,呈现快速衰减的特征。这反映了数据的低维流形结构。

三者的共同点:特征值的位置和分布告诉我们系统最重要的信息。 这是 Part 2 的统一主题。

概念地图:可观测/隐藏 × 离散/连续

Part 2 的文章可以用一张二维表格组织,两个维度是:

  • 状态是否可观测:我们能直接看到系统的状态,还是只能通过噪声观测间接推断?
  • 状态空间是离散还是连续:系统在有限个离散状态间跳转,还是在连续空间中演化?
状态可观测状态隐藏
离散状态马尔可夫链(Art. 15 马尔可夫链HMM(Art. 16 HMM
连续状态线性动力系统(Art. 17 连续系统与 KalmanKalman 滤波(Art. 17 连续系统与 Kalman
连续 + 学习SSM / Mamba(Part 3, Art. 26 SSM/Mamba
概念地图:可观测/隐藏 × 离散/连续
状态可观测状态隐藏离散连续马尔可夫链Art. 15HMMArt. 16线性动力系统Art. 17Kalman 滤波Art. 17→ SSM / Mamba (Part 3, Art. 26)

从左到右:状态从可观测变为隐藏,增加了推断的复杂度。马尔可夫链中我们直接观察状态序列;HMM 中状态看不到了,只能通过发射概率间接推断。

从上到下:状态从离散变为连续,矩阵从转移概率矩阵变为状态转移矩阵(线性动力系统中的 xt+1=Axt+But\mathbf{x}_{t+1} = A\mathbf{x}_t + B\mathbf{u}_t),数学工具从概率论转向微分方程和矩阵指数 eAte^{At}

最后一行指向 Part 3:SSM/Mamba 将状态空间模型的参数变成可学习的,并利用对角化实现高效计算——这是 Part 1 的特征分解工具在 Part 3 的直接应用。

两条子线

Part 2 的九篇文章(Art. 14–22)沿两条子线展开,它们在 PageRank 处交汇。

Part 2 两条子线(PageRank 处交汇)A时序马尔可夫链Art.15HMMArt.16KalmanArt.17SSM/MambaArt.26 (Part 3)BPageRankArt.18随机游走Art.19KernelArt.20LaplacianArt.21GNNArt.22PageRank = 图上的马尔可夫链统一主题:算子的特征结构揭示系统行为——特征值决定收敛/发散,特征向量决定模式

子线 A:时序算子

马尔可夫链HMMKalman 滤波(Part 3: SSM / Mamba)\text{马尔可夫链} \to \text{HMM} \to \text{Kalman 滤波} \to (\text{Part 3: SSM / Mamba})

这条线沿概念地图的展开:离散可观测 → 离散隐藏 → 连续隐藏 → 连续可学习。

  • 马尔可夫链(Art. 15):最简单的情况——状态有限、转移概率已知、状态可观测。核心问题:稳态分布是什么?多快收敛?
  • HMM(Art. 16):状态隐藏了。我们只看到观测序列,要推断隐藏状态序列。三个经典问题:评估(前向算法)、解码(Viterbi)、学习(Baum-Welch / EM)。
  • Kalman 滤波(Art. 17):状态从离散变为连续,系统用线性矩阵方程描述。预测步用状态转移矩阵 AA 推进,更新步用观测修正——两步交替,形成最优估计。
  • SSM / Mamba(Part 3, Art. 26):把 Kalman 的状态矩阵 AA 变成可学习参数,并约束为对角矩阵以实现高效计算。这是 Part 1 特征分解在 Part 3 的终极应用。

子线 B:图/空间算子

PageRank随机游走Kernel图 Laplacian图扩散 / GNN\text{PageRank} \to \text{随机游走} \to \text{Kernel} \to \text{图 Laplacian} \to \text{图扩散 / GNN}

这条线围绕空间展开:

  • PageRank(Art. 18):互联网是一个有向图,网页是节点,超链接是边。PageRank 在这个图上定义一个随机游走——转移矩阵 PP 由链接结构决定,稳态分布就是每个网页的”重要性”。求解方法是全景图中提到的幂迭代
  • 随机游走(Art. 19):将 PageRank 的思想推广到一般图。DeepWalk 和 Node2Vec 通过在图上做随机游走生成节点序列,然后用 Word2Vec(Art. 11 Word2Vec)学习节点嵌入——这是 Part 1 和 Part 2 的一次交汇。
  • Kernel(Art. 20):从图结构扩展到连续空间中的相似度。Kernel 矩阵将非线性关系编码为内积,Gaussian Process 在 kernel 矩阵上做贝叶斯推断。
  • 图 Laplacian(Art. 21):图的”第二视角”。如果随机游走关注的是”概率传播”,Laplacian 关注的是”信号扩散”。谱聚类用 Laplacian 的特征向量将图切分为群组。
  • 图扩散 / GNN(Art. 22):将 Laplacian 的谱理论与深度学习结合。图卷积网络(GCN)的每一层本质上是一次 Laplacian 平滑——消息传递(message passing)就是矩阵乘法。

PageRank 是桥梁

注意 PageRank 同时出现在两条子线中。这不是巧合——PageRank 就是”图上的马尔可夫链”。它既是时序算子(随机过程随时间演化),又是图算子(定义在图的结构上)。PageRank 是理解这两条线如何统一的关键节点。

隐藏结构:静态 vs. 动态

Part 1 和 Part 2 都在揭示”隐藏结构”,但性质不同:

Part 1 的隐藏结构是静态的。 一个评分矩阵背后有固定的用户偏好因子和物品特征因子;一张图片可以用固定的特征向量组合来近似。SVD 揭示的是数据中已经存在但不直接可见的低维结构。做一次分解就够了。

Part 2 的隐藏结构是动态的。 HMM 背后的隐藏状态在随时间变化——每一步都可能跳到不同的状态。Kalman 滤波追踪的是一个随时间演化的连续状态。仅做一次分解不够,我们需要反复应用算子(迭代),或者设计递推算法(前向-后向、Viterbi、Kalman 更新)来追踪隐藏结构的动态。

这是从”拆”到”传”的深层对应:

Part 1 “拆”Part 2 “传”
矩阵角色数据容器给定算子
核心操作分解(一次性)迭代(反复作用)
隐藏结构静态(固定因子)动态(随时间演化)
关键工具SVD, 特征分解特征分解 + 幂迭代 + 递推
典型问题”矩阵的低秩近似是什么?""反复作用算子后系统去哪里?”

但请注意:两列使用的底层数学是相同的。Part 2 的幂迭代依赖特征分解(Pn=QΛnQ1P^n = Q\Lambda^n Q^{-1}),Kalman 滤波的协方差传播涉及矩阵乘法和求逆(Art. 3 SVD 中 SVD 的伪逆),谱聚类的性能度量用到矩阵范数(Art. 4 范数与条件数)。

Part 2 路线图

Part 2 的九篇文章沿以下脉络展开:

文章主题子线核心矩阵核心问题
Art. 14 (本文)算子全景概念框架与路线图
Art. 15马尔可夫链A转移矩阵 PP(行和=1)稳态、收敛、混合时间
Art. 16HMMA转移 PP + 发射 BB前向/Viterbi/Baum-Welch
Art. 17线性系统 & KalmanA状态矩阵 AA, 观测矩阵 CC连续状态估计
Art. 18PageRankA∩B修改后的转移矩阵幂迭代求稳态
Art. 19随机游走B图上的转移矩阵节点嵌入 (DeepWalk/Node2Vec)
Art. 20KernelBKernel 矩阵 KK(正半定)核技巧、GP
Art. 21图 LaplacianBL=DAGL = D - A_G谱聚类
Art. 22图扩散 / GNNB归一化 LL / AGA_G消息传递、图卷积

一个预告:矩阵指数

离散 → 连续:对角化的核心作用不变离散步骤(Part 2)Pⁿ = QΛⁿQ⁻¹Λⁿ = diag(λ₁ⁿ, λ₂ⁿ, ...)λⁿ → eˡᵗ连续时间(Part 3)eᴬᵗ = Qeᴧᵗ Q⁻¹eᴧᵗ = diag(eˡ¹ᵗ, eˡ²ᵗ, ...)当 A 为对角矩阵时,eᴬᵗ 退化为逐元素标量指数——这正是 SSM/Mamba 的加速关键

在 Part 1 中,我们主要处理矩阵的 PnP^n(离散步骤)。Part 2 后半段和 Part 3 中,我们将遇到矩阵的指数 eAte^{At}(连续时间演化):

eAt=I+At+(At)22!+(At)33!+e^{At} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \cdots

如果 AA 可以对角化为 A=QΛQ1A = Q\Lambda Q^{-1},那么:

eAt=QeΛtQ1=Qdiag(eλ1t,eλ2t,,eλnt)Q1e^{At} = Q \, e^{\Lambda t} \, Q^{-1} = Q \, \text{diag}(e^{\lambda_1 t}, e^{\lambda_2 t}, \ldots, e^{\lambda_n t}) \, Q^{-1}

这与 Pn=QΛnQ1P^n = Q\Lambda^n Q^{-1} 的结构完全类似——从离散步骤到连续时间,数学形式只是从 λn\lambda^n 变成了 eλte^{\lambda t}对角化的核心作用不变

当状态矩阵 AA 被约束为对角矩阵时(A=diag(a1,,an)A = \text{diag}(a_1, \ldots, a_n)),eAte^{At} 的计算变成逐元素的标量指数——这正是 SSM/Mamba(Art. 26)的关键加速策略。Part 1 中特征分解的”对角化简化一切”这个洞察,在 Part 3 中以最极端的形式回归。

总结与展望

本文建立了 Part 2 的概念框架:

  • 核心转变:矩阵从”数据容器”变为”过程编码器”——乘一次就是执行一步
  • 工具连续性:Part 1 的特征分解、SVD 等工具是通用的;算子矩阵的额外结构(行和为 1、半正定等)带来额外定理,但底层工具不变
  • 三族算子矩阵:随机矩阵(概率传播)、图结构矩阵(结构编码)、相似度矩阵(关系度量),分析方法统一为”看谱”
  • 概念地图:可观测/隐藏 × 离散/连续 的二维表格组织了时序算子的完整谱系
  • 两条子线:时序算子线(Markov → HMM → Kalman → SSM)和图/空间算子线(PageRank → 随机游走 → Kernel → Laplacian → GNN),在 PageRank 处交汇
  • 统一主题:算子的特征结构揭示系统行为

下一篇我们从最简单的算子开始:马尔可夫链。一个有限状态的系统,每一步按固定概率转移——转移矩阵 PP 的特征值告诉我们一切:系统是否收敛、收敛到哪里、多快到达。这是 Part 2 所有内容的基石。