图扩散、热核与 GNN 消息传递：从热方程到图神经网络

回顾 Part 2 的两条子线：

时序算子子线 A：马尔可夫链 → HMM → 连续系统 & Kalman（Art. 17 连续系统与 Kalman）
图/空间算子子线 B：PageRank → 随机游走 → Kernel → 图 Laplacian（Art. 21 图 Laplacian）

本文是子线 B 的收官——把 Art. 17 连续系统与 Kalman 中的连续时间系统思想搬到 Art. 21 图 Laplacian 中的图 Laplacian 上。核心桥梁是一个经典方程：

$\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u}$

这是图上的热方程（heat equation on a graph）。它的解是矩阵指数 $\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)$ ——与 Art. 17 中 $\dot{\mathbf{x}} = A\mathbf{x}$ 的解 $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$ 完全同构，只是 $A$ 换成了 $-L$ 。

为什么这在 ML 中重要？因为图神经网络（GNN）的消息传递就是一步图扩散。GCN（Kipf & Welling, 2017）的每一层本质上是让节点特征沿图的边”扩散”一步。理解扩散的数学，就能理解 GNN 为什么工作、何时过平滑、以及它与谱方法的关系。

从连续热方程到图上的热方程

连续空间的热方程

在经典物理中，一维热方程描述温度 $u(x, t)$ 随时间和空间的变化：

$\frac{\partial u}{\partial t} = \alpha \frac{\partial^2 u}{\partial x^2}$

其中 $\alpha > 0$ 是热扩散系数。直觉：如果某点的温度比邻居高， $\frac{\partial^2 u}{\partial x^2} < 0$ ，温度随时间下降；反之上升。热量从高温区域流向低温区域，最终趋向均匀。

右边的 $\frac{\partial^2 u}{\partial x^2}$ 是二阶空间导数——连续的 Laplace 算子。

图上的热方程

在 Art. 21 图 Laplacian 中，我们建立了图 Laplacian $L = D - A$ （ $A$ 是邻接矩阵， $D$ 是度矩阵）。它对图上信号 $\mathbf{f}$ 的作用是：

$(L\mathbf{f})_i = \sum_{j: (i,j) \in E} (f_i - f_j)$

这正是连续 Laplace 算子 $\nabla^2$ 的离散化——衡量节点值与邻居均值的偏差。

将连续热方程中的 $\nabla^2$ 替换为图 Laplacian $L$ ，得到图上的热方程：

$\boxed{\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u}}$

逐项理解：

$\mathbf{u}(t) \in \mathbb{R}^n$ ：时刻 $t$ 每个节点上的”热量”（或更一般地，任何标量信号）
$L \in \mathbb{R}^{n \times n}$ ：图 Laplacian，编码了图的结构
负号：保证热量从高温流向低温。 $(L\mathbf{u})_i > 0$ 意味着节点 $i$ 的温度高于邻居——此时 $\frac{\partial u_i}{\partial t} < 0$ ，温度下降

为什么这里的符号是 $-L$ 而 Art. 17 是 $A$ ？ 因为图 Laplacian $L$ 是半正定的（特征值 $\geq 0$ ），要让系统稳定（热量衰减而非发散），需要让”有效系统矩阵”的特征值非正。在 Art. 17 中， $A$ 的特征值 $\text{Re}(\lambda_i) < 0$ 保证稳定；这里 $-L$ 的特征值 $-\lambda_i \leq 0$ （因为 $L$ 的特征值 $\lambda_i \geq 0$ ），同样保证稳定。

解：矩阵指数 $e^{-tL}$

图热方程的解

图热方程 $\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u}$ 与 Art. 17 的 $\dot{\mathbf{x}} = A\mathbf{x}$ 在形式上完全相同（令 $A = -L$ ）。因此，解也完全相同：

$\boxed{\mathbf{u}(t) = e^{-tL}\, \mathbf{u}(0)}$

其中 $e^{-tL}$ 是矩阵指数，定义为幂级数：

$e^{-tL} = \sum_{k=0}^{\infty} \frac{(-tL)^k}{k!} = I - tL + \frac{t^2 L^2}{2!} - \frac{t^3 L^3}{3!} + \cdots$

验证：对 $\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)$ 关于 $t$ 求导： $\frac{d}{dt}e^{-tL} = -L \cdot e^{-tL}$ ，所以 $\dot{\mathbf{u}} = -L\mathbf{u}$ 。 $\blacksquare$

通过特征分解计算

图 Laplacian $L$ 是实对称半正定矩阵（Art. 21 图 Laplacian），所以由谱定理（Art. 2 特征分解）：

$L = Q\Lambda Q^T, \quad \Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$

其中 $Q$ 是正交矩阵（ $Q^T Q = I$ ）， $0 = \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n$ 是 Laplacian 的特征值。

代入矩阵指数的对角化公式（Art. 17 中已推导）：

$e^{-tL} = Q\, e^{-t\Lambda}\, Q^T = Q\, \text{diag}(e^{-\lambda_1 t}, e^{-\lambda_2 t}, \ldots, e^{-\lambda_n t})\, Q^T$

因为 $\lambda_1 = 0$ ，所以 $e^{-\lambda_1 t} = 1$ ；对于 $\lambda_i > 0$ ， $e^{-\lambda_i t}$ 随 $t$ 单调衰减到 0。

物理含义：Laplacian 的每个特征向量 $\mathbf{q}_i$ 对应图上的一种”振动模式”—— $\lambda_i$ 越大，模式越”高频”（节点间变化越剧烈）。扩散过程以速率 $e^{-\lambda_i t}$ 衰减第 $i$ 个模式，高频模式衰减最快。随着 $t \to \infty$ ：

$e^{-tL} \to Q\,\text{diag}(1, 0, 0, \ldots, 0)\, Q^T = \mathbf{q}_1 \mathbf{q}_1^T = \frac{1}{n}\mathbf{1}\mathbf{1}^T$

（对于连通图， $\mathbf{q}_1 = \frac{1}{\sqrt{n}}\mathbf{1}$ 。）

这意味着扩散的终态是均匀分布——每个节点的热量等于所有节点初始热量的平均值。这与连续热方程的行为完全一致：热量最终趋向均匀。

数值例子：三角形图

取最简单的连通图——三节点完全图（三角形）。

$A = \begin{bmatrix}0 & 1 & 1\\1 & 0 & 1\\1 & 1 & 0\end{bmatrix}, \quad D = \begin{bmatrix}2 & 0 & 0\\0 & 2 & 0\\0 & 0 & 2\end{bmatrix}, \quad L = D - A = \begin{bmatrix}2 & -1 & -1\\-1 & 2 & -1\\-1 & -1 & 2\end{bmatrix}$

特征分解： $L$ 的特征值为 $\lambda_1 = 0, \lambda_2 = \lambda_3 = 3$ 。

对 $\lambda_1 = 0$ ： $L\mathbf{q}_1 = \mathbf{0}$ ，解为 $\mathbf{q}_1 = \frac{1}{\sqrt{3}}\begin{bmatrix}1\\1\\1\end{bmatrix}$ 。

对 $\lambda_2 = 3$ ： $(L - 3I)\mathbf{q} = \mathbf{0}$ ，即 $\begin{bmatrix}-1&-1&-1\\-1&-1&-1\\-1&-1&-1\end{bmatrix}\mathbf{q} = \mathbf{0}$ ，解空间为 $\{[a, b, -(a+b)]^T\}$ 。取正交基：

$\mathbf{q}_2 = \frac{1}{\sqrt{2}}\begin{bmatrix}1\\-1\\0\end{bmatrix}, \quad \mathbf{q}_3 = \frac{1}{\sqrt{6}}\begin{bmatrix}1\\1\\-2\end{bmatrix}$

热核：

$e^{-tL} = 1 \cdot \mathbf{q}_1\mathbf{q}_1^T + e^{-3t}\mathbf{q}_2\mathbf{q}_2^T + e^{-3t}\mathbf{q}_3\mathbf{q}_3^T$

$= \frac{1}{3}\begin{bmatrix}1&1&1\\1&1&1\\1&1&1\end{bmatrix} + e^{-3t}\left(\frac{1}{3}\begin{bmatrix}2&-1&-1\\-1&2&-1\\-1&-1&2\end{bmatrix}\right)$

取 $\mathbf{u}(0) = \begin{bmatrix}1\\0\\0\end{bmatrix}$ （节点 0 有全部热量）：

$\mathbf{u}(t) = e^{-tL}\mathbf{u}(0) = \begin{bmatrix}\frac{1}{3} + \frac{2}{3}e^{-3t}\\ \frac{1}{3} - \frac{1}{3}e^{-3t}\\ \frac{1}{3} - \frac{1}{3}e^{-3t}\end{bmatrix}$

验证几个时间点：

$t = 0$ ： $\mathbf{u}(0) = [1, 0, 0]^T$ ✓（初始条件）
$t = 0.1$ ： $e^{-0.3} \approx 0.741$ ， $\mathbf{u} \approx [0.827, 0.086, 0.086]^T$ （热量开始扩散）
$t = 1$ ： $e^{-3} \approx 0.050$ ， $\mathbf{u} \approx [0.367, 0.317, 0.317]^T$ （接近均匀）
$t \to \infty$ ： $\mathbf{u} \to [\frac{1}{3}, \frac{1}{3}, \frac{1}{3}]^T$ （均匀分布，总热量守恒为 1）

注意热量守恒： $\sum_i u_i(t) = \mathbf{1}^T e^{-tL}\mathbf{u}(0) = \mathbf{1}^T \mathbf{u}(0)$ （因为 $L\mathbf{1} = \mathbf{0}$ ，即 $\mathbf{1}^T e^{-tL} = \mathbf{1}^T$ ），总热量始终为 1。

可视化：图上的热扩散

下面的交互组件展示了一个 7 节点图上的热扩散过程。选择不同的初始热量分布，拖动时间滑块观察 $\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)$ 如何演化。可以展开热核矩阵 $e^{-tL}$ 查看其数值。

图上的热扩散

u(t) = e^{-tL} u(0)：热量从初始分布出发，沿边扩散到邻居

节点 0 拥有全部热量，观察热量如何扩散到整个图

t = 0.000

各时刻热量分布快照

t=0

t=0.05

t=0.1

t=0.2

t=0.5

t=1

颜色深浅 = 热量大小。t = 0 时热量集中在初始节点，随 t 增大热量沿边扩散，最终趋向均匀分布。

探索建议：

单点热源：观察 $t = 0$ 时热量完全集中在 $v_0$ ，然后逐渐扩散到邻居 $v_1, v_2$ ，再到更远的节点。 $t$ 足够大时，所有节点趋向 $\frac{1}{7}$ 。
双热源： $v_0$ 和 $v_6$ 分别位于图的两端。观察两股热浪如何从两端向中间扩散、交汇、最终均匀。
热核矩阵：展开 $e^{-tL}$ 面板。 $t = 0$ 时它是单位矩阵 $I$ ；随着 $t$ 增大，矩阵逐渐趋向 $\frac{1}{n}\mathbf{1}\mathbf{1}^T$ （每个元素约 $1/7$ ）。对角元素从 1 下降，非对角元素从 0 上升——热量在”分享”。

热核：图上的高斯核

$e^{-tL}$ 作为核矩阵

矩阵 $H_t = e^{-tL}$ 被称为热核（heat kernel）或扩散核（diffusion kernel）（Kondor & Lafferty, 2002）。它有几个重要性质：

对称正定：因为 $L$ 对称半正定， $H_t = Qe^{-t\Lambda}Q^T$ 是对称的，且特征值 $e^{-\lambda_i t} > 0$ 全部为正，所以 $H_t$ 是正定的
半群性质： $e^{-t_1 L} \cdot e^{-t_2 L} = e^{-(t_1 + t_2)L}$ ——先扩散 $t_1$ 秒再扩散 $t_2$ 秒等于直接扩散 $t_1 + t_2$ 秒
行和为 1（对于连通图）： $e^{-tL}\mathbf{1} = \mathbf{1}$ ，因为 $L\mathbf{1} = \mathbf{0}$
$t$ 的效果： $t$ 小时 $H_t \approx I - tL$ ，只有直接邻居有显著影响； $t$ 大时 $H_t \to \frac{1}{n}\mathbf{1}\mathbf{1}^T$ ，图上所有节点都有影响

性质 1 意味着 $H_t$ 可以直接用作核函数（kernel function）——这是图上的高斯核。在连续空间中，热方程的解是高斯核 $G(x, y; t) = \frac{1}{\sqrt{4\pi t}}e^{-|x-y|^2/4t}$ ；在图上， $H_t$ 扮演同样的角色，用”图距离”取代了欧氏距离。

Inline Box：热核与图距离

热核 $(H_t)_{ij}$ 可以理解为”从节点 $i$ 出发，经过时间 $t$ 的扩散后，到达节点 $j$ 的热量比例”。相邻节点之间 $(H_t)_{ij}$ 较大，远离的节点之间 $(H_t)_{ij}$ 较小—— $H_t$ 隐式编码了图上的扩散距离（diffusion distance）。

Coifman & Lafon (2006) 证明了这种扩散距离在流形学习中的理论基础：当图是从连续流形上采样时，图上的扩散核收敛到流形上的 Laplace-Beltrami 算子的热核。

$t$ 的作用：从局部到全局

参数 $t$ 控制扩散的”视野”：

$t$ 的值	$e^{-tL}$ 的近似	物理含义
$t \to 0$	$I - tL + O(t^2)$	只看直接邻居（局部）
$t$ 中等	数值计算	看 $k$ 跳内的邻域（中观）
$t \to \infty$	$\frac{1}{n}\mathbf{1}\mathbf{1}^T$	看整个图（全局，均匀）

这提供了一种自然的多尺度分析机制：通过调节 $t$ ，可以在不同的空间尺度上分析图信号。小 $t$ 捕捉局部结构，大 $t$ 捕捉全局结构。

GNN 消息传递 = 一步图扩散

从扩散到消息传递

将热核的一阶泰勒展开写出来：

$e^{-tL} \approx I - tL = I - t(D - A) = (1 - t)I + tA \cdot D^{-1} \cdot D$

对于小 $t$ ，一步扩散近似为 $\mathbf{u}(t) \approx (I - tL)\mathbf{u}(0)$ 。将 $L = D - A$ 代入：

$\mathbf{u}(t) \approx \mathbf{u}(0) - t(D - A)\mathbf{u}(0) = \mathbf{u}(0) + t(A\mathbf{u}(0) - D\mathbf{u}(0))$

逐节点看：

$u_i(t) \approx u_i(0) + t\left(\sum_{j: (i,j) \in E} u_j(0) - d_i \cdot u_i(0)\right) = (1 - td_i)u_i(0) + t\sum_{j \in \mathcal{N}(i)} u_j(0)$

这正是消息传递（message passing）的原型：节点 $i$ 的新值 = 自身旧值的保留 + 邻居旧值的聚合。

GCN：归一化的一步扩散

Kipf & Welling (2017) 的图卷积网络（Graph Convolutional Network, GCN）定义了以下传播规则：

$H^{(\ell+1)} = \sigma\!\left(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} H^{(\ell)} W^{(\ell)}\right)$

逐项拆解这个公式：

$H^{(\ell)} \in \mathbb{R}^{n \times d}$ ：第 $\ell$ 层的节点特征矩阵， $n$ 个节点、 $d$ 维特征
$\tilde{A} = A + I$ ：加入自环（self-loop）的邻接矩阵。加 $I$ 确保每个节点在聚合时也包含自身
$\tilde{D}$ ： $\tilde{A}$ 的度矩阵， $\tilde{D}_{ii} = \sum_j \tilde{A}_{ij}$
$\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}$ ：对称归一化的邻接矩阵——这正是 Art. 21 图 Laplacian 中归一化 Laplacian $\tilde{L} = I - \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}$ 的”互补矩阵”
$W^{(\ell)} \in \mathbb{R}^{d \times d'}$ ：可学习的权重矩阵（线性变换）
$\sigma$ ：非线性激活函数（如 ReLU）

关键洞察： $\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} = I - \tilde{L}_{\text{sym}}$ 。因此 GCN 的一层（去掉 $W$ 和 $\sigma$ ）就是：

$H^{(\ell+1)} = (I - \tilde{L}_{\text{sym}})H^{(\ell)}$

这与 $e^{-tL} \approx I - tL$ （令 $t = 1$ ）形式相同！GCN 的每一层就是一步图扩散。

下图从消息聚合和公式两个角度展示了这一等价关系：

GCN 的每一层 = 一步图扩散 + 线性变换 + 非线性

多层 GCN 与多步扩散

$k$ 层 GCN（不加非线性和权重）等价于：

$(I - \tilde{L}_{\text{sym}})^k H^{(0)} = (\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2})^k H^{(0)}$

这是邻接矩阵的 $k$ 次幂作用于特征——相当于信号经过了 $k$ 步扩散。回忆 Art. 15 马尔可夫链中 $P^k$ 的含义： $k$ 步转移概率。多层 GCN 看到的是 $k$ 跳邻域内的信息。

从谱的角度看， $(I - \tilde{L}_{\text{sym}})^k$ 的特征值是 $(1 - \tilde{\lambda}_i)^k$ 。对于高频分量（ $\tilde{\lambda}_i$ 接近 2）， $(1 - \tilde{\lambda}_i)^k$ 随 $k$ 交替振荡但幅度衰减；对于低频分量（ $\tilde{\lambda}_i$ 接近 0）， $(1 - \tilde{\lambda}_i)^k \approx 1$ 。层数越多，信号越趋向低频——这就是 GNN 中广为人知的过平滑（over-smoothing）问题。

过平滑的数学解释：层数 $k \to \infty$ 时，所有节点的特征趋向相同（全局平均）——因为只有 $\lambda_1 = 0$ 对应的分量（常数向量）不衰减。这与热扩散 $t \to \infty$ 时趋向均匀分布的现象完全一致。

下图直观展示了过平滑的谱机制：不同 Laplacian 特征值对应的模式在多层 GCN 中以不同速率衰减——只有 $\lambda_1 = 0$ 的常数模式存活。

过平滑：多层 GCN 的频率衰减

(1−λᵢ)ᵏ 随层数 k 增加：低频保持，高频消亡 → 所有节点趋同

消息传递框架（MPNN）的一般形式

GCN 是更一般的消息传递神经网络（Message Passing Neural Network, MPNN）框架的一个特例。MPNN 的每一层包含三个操作：

$m_i^{(\ell)} = \bigoplus_{j \in \mathcal{N}(i)} \phi\!\left(h_i^{(\ell)}, h_j^{(\ell)}, e_{ij}\right) \qquad \text{（消息聚合）}$

$h_i^{(\ell+1)} = \psi\!\left(h_i^{(\ell)}, m_i^{(\ell)}\right) \qquad \text{（状态更新）}$

其中：

$h_i^{(\ell)}$ 是节点 $i$ 在第 $\ell$ 层的特征向量
$\mathcal{N}(i)$ 是节点 $i$ 的邻居集合
$\phi$ 是消息函数——从邻居 $j$ 向节点 $i$ 发送的”消息”
$\bigoplus$ 是聚合函数（如求和、均值、最大值）——将所有邻居的消息合并
$\psi$ 是更新函数——用聚合后的消息更新节点状态
$e_{ij}$ 是边的特征（可选）

对于 GCN， $\phi$ 和 $\psi$ 的具体形式很简单：消息就是邻居的特征经过度归一化，聚合是求和，更新是加上线性变换和非线性。但这个框架足够通用，可以统一几乎所有空间域 GNN。

关键联系：消息传递的”聚合邻居”操作本质上是矩阵乘法 $AH$ ——邻接矩阵（或其归一化版本）乘以特征矩阵。这正是算子矩阵”乘一次 = 执行一步”的 Part 2 统一主题。

谱方法与空间方法的统一

ChebNet：多项式滤波器

Defferrard et al. (2016) 从谱图论的角度出发，定义了图上的谱卷积：

$g_\theta \star \mathbf{x} = Q\, g_\theta(\Lambda)\, Q^T \mathbf{x}$

其中 $g_\theta(\Lambda) = \text{diag}(g_\theta(\lambda_1), \ldots, g_\theta(\lambda_n))$ 是对 Laplacian 特征值的逐元素函数——图上的频率响应。

问题：直接计算需要 Laplacian 的完整特征分解， $O(n^3)$ 太贵。ChebNet 的关键贡献是用 Chebyshev 多项式 $T_k$ 近似 $g_\theta$ ：

$g_\theta(\lambda) \approx \sum_{k=0}^{K-1} \theta_k\, T_k(\tilde{\lambda})$

其中 $\tilde{\lambda} = \frac{2\lambda}{\lambda_{\max}} - 1$ 将特征值缩放到 $[-1, 1]$ 。由于 $T_k$ 是 $k$ 次多项式， $T_k(L)$ 可以通过 $L$ 的 $k$ 次幂计算——无需特征分解，复杂度降到 $O(K|E|)$ （ $|E|$ 是边数）。

从 ChebNet 到 GCN

Kipf & Welling (2017) 发现，令 $K = 1$ （只保留一阶近似）并做适当简化，ChebNet 退化为：

$g_\theta \star \mathbf{x} \approx \theta_0 \mathbf{x} + \theta_1 (L - I)\mathbf{x} = \theta_0 \mathbf{x} - \theta_1 D^{-1/2}AD^{-1/2}\mathbf{x}$

进一步令 $\theta_0 = -\theta_1 = \theta$ （减少参数），得到：

$g_\theta \star \mathbf{x} = \theta(I + D^{-1/2}AD^{-1/2})\mathbf{x}$

为了数值稳定性，用 $\tilde{A} = A + I$ 和 $\tilde{D}$ 做重新归一化（renormalization trick）：

$g_\theta \star \mathbf{x} = \theta\, \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\, \mathbf{x}$

这正是 GCN 传播规则的核心——一阶 Chebyshev 近似 = 归一化邻接矩阵的一步乘法 = 一步图扩散。

方法	谱域 / 空间域	核心操作	复杂度
谱卷积（完整）	谱域	$Qg_\theta(\Lambda)Q^T\mathbf{x}$	$O(n^3)$ （特征分解）
ChebNet	谱域（多项式近似）	$\sum_k \theta_k T_k(L)\mathbf{x}$	$O(K\\|E\\|)$
GCN	空间域（一步扩散）	$\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\mathbf{x}$	$O(\\|E\\|)$

统一视角：谱方法和空间方法不是两个对立的范式——GCN 就是谱卷积的一阶近似，而多层 GCN 隐式实现了多项式滤波器。Laplacian 的特征分解提供了理论分析框架，空间方法提供了高效的实现方式。

图扩散与 Diffusion Model 的联系

两种”扩散”

近年来最成功的生成模型之一是扩散模型（Diffusion Model），如 DDPM（Ho, Jain & Abbeel, 2020）。它的名字中也有”扩散”——那它与图扩散有什么关系？

	图扩散	扩散模型（DDPM）
空间	图（离散节点）	连续数据空间 $\mathbb{R}^d$
扩散对象	节点上的标量/向量信号	数据点（图片、声音等）
扩散机制	图 Laplacian 驱动	高斯噪声逐步添加
数学形式	$\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)$	$q(\mathbf{x}_t \mid \mathbf{x}_0) = \mathcal{N}(\sqrt{\bar\alpha_t}\mathbf{x}_0, (1-\bar\alpha_t)I)$
终态	均匀分布 $\frac{1}{n}\mathbf{1}$	标准高斯 $\mathcal{N}(0, I)$
核心共同点	从结构化 → 均匀/随机	从结构化 → 均匀/随机

共同的数学根源：两者都是从有结构的初始状态出发，通过某种”扩散”过程趋向无结构的平衡态。图扩散沿图的边传播热量直到均匀；DDPM 逐步添加噪声直到数据变成纯高斯噪声。

Score function 与梯度流

扩散模型的生成过程是反向扩散——从噪声出发，通过学习的 score function $\nabla_\mathbf{x} \log p(\mathbf{x})$ 逐步去噪。Score function 指向数据密度增大的方向，引导噪声”流”回结构化数据。

在图上，类似的概念是 Laplacian 作为梯度算子： $(L\mathbf{u})_i = \sum_j (u_i - u_j)$ 指向”节点值比邻居高”的方向。热方程 $\dot{\mathbf{u}} = -L\mathbf{u}$ 让信号沿负梯度方向流动——从高到低，趋向平衡。

深层联系：图扩散的正向过程（信号趋向均匀）和扩散模型的正向过程（数据趋向噪声）在结构上是同构的。扩散模型的反向过程（score function 驱动的去噪）可以类比为图上的”反热方程”——从均匀状态恢复原始信号。这种联系为图上的生成模型提供了理论基础。

需要强调：这里的联系是结构性类比，不是精确的数学等价。DDPM 的空间是连续的 $\mathbb{R}^d$ ，使用的是标准高斯噪声而非图 Laplacian；图扩散的空间是离散图。但两者共享”正向扩散 → 平衡态 → 反向恢复”的基本范式。

Part 2 总结：从”传”的全貌回望

本文是 Part 2 “传——给定算子”的最后一篇。让我们回顾 Part 2 的完整弧线（Art. 14–22），看看同一套数学工具如何贯穿看似不同的领域。

两条子线的汇总

子线 A：时序算子（从离散到连续）

文章	核心矩阵	核心操作	关键结果
Art. 15 马尔可夫链	转移矩阵 $P$	$\boldsymbol{\pi}P$	稳态分布 = $\lambda = 1$ 的特征向量
Art. 16 HMM	$P$ + 发射 $B$	Forward/Viterbi	预测-修正范式
Art. 17 连续系统 & Kalman	状态矩阵 $A$	$e^{At}$	矩阵指数、离散化 $(A,B,C,D)$

子线 B：图/空间算子（从概率到结构到学习）

文章	核心矩阵	核心操作	关键结果
Art. 18 PageRank	修改的 $P$	幂迭代	稳态 = 重要性排名
Art. 19 随机游走	图上的 $P$	序列采样	DeepWalk/Node2Vec 嵌入
Art. 20 Kernel	Kernel 矩阵 $K$	$K\mathbf{f}$ 平滑	非线性映射 + 核技巧
Art. 21 图 Laplacian	$L = D - A$	$L\mathbf{f}$ 差异度量	谱聚类 = 特征向量嵌入
Art. 22 本文	$e^{-tL}$	扩散	GNN 消息传递 = 一步扩散

贯穿的统一主题

特征分解是万能钥匙： $P^n = Q\Lambda^n Q^{-1}$ 分析离散迭代（Art. 15）， $e^{At} = Qe^{\Lambda t}Q^{-1}$ 分析连续演化（Art. 17）， $e^{-tL} = Qe^{-t\Lambda}Q^T$ 分析图扩散（本文）——公式形式统一，都是 Art. 2 特征分解的直接应用
“乘一次 = 执行一步”：转移矩阵 $P$ 乘一次 = 一步随机游走，邻接矩阵 $A$ 乘一次 = 一步消息传递，Kernel 矩阵 $K$ 乘一次 = 一步平滑。矩阵不是数据容器，而是执行过程的机器
谱隙决定行为：马尔可夫链的混合时间由 $|\lambda_2|$ 决定（Art. 15），图的连通性由 $\lambda_2(L)$ 决定（Art. 21），GNN 的过平滑由 Laplacian 特征值间距决定（本文）

从 Part 2 到 Part 3

Part 2 中所有的算子矩阵——转移矩阵 $P$ 、图 Laplacian $L$ 、Kernel $K$ ——都是给定的。它们由物理系统、图结构或核函数定义，数学家和工程师根据领域知识手工设计。

Part 3 “汇——学习算子”将发生根本转变：矩阵不再由领域知识给定，而是从数据中学习。

GCN 的传播矩阵 $\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}$ 是给定的，但权重矩阵 $W^{(\ell)}$ 是学习的——这恰好是 Part 2 和 Part 3 的分界线
SSM/Mamba 的状态矩阵 $A$ 从物理给定（Kalman，Art. 17）变成可学习参数（Art. 26）
LoRA（Art. 24）发现预训练权重矩阵 $W$ 的增量 $\Delta W$ 是低秩的——Part 1 的 SVD 洞察在 Part 3 的语境下复活

下一篇——Art. 23 学习算子概述将建立 Part 3 的概念框架：当矩阵从”给定”变为”学习”，哪些新问题出现？Part 1 和 Part 2 的工具如何在这个新语境下继续发挥作用？