回顾 Part 2 的两条子线:
本文是子线 B 的收官——把 Art. 17 连续系统与 Kalman 中的连续时间系统思想搬到 Art. 21 图 Laplacian 中的图 Laplacian 上。核心桥梁是一个经典方程:
∂t∂u=−Lu
这是图上的热方程(heat equation on a graph)。它的解是矩阵指数 u(t)=e−tLu(0)——与 Art. 17 中 x˙=Ax 的解 x(t)=eAtx(0) 完全同构,只是 A 换成了 −L。
为什么这在 ML 中重要?因为图神经网络(GNN)的消息传递就是一步图扩散。GCN(Kipf & Welling, 2017)的每一层本质上是让节点特征沿图的边”扩散”一步。理解扩散的数学,就能理解 GNN 为什么工作、何时过平滑、以及它与谱方法的关系。
从连续热方程到图上的热方程
连续空间的热方程
在经典物理中,一维热方程描述温度 u(x,t) 随时间和空间的变化:
∂t∂u=α∂x2∂2u
其中 α>0 是热扩散系数。直觉:如果某点的温度比邻居高,∂x2∂2u<0,温度随时间下降;反之上升。热量从高温区域流向低温区域,最终趋向均匀。
右边的 ∂x2∂2u 是二阶空间导数——连续的 Laplace 算子。
图上的热方程
在 Art. 21 图 Laplacian 中,我们建立了图 Laplacian L=D−A(A 是邻接矩阵,D 是度矩阵)。它对图上信号 f 的作用是:
(Lf)i=∑j:(i,j)∈E(fi−fj)
这正是连续 Laplace 算子 ∇2 的离散化——衡量节点值与邻居均值的偏差。
将连续热方程中的 ∇2 替换为图 Laplacian L,得到图上的热方程:
∂t∂u=−Lu
逐项理解:
- u(t)∈Rn:时刻 t 每个节点上的”热量”(或更一般地,任何标量信号)
- L∈Rn×n:图 Laplacian,编码了图的结构
- 负号:保证热量从高温流向低温。(Lu)i>0 意味着节点 i 的温度高于邻居——此时 ∂t∂ui<0,温度下降
为什么这里的符号是 −L 而 Art. 17 是 A? 因为图 Laplacian L 是半正定的(特征值 ≥0),要让系统稳定(热量衰减而非发散),需要让”有效系统矩阵”的特征值非正。在 Art. 17 中,A 的特征值 Re(λi)<0 保证稳定;这里 −L 的特征值 −λi≤0(因为 L 的特征值 λi≥0),同样保证稳定。
解:矩阵指数 e−tL
图热方程的解
图热方程 ∂t∂u=−Lu 与 Art. 17 的 x˙=Ax 在形式上完全相同(令 A=−L)。因此,解也完全相同:
u(t)=e−tLu(0)
其中 e−tL 是矩阵指数,定义为幂级数:
e−tL=∑k=0∞k!(−tL)k=I−tL+2!t2L2−3!t3L3+⋯
验证:对 u(t)=e−tLu(0) 关于 t 求导:dtde−tL=−L⋅e−tL,所以 u˙=−Lu。■
通过特征分解计算
图 Laplacian L 是实对称半正定矩阵(Art. 21 图 Laplacian),所以由谱定理(Art. 2 特征分解):
L=QΛQT,Λ=diag(λ1,λ2,…,λn)
其中 Q 是正交矩阵(QTQ=I),0=λ1≤λ2≤⋯≤λn 是 Laplacian 的特征值。
代入矩阵指数的对角化公式(Art. 17 中已推导):
e−tL=Qe−tΛQT=Qdiag(e−λ1t,e−λ2t,…,e−λnt)QT
因为 λ1=0,所以 e−λ1t=1;对于 λi>0,e−λit 随 t 单调衰减到 0。
物理含义:Laplacian 的每个特征向量 qi 对应图上的一种”振动模式”——λi 越大,模式越”高频”(节点间变化越剧烈)。扩散过程以速率 e−λit 衰减第 i 个模式,高频模式衰减最快。随着 t→∞:
e−tL→Qdiag(1,0,0,…,0)QT=q1q1T=n111T
(对于连通图,q1=n11。)
这意味着扩散的终态是均匀分布——每个节点的热量等于所有节点初始热量的平均值。这与连续热方程的行为完全一致:热量最终趋向均匀。
数值例子:三角形图
取最简单的连通图——三节点完全图(三角形)。
A=011101110,D=200020002,L=D−A=2−1−1−12−1−1−12
特征分解:L 的特征值为 λ1=0,λ2=λ3=3。
对 λ1=0:Lq1=0,解为 q1=31111。
对 λ2=3:(L−3I)q=0,即 −1−1−1−1−1−1−1−1−1q=0,解空间为 {[a,b,−(a+b)]T}。取正交基:
q2=211−10,q3=6111−2
热核:
e−tL=1⋅q1q1T+e−3tq2q2T+e−3tq3q3T
=31111111111+e−3t312−1−1−12−1−1−12
取 u(0)=100(节点 0 有全部热量):
u(t)=e−tLu(0)=31+32e−3t31−31e−3t31−31e−3t
验证几个时间点:
- t=0:u(0)=[1,0,0]T ✓(初始条件)
- t=0.1:e−0.3≈0.741,u≈[0.827,0.086,0.086]T(热量开始扩散)
- t=1:e−3≈0.050,u≈[0.367,0.317,0.317]T(接近均匀)
- t→∞:u→[31,31,31]T(均匀分布,总热量守恒为 1)
注意热量守恒:∑iui(t)=1Te−tLu(0)=1Tu(0)(因为 L1=0,即 1Te−tL=1T),总热量始终为 1。
可视化:图上的热扩散
下面的交互组件展示了一个 7 节点图上的热扩散过程。选择不同的初始热量分布,拖动时间滑块观察 u(t)=e−tLu(0) 如何演化。可以展开热核矩阵 e−tL 查看其数值。
图上的热扩散
u(t) = e^{-tL} u(0):热量从初始分布出发,沿边扩散到邻居
节点 0 拥有全部热量,观察热量如何扩散到整个图
t = 0.000
颜色深浅 = 热量大小。t = 0 时热量集中在初始节点,随 t 增大热量沿边扩散,最终趋向均匀分布。
探索建议:
- 单点热源:观察 t=0 时热量完全集中在 v0,然后逐渐扩散到邻居 v1,v2,再到更远的节点。t 足够大时,所有节点趋向 71。
- 双热源:v0 和 v6 分别位于图的两端。观察两股热浪如何从两端向中间扩散、交汇、最终均匀。
- 热核矩阵:展开 e−tL 面板。t=0 时它是单位矩阵 I;随着 t 增大,矩阵逐渐趋向 n111T(每个元素约 1/7)。对角元素从 1 下降,非对角元素从 0 上升——热量在”分享”。
热核:图上的高斯核
e−tL 作为核矩阵
矩阵 Ht=e−tL 被称为热核(heat kernel)或扩散核(diffusion kernel)(Kondor & Lafferty, 2002)。它有几个重要性质:
- 对称正定:因为 L 对称半正定,Ht=Qe−tΛQT 是对称的,且特征值 e−λit>0 全部为正,所以 Ht 是正定的
- 半群性质:e−t1L⋅e−t2L=e−(t1+t2)L——先扩散 t1 秒再扩散 t2 秒等于直接扩散 t1+t2 秒
- 行和为 1(对于连通图):e−tL1=1,因为 L1=0
- t 的效果:t 小时 Ht≈I−tL,只有直接邻居有显著影响;t 大时 Ht→n111T,图上所有节点都有影响
性质 1 意味着 Ht 可以直接用作核函数(kernel function)——这是图上的高斯核。在连续空间中,热方程的解是高斯核 G(x,y;t)=4πt1e−∣x−y∣2/4t;在图上,Ht 扮演同样的角色,用”图距离”取代了欧氏距离。
Inline Box:热核与图距离
热核 (Ht)ij 可以理解为”从节点 i 出发,经过时间 t 的扩散后,到达节点 j 的热量比例”。相邻节点之间 (Ht)ij 较大,远离的节点之间 (Ht)ij 较小——Ht 隐式编码了图上的扩散距离(diffusion distance)。
Coifman & Lafon (2006) 证明了这种扩散距离在流形学习中的理论基础:当图是从连续流形上采样时,图上的扩散核收敛到流形上的 Laplace-Beltrami 算子的热核。
t 的作用:从局部到全局
参数 t 控制扩散的”视野”:
| t 的值 | e−tL 的近似 | 物理含义 |
|---|
| t→0 | I−tL+O(t2) | 只看直接邻居(局部) |
| t 中等 | 数值计算 | 看 k 跳内的邻域(中观) |
| t→∞ | n111T | 看整个图(全局,均匀) |
这提供了一种自然的多尺度分析机制:通过调节 t,可以在不同的空间尺度上分析图信号。小 t 捕捉局部结构,大 t 捕捉全局结构。
GNN 消息传递 = 一步图扩散
从扩散到消息传递
将热核的一阶泰勒展开写出来:
e−tL≈I−tL=I−t(D−A)=(1−t)I+tA⋅D−1⋅D
对于小 t,一步扩散近似为 u(t)≈(I−tL)u(0)。将 L=D−A 代入:
u(t)≈u(0)−t(D−A)u(0)=u(0)+t(Au(0)−Du(0))
逐节点看:
ui(t)≈ui(0)+t(∑j:(i,j)∈Euj(0)−di⋅ui(0))=(1−tdi)ui(0)+t∑j∈N(i)uj(0)
这正是消息传递(message passing)的原型:节点 i 的新值 = 自身旧值的保留 + 邻居旧值的聚合。
GCN:归一化的一步扩散
Kipf & Welling (2017) 的图卷积网络(Graph Convolutional Network, GCN)定义了以下传播规则:
H(ℓ+1)=σ(D~−1/2A~D~−1/2H(ℓ)W(ℓ))
逐项拆解这个公式:
- H(ℓ)∈Rn×d:第 ℓ 层的节点特征矩阵,n 个节点、d 维特征
- A~=A+I:加入自环(self-loop)的邻接矩阵。加 I 确保每个节点在聚合时也包含自身
- D~:A~ 的度矩阵,D~ii=∑jA~ij
- D~−1/2A~D~−1/2:对称归一化的邻接矩阵——这正是 Art. 21 图 Laplacian 中归一化 Laplacian L~=I−D~−1/2A~D~−1/2 的”互补矩阵”
- W(ℓ)∈Rd×d′:可学习的权重矩阵(线性变换)
- σ:非线性激活函数(如 ReLU)
关键洞察:D~−1/2A~D~−1/2=I−L~sym。因此 GCN 的一层(去掉 W 和 σ)就是:
H(ℓ+1)=(I−L~sym)H(ℓ)
这与 e−tL≈I−tL(令 t=1)形式相同!GCN 的每一层就是一步图扩散。
下图从消息聚合和公式两个角度展示了这一等价关系:
GCN 的每一层 = 一步图扩散 + 线性变换 + 非线性
多层 GCN 与多步扩散
k 层 GCN(不加非线性和权重)等价于:
(I−L~sym)kH(0)=(D~−1/2A~D~−1/2)kH(0)
这是邻接矩阵的 k 次幂作用于特征——相当于信号经过了 k 步扩散。回忆 Art. 15 马尔可夫链中 Pk 的含义:k 步转移概率。多层 GCN 看到的是 k 跳邻域内的信息。
从谱的角度看,(I−L~sym)k 的特征值是 (1−λ~i)k。对于高频分量(λ~i 接近 2),(1−λ~i)k 随 k 交替振荡但幅度衰减;对于低频分量(λ~i 接近 0),(1−λ~i)k≈1。层数越多,信号越趋向低频——这就是 GNN 中广为人知的过平滑(over-smoothing)问题。
过平滑的数学解释:层数 k→∞ 时,所有节点的特征趋向相同(全局平均)——因为只有 λ1=0 对应的分量(常数向量)不衰减。这与热扩散 t→∞ 时趋向均匀分布的现象完全一致。
下图直观展示了过平滑的谱机制:不同 Laplacian 特征值对应的模式在多层 GCN 中以不同速率衰减——只有 λ1=0 的常数模式存活。
过平滑:多层 GCN 的频率衰减
(1−λᵢ)ᵏ 随层数 k 增加:低频保持,高频消亡 → 所有节点趋同
消息传递框架(MPNN)的一般形式
GCN 是更一般的消息传递神经网络(Message Passing Neural Network, MPNN)框架的一个特例。MPNN 的每一层包含三个操作:
mi(ℓ)=⨁j∈N(i)ϕ(hi(ℓ),hj(ℓ),eij)(消息聚合)
hi(ℓ+1)=ψ(hi(ℓ),mi(ℓ))(状态更新)
其中:
- hi(ℓ) 是节点 i 在第 ℓ 层的特征向量
- N(i) 是节点 i 的邻居集合
- ϕ 是消息函数——从邻居 j 向节点 i 发送的”消息”
- ⨁ 是聚合函数(如求和、均值、最大值)——将所有邻居的消息合并
- ψ 是更新函数——用聚合后的消息更新节点状态
- eij 是边的特征(可选)
对于 GCN,ϕ 和 ψ 的具体形式很简单:消息就是邻居的特征经过度归一化,聚合是求和,更新是加上线性变换和非线性。但这个框架足够通用,可以统一几乎所有空间域 GNN。
关键联系:消息传递的”聚合邻居”操作本质上是矩阵乘法 AH——邻接矩阵(或其归一化版本)乘以特征矩阵。这正是算子矩阵”乘一次 = 执行一步”的 Part 2 统一主题。
谱方法与空间方法的统一
ChebNet:多项式滤波器
Defferrard et al. (2016) 从谱图论的角度出发,定义了图上的谱卷积:
gθ⋆x=Qgθ(Λ)QTx
其中 gθ(Λ)=diag(gθ(λ1),…,gθ(λn)) 是对 Laplacian 特征值的逐元素函数——图上的频率响应。
问题:直接计算需要 Laplacian 的完整特征分解,O(n3) 太贵。ChebNet 的关键贡献是用 Chebyshev 多项式 Tk 近似 gθ:
gθ(λ)≈∑k=0K−1θkTk(λ~)
其中 λ~=λmax2λ−1 将特征值缩放到 [−1,1]。由于 Tk 是 k 次多项式,Tk(L) 可以通过 L 的 k 次幂计算——无需特征分解,复杂度降到 O(K∣E∣)(∣E∣ 是边数)。
从 ChebNet 到 GCN
Kipf & Welling (2017) 发现,令 K=1(只保留一阶近似)并做适当简化,ChebNet 退化为:
gθ⋆x≈θ0x+θ1(L−I)x=θ0x−θ1D−1/2AD−1/2x
进一步令 θ0=−θ1=θ(减少参数),得到:
gθ⋆x=θ(I+D−1/2AD−1/2)x
为了数值稳定性,用 A~=A+I 和 D~ 做重新归一化(renormalization trick):
gθ⋆x=θD~−1/2A~D~−1/2x
这正是 GCN 传播规则的核心——一阶 Chebyshev 近似 = 归一化邻接矩阵的一步乘法 = 一步图扩散。
| 方法 | 谱域 / 空间域 | 核心操作 | 复杂度 |
|---|
| 谱卷积(完整) | 谱域 | Qgθ(Λ)QTx | O(n3)(特征分解) |
| ChebNet | 谱域(多项式近似) | ∑kθkTk(L)x | O(K∥E∥) |
| GCN | 空间域(一步扩散) | D~−1/2A~D~−1/2x | O(∥E∥) |
统一视角:谱方法和空间方法不是两个对立的范式——GCN 就是谱卷积的一阶近似,而多层 GCN 隐式实现了多项式滤波器。Laplacian 的特征分解提供了理论分析框架,空间方法提供了高效的实现方式。
图扩散与 Diffusion Model 的联系
两种”扩散”
近年来最成功的生成模型之一是扩散模型(Diffusion Model),如 DDPM(Ho, Jain & Abbeel, 2020)。它的名字中也有”扩散”——那它与图扩散有什么关系?
| 图扩散 | 扩散模型(DDPM) |
|---|
| 空间 | 图(离散节点) | 连续数据空间 Rd |
| 扩散对象 | 节点上的标量/向量信号 | 数据点(图片、声音等) |
| 扩散机制 | 图 Laplacian 驱动 | 高斯噪声逐步添加 |
| 数学形式 | u(t)=e−tLu(0) | q(xt∣x0)=N(αˉtx0,(1−αˉt)I) |
| 终态 | 均匀分布 n11 | 标准高斯 N(0,I) |
| 核心共同点 | 从结构化 → 均匀/随机 | 从结构化 → 均匀/随机 |
共同的数学根源:两者都是从有结构的初始状态出发,通过某种”扩散”过程趋向无结构的平衡态。图扩散沿图的边传播热量直到均匀;DDPM 逐步添加噪声直到数据变成纯高斯噪声。
Score function 与梯度流
扩散模型的生成过程是反向扩散——从噪声出发,通过学习的 score function ∇xlogp(x) 逐步去噪。Score function 指向数据密度增大的方向,引导噪声”流”回结构化数据。
在图上,类似的概念是 Laplacian 作为梯度算子:(Lu)i=∑j(ui−uj) 指向”节点值比邻居高”的方向。热方程 u˙=−Lu 让信号沿负梯度方向流动——从高到低,趋向平衡。
深层联系:图扩散的正向过程(信号趋向均匀)和扩散模型的正向过程(数据趋向噪声)在结构上是同构的。扩散模型的反向过程(score function 驱动的去噪)可以类比为图上的”反热方程”——从均匀状态恢复原始信号。这种联系为图上的生成模型提供了理论基础。
需要强调:这里的联系是结构性类比,不是精确的数学等价。DDPM 的空间是连续的 Rd,使用的是标准高斯噪声而非图 Laplacian;图扩散的空间是离散图。但两者共享”正向扩散 → 平衡态 → 反向恢复”的基本范式。
Part 2 总结:从”传”的全貌回望
本文是 Part 2 “传——给定算子”的最后一篇。让我们回顾 Part 2 的完整弧线(Art. 14–22),看看同一套数学工具如何贯穿看似不同的领域。
两条子线的汇总
子线 A:时序算子(从离散到连续)
| 文章 | 核心矩阵 | 核心操作 | 关键结果 |
|---|
| Art. 15 马尔可夫链 | 转移矩阵 P | πP | 稳态分布 = λ=1 的特征向量 |
| Art. 16 HMM | P + 发射 B | Forward/Viterbi | 预测-修正范式 |
| Art. 17 连续系统 & Kalman | 状态矩阵 A | eAt | 矩阵指数、离散化 (A,B,C,D) |
子线 B:图/空间算子(从概率到结构到学习)
| 文章 | 核心矩阵 | 核心操作 | 关键结果 |
|---|
| Art. 18 PageRank | 修改的 P | 幂迭代 | 稳态 = 重要性排名 |
| Art. 19 随机游走 | 图上的 P | 序列采样 | DeepWalk/Node2Vec 嵌入 |
| Art. 20 Kernel | Kernel 矩阵 K | Kf 平滑 | 非线性映射 + 核技巧 |
| Art. 21 图 Laplacian | L=D−A | Lf 差异度量 | 谱聚类 = 特征向量嵌入 |
| Art. 22 本文 | e−tL | 扩散 | GNN 消息传递 = 一步扩散 |
贯穿的统一主题
-
特征分解是万能钥匙:Pn=QΛnQ−1 分析离散迭代(Art. 15),eAt=QeΛtQ−1 分析连续演化(Art. 17),e−tL=Qe−tΛQT 分析图扩散(本文)——公式形式统一,都是 Art. 2 特征分解的直接应用
-
“乘一次 = 执行一步”:转移矩阵 P 乘一次 = 一步随机游走,邻接矩阵 A 乘一次 = 一步消息传递,Kernel 矩阵 K 乘一次 = 一步平滑。矩阵不是数据容器,而是执行过程的机器
-
谱隙决定行为:马尔可夫链的混合时间由 ∣λ2∣ 决定(Art. 15),图的连通性由 λ2(L) 决定(Art. 21),GNN 的过平滑由 Laplacian 特征值间距决定(本文)
从 Part 2 到 Part 3
Part 2 中所有的算子矩阵——转移矩阵 P、图 Laplacian L、Kernel K——都是给定的。它们由物理系统、图结构或核函数定义,数学家和工程师根据领域知识手工设计。
Part 3 “汇——学习算子”将发生根本转变:矩阵不再由领域知识给定,而是从数据中学习。
- GCN 的传播矩阵 D~−1/2A~D~−1/2 是给定的,但权重矩阵 W(ℓ) 是学习的——这恰好是 Part 2 和 Part 3 的分界线
- SSM/Mamba 的状态矩阵 A 从物理给定(Kalman,Art. 17)变成可学习参数(Art. 26)
- LoRA(Art. 24)发现预训练权重矩阵 W 的增量 ΔW 是低秩的——Part 1 的 SVD 洞察在 Part 3 的语境下复活
下一篇——Art. 23 学习算子概述将建立 Part 3 的概念框架:当矩阵从”给定”变为”学习”,哪些新问题出现?Part 1 和 Part 2 的工具如何在这个新语境下继续发挥作用?