本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

图扩散、热核与 GNN 消息传递:从热方程到图神经网络

图扩散、热核与 GNN 消息传递:从热方程到图神经网络

更新于 2026-04-23

回顾 Part 2 的两条子线:

本文是子线 B 的收官——把 Art. 17 连续系统与 Kalman 中的连续时间系统思想搬到 Art. 21 图 Laplacian 中的图 Laplacian 上。核心桥梁是一个经典方程:

ut=Lu\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u}

这是图上的热方程(heat equation on a graph)。它的解是矩阵指数 u(t)=etLu(0)\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)——与 Art. 17 中 x˙=Ax\dot{\mathbf{x}} = A\mathbf{x} 的解 x(t)=eAtx(0)\mathbf{x}(t) = e^{At}\mathbf{x}(0) 完全同构,只是 AA 换成了 L-L

为什么这在 ML 中重要?因为图神经网络(GNN)的消息传递就是一步图扩散。GCN(Kipf & Welling, 2017)的每一层本质上是让节点特征沿图的边”扩散”一步。理解扩散的数学,就能理解 GNN 为什么工作、何时过平滑、以及它与谱方法的关系。

从连续热方程到图上的热方程

从连续空间到离散图:热方程的类比连续空间∂u/∂t = α · ∂²u/∂x²∂²/∂x² = 连续 Laplace 算子离散化∇² → L = D − A离散图∂u/∂t = −LuL = 图 Laplacian(Art. 21)共同行为:热量从高温 → 低温流动,最终趋向均匀分布(解 = 矩阵指数 e⁻ᵗᴸ)

连续空间的热方程

在经典物理中,一维热方程描述温度 u(x,t)u(x, t) 随时间和空间的变化:

ut=α2ux2\frac{\partial u}{\partial t} = \alpha \frac{\partial^2 u}{\partial x^2}

其中 α>0\alpha > 0 是热扩散系数。直觉:如果某点的温度比邻居高,2ux2<0\frac{\partial^2 u}{\partial x^2} < 0,温度随时间下降;反之上升。热量从高温区域流向低温区域,最终趋向均匀。

右边的 2ux2\frac{\partial^2 u}{\partial x^2} 是二阶空间导数——连续的 Laplace 算子。

图上的热方程

Art. 21 图 Laplacian 中,我们建立了图 Laplacian L=DAL = D - AAA 是邻接矩阵,DD 是度矩阵)。它对图上信号 f\mathbf{f} 的作用是:

(Lf)i=j:(i,j)E(fifj)(L\mathbf{f})_i = \sum_{j: (i,j) \in E} (f_i - f_j)

这正是连续 Laplace 算子 2\nabla^2离散化——衡量节点值与邻居均值的偏差。

将连续热方程中的 2\nabla^2 替换为图 Laplacian LL,得到图上的热方程

ut=Lu\boxed{\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u}}

逐项理解:

  • u(t)Rn\mathbf{u}(t) \in \mathbb{R}^n:时刻 tt 每个节点上的”热量”(或更一般地,任何标量信号)
  • LRn×nL \in \mathbb{R}^{n \times n}:图 Laplacian,编码了图的结构
  • 负号:保证热量从高温流向低温。(Lu)i>0(L\mathbf{u})_i > 0 意味着节点 ii 的温度高于邻居——此时 uit<0\frac{\partial u_i}{\partial t} < 0,温度下降

为什么这里的符号是 L-L 而 Art. 17 是 AA 因为图 Laplacian LL 是半正定的(特征值 0\geq 0),要让系统稳定(热量衰减而非发散),需要让”有效系统矩阵”的特征值非正。在 Art. 17 中,AA 的特征值 Re(λi)<0\text{Re}(\lambda_i) < 0 保证稳定;这里 L-L 的特征值 λi0-\lambda_i \leq 0(因为 LL 的特征值 λi0\lambda_i \geq 0),同样保证稳定。

解:矩阵指数 etLe^{-tL}

矩阵指数 e⁻ᵗᴸ 的谱分解e⁻ᵗᴸ = Q · diag(e⁻λ₁ᵗ, ..., e⁻λₙᵗ) · Qᵀλ₁=0 → e⁰=1(常数模式存活)λᵢ大 → e⁻λᵢᵗ≈0(高频模式衰减)各模式衰减因子 (t=0.5)1.00λ=00.78λ=0.50.47λ=1.50.22λ=30.11λ=4.5t → ∞ 时:e⁻ᵗᴸ → (1/n)𝟏𝟏ᵀ — 只有 λ₁=0 的常数模式存活 → 信号趋向均匀(热力学平衡)

图热方程的解

图热方程 ut=Lu\frac{\partial \mathbf{u}}{\partial t} = -L\mathbf{u} 与 Art. 17 的 x˙=Ax\dot{\mathbf{x}} = A\mathbf{x} 在形式上完全相同(令 A=LA = -L)。因此,解也完全相同:

u(t)=etLu(0)\boxed{\mathbf{u}(t) = e^{-tL}\, \mathbf{u}(0)}

其中 etLe^{-tL} 是矩阵指数,定义为幂级数:

etL=k=0(tL)kk!=ItL+t2L22!t3L33!+e^{-tL} = \sum_{k=0}^{\infty} \frac{(-tL)^k}{k!} = I - tL + \frac{t^2 L^2}{2!} - \frac{t^3 L^3}{3!} + \cdots

验证:对 u(t)=etLu(0)\mathbf{u}(t) = e^{-tL}\mathbf{u}(0) 关于 tt 求导:ddtetL=LetL\frac{d}{dt}e^{-tL} = -L \cdot e^{-tL},所以 u˙=Lu\dot{\mathbf{u}} = -L\mathbf{u}\blacksquare

通过特征分解计算

图 Laplacian LL 是实对称半正定矩阵(Art. 21 图 Laplacian),所以由谱定理(Art. 2 特征分解):

L=QΛQT,Λ=diag(λ1,λ2,,λn)L = Q\Lambda Q^T, \quad \Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)

其中 QQ 是正交矩阵(QTQ=IQ^T Q = I),0=λ1λ2λn0 = \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n 是 Laplacian 的特征值。

代入矩阵指数的对角化公式(Art. 17 中已推导):

etL=QetΛQT=Qdiag(eλ1t,eλ2t,,eλnt)QTe^{-tL} = Q\, e^{-t\Lambda}\, Q^T = Q\, \text{diag}(e^{-\lambda_1 t}, e^{-\lambda_2 t}, \ldots, e^{-\lambda_n t})\, Q^T

因为 λ1=0\lambda_1 = 0,所以 eλ1t=1e^{-\lambda_1 t} = 1;对于 λi>0\lambda_i > 0eλite^{-\lambda_i t}tt 单调衰减到 0。

物理含义:Laplacian 的每个特征向量 qi\mathbf{q}_i 对应图上的一种”振动模式”——λi\lambda_i 越大,模式越”高频”(节点间变化越剧烈)。扩散过程以速率 eλite^{-\lambda_i t} 衰减第 ii 个模式,高频模式衰减最快。随着 tt \to \infty

etLQdiag(1,0,0,,0)QT=q1q1T=1n11Te^{-tL} \to Q\,\text{diag}(1, 0, 0, \ldots, 0)\, Q^T = \mathbf{q}_1 \mathbf{q}_1^T = \frac{1}{n}\mathbf{1}\mathbf{1}^T

(对于连通图,q1=1n1\mathbf{q}_1 = \frac{1}{\sqrt{n}}\mathbf{1}。)

这意味着扩散的终态是均匀分布——每个节点的热量等于所有节点初始热量的平均值。这与连续热方程的行为完全一致:热量最终趋向均匀。

数值例子:三角形图

三角形图的热扩散:u(t) = e⁻ᵗᴸu(0)t = 0初始1.000.000.00t = 0.1t=0.10.830.090.09t = 1t=10.370.320.32t = ∞t→∞0.330.330.33热量守恒:Σuᵢ(t) = 1 对所有 t 成立(因为 L𝟏 = 𝟎)λ₁=0, λ₂=λ₃=3 → 衰减速率 e⁻³ᵗ(对称结构 → 两个高频模式同速衰减)

取最简单的连通图——三节点完全图(三角形)。

A=[011101110],D=[200020002],L=DA=[211121112]A = \begin{bmatrix}0 & 1 & 1\\1 & 0 & 1\\1 & 1 & 0\end{bmatrix}, \quad D = \begin{bmatrix}2 & 0 & 0\\0 & 2 & 0\\0 & 0 & 2\end{bmatrix}, \quad L = D - A = \begin{bmatrix}2 & -1 & -1\\-1 & 2 & -1\\-1 & -1 & 2\end{bmatrix}

特征分解LL 的特征值为 λ1=0,λ2=λ3=3\lambda_1 = 0, \lambda_2 = \lambda_3 = 3

λ1=0\lambda_1 = 0Lq1=0L\mathbf{q}_1 = \mathbf{0},解为 q1=13[111]\mathbf{q}_1 = \frac{1}{\sqrt{3}}\begin{bmatrix}1\\1\\1\end{bmatrix}

λ2=3\lambda_2 = 3(L3I)q=0(L - 3I)\mathbf{q} = \mathbf{0},即 [111111111]q=0\begin{bmatrix}-1&-1&-1\\-1&-1&-1\\-1&-1&-1\end{bmatrix}\mathbf{q} = \mathbf{0},解空间为 {[a,b,(a+b)]T}\{[a, b, -(a+b)]^T\}。取正交基:

q2=12[110],q3=16[112]\mathbf{q}_2 = \frac{1}{\sqrt{2}}\begin{bmatrix}1\\-1\\0\end{bmatrix}, \quad \mathbf{q}_3 = \frac{1}{\sqrt{6}}\begin{bmatrix}1\\1\\-2\end{bmatrix}

热核

etL=1q1q1T+e3tq2q2T+e3tq3q3Te^{-tL} = 1 \cdot \mathbf{q}_1\mathbf{q}_1^T + e^{-3t}\mathbf{q}_2\mathbf{q}_2^T + e^{-3t}\mathbf{q}_3\mathbf{q}_3^T

=13[111111111]+e3t(13[211121112])= \frac{1}{3}\begin{bmatrix}1&1&1\\1&1&1\\1&1&1\end{bmatrix} + e^{-3t}\left(\frac{1}{3}\begin{bmatrix}2&-1&-1\\-1&2&-1\\-1&-1&2\end{bmatrix}\right)

u(0)=[100]\mathbf{u}(0) = \begin{bmatrix}1\\0\\0\end{bmatrix}(节点 0 有全部热量):

u(t)=etLu(0)=[13+23e3t1313e3t1313e3t]\mathbf{u}(t) = e^{-tL}\mathbf{u}(0) = \begin{bmatrix}\frac{1}{3} + \frac{2}{3}e^{-3t}\\ \frac{1}{3} - \frac{1}{3}e^{-3t}\\ \frac{1}{3} - \frac{1}{3}e^{-3t}\end{bmatrix}

验证几个时间点:

  • t=0t = 0u(0)=[1,0,0]T\mathbf{u}(0) = [1, 0, 0]^T ✓(初始条件)
  • t=0.1t = 0.1e0.30.741e^{-0.3} \approx 0.741u[0.827,0.086,0.086]T\mathbf{u} \approx [0.827, 0.086, 0.086]^T(热量开始扩散)
  • t=1t = 1e30.050e^{-3} \approx 0.050u[0.367,0.317,0.317]T\mathbf{u} \approx [0.367, 0.317, 0.317]^T(接近均匀)
  • tt \to \inftyu[13,13,13]T\mathbf{u} \to [\frac{1}{3}, \frac{1}{3}, \frac{1}{3}]^T(均匀分布,总热量守恒为 1)

注意热量守恒iui(t)=1TetLu(0)=1Tu(0)\sum_i u_i(t) = \mathbf{1}^T e^{-tL}\mathbf{u}(0) = \mathbf{1}^T \mathbf{u}(0)(因为 L1=0L\mathbf{1} = \mathbf{0},即 1TetL=1T\mathbf{1}^T e^{-tL} = \mathbf{1}^T),总热量始终为 1。

可视化:图上的热扩散

下面的交互组件展示了一个 7 节点图上的热扩散过程。选择不同的初始热量分布,拖动时间滑块观察 u(t)=etLu(0)\mathbf{u}(t) = e^{-tL}\mathbf{u}(0) 如何演化。可以展开热核矩阵 etLe^{-tL} 查看其数值。

图上的热扩散
u(t) = e^{-tL} u(0):热量从初始分布出发,沿边扩散到邻居
节点 0 拥有全部热量,观察热量如何扩散到整个图
v01.000v10.000v20.000v30.000v40.000v50.000v60.000t = 0.000
t = 0.000
各时刻热量分布快照
t=0
0123456
t=0.05
0123456
t=0.1
0123456
t=0.2
0123456
t=0.5
0123456
t=1
0123456
颜色深浅 = 热量大小。t = 0 时热量集中在初始节点,随 t 增大热量沿边扩散,最终趋向均匀分布。

探索建议

  1. 单点热源:观察 t=0t = 0 时热量完全集中在 v0v_0,然后逐渐扩散到邻居 v1,v2v_1, v_2,再到更远的节点。tt 足够大时,所有节点趋向 17\frac{1}{7}
  2. 双热源v0v_0v6v_6 分别位于图的两端。观察两股热浪如何从两端向中间扩散、交汇、最终均匀。
  3. 热核矩阵:展开 etLe^{-tL} 面板。t=0t = 0 时它是单位矩阵 II;随着 tt 增大,矩阵逐渐趋向 1n11T\frac{1}{n}\mathbf{1}\mathbf{1}^T(每个元素约 1/71/7)。对角元素从 1 下降,非对角元素从 0 上升——热量在”分享”。

热核:图上的高斯核

热核 e⁻ᵗᴸ 的多尺度视野(★=源点)t → 0 (局部)e⁻ᵗᴸ ≈ I − tL只看直接邻居t 中等 (中观)数值计算k 跳邻域t → ∞ (全局)e⁻ᵗᴸ → (1/n)𝟏𝟏ᵀ整个图均匀扩散视野递增:t 控制"看多远"

etLe^{-tL} 作为核矩阵

矩阵 Ht=etLH_t = e^{-tL} 被称为热核(heat kernel)或扩散核(diffusion kernel)(Kondor & Lafferty, 2002)。它有几个重要性质:

  1. 对称正定:因为 LL 对称半正定,Ht=QetΛQTH_t = Qe^{-t\Lambda}Q^T 是对称的,且特征值 eλit>0e^{-\lambda_i t} > 0 全部为正,所以 HtH_t 是正定的
  2. 半群性质et1Let2L=e(t1+t2)Le^{-t_1 L} \cdot e^{-t_2 L} = e^{-(t_1 + t_2)L}——先扩散 t1t_1 秒再扩散 t2t_2 秒等于直接扩散 t1+t2t_1 + t_2
  3. 行和为 1(对于连通图):etL1=1e^{-tL}\mathbf{1} = \mathbf{1},因为 L1=0L\mathbf{1} = \mathbf{0}
  4. tt 的效果tt 小时 HtItLH_t \approx I - tL,只有直接邻居有显著影响;tt 大时 Ht1n11TH_t \to \frac{1}{n}\mathbf{1}\mathbf{1}^T,图上所有节点都有影响

性质 1 意味着 HtH_t 可以直接用作核函数(kernel function)——这是图上的高斯核。在连续空间中,热方程的解是高斯核 G(x,y;t)=14πtexy2/4tG(x, y; t) = \frac{1}{\sqrt{4\pi t}}e^{-|x-y|^2/4t};在图上,HtH_t 扮演同样的角色,用”图距离”取代了欧氏距离。

Inline Box:热核与图距离

热核 (Ht)ij(H_t)_{ij} 可以理解为”从节点 ii 出发,经过时间 tt 的扩散后,到达节点 jj 的热量比例”。相邻节点之间 (Ht)ij(H_t)_{ij} 较大,远离的节点之间 (Ht)ij(H_t)_{ij} 较小——HtH_t 隐式编码了图上的扩散距离(diffusion distance)。

Coifman & Lafon (2006) 证明了这种扩散距离在流形学习中的理论基础:当图是从连续流形上采样时,图上的扩散核收敛到流形上的 Laplace-Beltrami 算子的热核。

tt 的作用:从局部到全局

参数 tt 控制扩散的”视野”:

tt 的值etLe^{-tL} 的近似物理含义
t0t \to 0ItL+O(t2)I - tL + O(t^2)只看直接邻居(局部)
tt 中等数值计算kk 跳内的邻域(中观)
tt \to \infty1n11T\frac{1}{n}\mathbf{1}\mathbf{1}^T看整个图(全局,均匀)

这提供了一种自然的多尺度分析机制:通过调节 tt,可以在不同的空间尺度上分析图信号。小 tt 捕捉局部结构,大 tt 捕捉全局结构。

GNN 消息传递 = 一步图扩散

从扩散到消息传递

将热核的一阶泰勒展开写出来:

etLItL=It(DA)=(1t)I+tAD1De^{-tL} \approx I - tL = I - t(D - A) = (1 - t)I + tA \cdot D^{-1} \cdot D

对于小 tt,一步扩散近似为 u(t)(ItL)u(0)\mathbf{u}(t) \approx (I - tL)\mathbf{u}(0)。将 L=DAL = D - A 代入:

u(t)u(0)t(DA)u(0)=u(0)+t(Au(0)Du(0))\mathbf{u}(t) \approx \mathbf{u}(0) - t(D - A)\mathbf{u}(0) = \mathbf{u}(0) + t(A\mathbf{u}(0) - D\mathbf{u}(0))

逐节点看:

ui(t)ui(0)+t(j:(i,j)Euj(0)diui(0))=(1tdi)ui(0)+tjN(i)uj(0)u_i(t) \approx u_i(0) + t\left(\sum_{j: (i,j) \in E} u_j(0) - d_i \cdot u_i(0)\right) = (1 - td_i)u_i(0) + t\sum_{j \in \mathcal{N}(i)} u_j(0)

这正是消息传递(message passing)的原型:节点 ii 的新值 = 自身旧值的保留 + 邻居旧值的聚合。

GCN:归一化的一步扩散

Kipf & Welling (2017) 的图卷积网络(Graph Convolutional Network, GCN)定义了以下传播规则:

H(+1)=σ ⁣(D~1/2A~D~1/2H()W())H^{(\ell+1)} = \sigma\!\left(\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} H^{(\ell)} W^{(\ell)}\right)

逐项拆解这个公式:

  • H()Rn×dH^{(\ell)} \in \mathbb{R}^{n \times d}:第 \ell 层的节点特征矩阵,nn 个节点、dd 维特征
  • A~=A+I\tilde{A} = A + I:加入自环(self-loop)的邻接矩阵。加 II 确保每个节点在聚合时也包含自身
  • D~\tilde{D}A~\tilde{A} 的度矩阵,D~ii=jA~ij\tilde{D}_{ii} = \sum_j \tilde{A}_{ij}
  • D~1/2A~D~1/2\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}:对称归一化的邻接矩阵——这正是 Art. 21 图 Laplacian归一化 Laplacian L~=ID~1/2A~D~1/2\tilde{L} = I - \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} 的”互补矩阵”
  • W()Rd×dW^{(\ell)} \in \mathbb{R}^{d \times d'}:可学习的权重矩阵(线性变换)
  • σ\sigma:非线性激活函数(如 ReLU)

关键洞察D~1/2A~D~1/2=IL~sym\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} = I - \tilde{L}_{\text{sym}}。因此 GCN 的一层(去掉 WWσ\sigma)就是:

H(+1)=(IL~sym)H()H^{(\ell+1)} = (I - \tilde{L}_{\text{sym}})H^{(\ell)}

这与 etLItLe^{-tL} \approx I - tL(令 t=1t = 1)形式相同!GCN 的每一层就是一步图扩散。

下图从消息聚合和公式两个角度展示了这一等价关系:

GCN 的每一层 = 一步图扩散 + 线性变换 + 非线性
① 消息聚合h1h2h3h4h₀h₀′ = Σⱼ Ãᵢⱼ hⱼ(含自身)② GCN 传播规则H⁽ˡ⁺¹⁾ = σ( D̃⁻½ Ã D̃⁻½ H⁽ˡ⁾ W⁽ˡ⁾ )完整公式= σ( (I − L̃ₛᵧₘ) H⁽ˡ⁾ W⁽ˡ⁾ )= 归一化 Laplacian 互补≈ σ( (I − tL) H⁽ˡ⁾ W⁽ˡ⁾ )≈ 一步扩散 (t = 1)k 层 GCN = k 步扩散 → k-hop 邻域聚合

多层 GCN 与多步扩散

kk 层 GCN(不加非线性和权重)等价于:

(IL~sym)kH(0)=(D~1/2A~D~1/2)kH(0)(I - \tilde{L}_{\text{sym}})^k H^{(0)} = (\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2})^k H^{(0)}

这是邻接矩阵的 kk 次幂作用于特征——相当于信号经过了 kk 步扩散。回忆 Art. 15 马尔可夫链PkP^k 的含义:kk 步转移概率。多层 GCN 看到的是 kk 跳邻域内的信息。

从谱的角度看,(IL~sym)k(I - \tilde{L}_{\text{sym}})^k 的特征值是 (1λ~i)k(1 - \tilde{\lambda}_i)^k。对于高频分量(λ~i\tilde{\lambda}_i 接近 2),(1λ~i)k(1 - \tilde{\lambda}_i)^kkk 交替振荡但幅度衰减;对于低频分量(λ~i\tilde{\lambda}_i 接近 0),(1λ~i)k1(1 - \tilde{\lambda}_i)^k \approx 1。层数越多,信号越趋向低频——这就是 GNN 中广为人知的过平滑(over-smoothing)问题。

过平滑的数学解释:层数 kk \to \infty 时,所有节点的特征趋向相同(全局平均)——因为只有 λ1=0\lambda_1 = 0 对应的分量(常数向量)不衰减。这与热扩散 tt \to \infty 时趋向均匀分布的现象完全一致。

下图直观展示了过平滑的谱机制:不同 Laplacian 特征值对应的模式在多层 GCN 中以不同速率衰减——只有 λ1=0\lambda_1 = 0 的常数模式存活。

过平滑:多层 GCN 的频率衰减
(1−λᵢ)ᵏ 随层数 k 增加:低频保持,高频消亡 → 所有节点趋同
(1−λᵢ)ᵏ00.51层数 k0510λ₁=0常数模式 → 始终 = 1λ₂=0.3低频 → 缓慢衰减λ₃=1.0中频 → 立即为 0λ₄=1.8高频 → 振荡衰减k → ∞ 时只剩 λ₁=0 的常数模式 → 所有节点值相同

消息传递框架(MPNN)的一般形式

MPNN:消息传递神经网络的一般框架① 消息计算jjjiφ(hᵢ, hⱼ, eᵢⱼ)② 聚合msgmsgmsgmᵢ⊕ = 求和/均值/最大值③ 状态更新hᵢ+mᵢh'ᵢψ(hᵢ, mᵢ)GCN 是 MPNN 的特例:φ = 度归一化特征,⊕ = 求和,ψ = 线性变换 + ReLU聚合操作的本质 = 矩阵乘法 AH — 邻接矩阵乘以特征矩阵

GCN 是更一般的消息传递神经网络(Message Passing Neural Network, MPNN)框架的一个特例。MPNN 的每一层包含三个操作:

mi()=jN(i)ϕ ⁣(hi(),hj(),eij)(消息聚合)m_i^{(\ell)} = \bigoplus_{j \in \mathcal{N}(i)} \phi\!\left(h_i^{(\ell)}, h_j^{(\ell)}, e_{ij}\right) \qquad \text{(消息聚合)}

hi(+1)=ψ ⁣(hi(),mi())(状态更新)h_i^{(\ell+1)} = \psi\!\left(h_i^{(\ell)}, m_i^{(\ell)}\right) \qquad \text{(状态更新)}

其中:

  • hi()h_i^{(\ell)} 是节点 ii 在第 \ell 层的特征向量
  • N(i)\mathcal{N}(i) 是节点 ii 的邻居集合
  • ϕ\phi消息函数——从邻居 jj 向节点 ii 发送的”消息”
  • \bigoplus聚合函数(如求和、均值、最大值)——将所有邻居的消息合并
  • ψ\psi更新函数——用聚合后的消息更新节点状态
  • eije_{ij} 是边的特征(可选)

对于 GCN,ϕ\phiψ\psi 的具体形式很简单:消息就是邻居的特征经过度归一化,聚合是求和,更新是加上线性变换和非线性。但这个框架足够通用,可以统一几乎所有空间域 GNN。

关键联系:消息传递的”聚合邻居”操作本质上是矩阵乘法 AHAH——邻接矩阵(或其归一化版本)乘以特征矩阵。这正是算子矩阵”乘一次 = 执行一步”的 Part 2 统一主题。

谱方法与空间方法的统一

谱方法 → 空间方法:GCN 是谱卷积的一阶近似谱卷积(完整)g_θ★x = Qg_θ(Λ)Qᵀx需要完整特征分解O(n³)谱域滤波器Cheb.ChebNetΣ_k θ_k T_k(L̃)xK 阶多项式近似O(K|E|)无需特征分解K=1GCN (Kipf 2017)D̃⁻¹ᐟ²ÃD̃⁻¹ᐟ²Xw一步归一化邻接乘法O(|E|)= 一步图扩散!统一视角:谱方法提供理论分析框架,空间方法提供高效实现 — 不是对立的范式

ChebNet:多项式滤波器

Defferrard et al. (2016) 从谱图论的角度出发,定义了图上的谱卷积

gθx=Qgθ(Λ)QTxg_\theta \star \mathbf{x} = Q\, g_\theta(\Lambda)\, Q^T \mathbf{x}

其中 gθ(Λ)=diag(gθ(λ1),,gθ(λn))g_\theta(\Lambda) = \text{diag}(g_\theta(\lambda_1), \ldots, g_\theta(\lambda_n)) 是对 Laplacian 特征值的逐元素函数——图上的频率响应

问题:直接计算需要 Laplacian 的完整特征分解,O(n3)O(n^3) 太贵。ChebNet 的关键贡献是用 Chebyshev 多项式 TkT_k 近似 gθg_\theta

gθ(λ)k=0K1θkTk(λ~)g_\theta(\lambda) \approx \sum_{k=0}^{K-1} \theta_k\, T_k(\tilde{\lambda})

其中 λ~=2λλmax1\tilde{\lambda} = \frac{2\lambda}{\lambda_{\max}} - 1 将特征值缩放到 [1,1][-1, 1]。由于 TkT_kkk 次多项式,Tk(L)T_k(L) 可以通过 LLkk 次幂计算——无需特征分解,复杂度降到 O(KE)O(K|E|)E|E| 是边数)。

从 ChebNet 到 GCN

Kipf & Welling (2017) 发现,令 K=1K = 1(只保留一阶近似)并做适当简化,ChebNet 退化为:

gθxθ0x+θ1(LI)x=θ0xθ1D1/2AD1/2xg_\theta \star \mathbf{x} \approx \theta_0 \mathbf{x} + \theta_1 (L - I)\mathbf{x} = \theta_0 \mathbf{x} - \theta_1 D^{-1/2}AD^{-1/2}\mathbf{x}

进一步令 θ0=θ1=θ\theta_0 = -\theta_1 = \theta(减少参数),得到:

gθx=θ(I+D1/2AD1/2)xg_\theta \star \mathbf{x} = \theta(I + D^{-1/2}AD^{-1/2})\mathbf{x}

为了数值稳定性,用 A~=A+I\tilde{A} = A + ID~\tilde{D} 做重新归一化(renormalization trick):

gθx=θD~1/2A~D~1/2xg_\theta \star \mathbf{x} = \theta\, \tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\, \mathbf{x}

这正是 GCN 传播规则的核心——一阶 Chebyshev 近似 = 归一化邻接矩阵的一步乘法 = 一步图扩散

方法谱域 / 空间域核心操作复杂度
谱卷积(完整)谱域Qgθ(Λ)QTxQg_\theta(\Lambda)Q^T\mathbf{x}O(n3)O(n^3)(特征分解)
ChebNet谱域(多项式近似)kθkTk(L)x\sum_k \theta_k T_k(L)\mathbf{x}O(KE)O(K\|E\|)
GCN空间域(一步扩散)D~1/2A~D~1/2x\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}\mathbf{x}O(E)O(\|E\|)

统一视角:谱方法和空间方法不是两个对立的范式——GCN 就是谱卷积的一阶近似,而多层 GCN 隐式实现了多项式滤波器。Laplacian 的特征分解提供了理论分析框架,空间方法提供了高效的实现方式。

图扩散与 Diffusion Model 的联系

两种"扩散"的结构类比图扩散u(0)e⁻ᵗᴸ(1/n)𝟏• 空间:离散图• 驱动力:图 Laplacian L• 终态:均匀分布结构同构DDPM 扩散模型x₀+noise𝒩(0,I)• 空间:连续 ℝᵈ• 驱动力:高斯噪声• 终态:标准高斯共同范式:有结构 → 正向扩散 → 无结构(平衡态)→ 反向恢复 → 有结构

两种”扩散”

近年来最成功的生成模型之一是扩散模型(Diffusion Model),如 DDPM(Ho, Jain & Abbeel, 2020)。它的名字中也有”扩散”——那它与图扩散有什么关系?

图扩散扩散模型(DDPM)
空间图(离散节点)连续数据空间 Rd\mathbb{R}^d
扩散对象节点上的标量/向量信号数据点(图片、声音等)
扩散机制图 Laplacian 驱动高斯噪声逐步添加
数学形式u(t)=etLu(0)\mathbf{u}(t) = e^{-tL}\mathbf{u}(0)q(xtx0)=N(αˉtx0,(1αˉt)I)q(\mathbf{x}_t \mid \mathbf{x}_0) = \mathcal{N}(\sqrt{\bar\alpha_t}\mathbf{x}_0, (1-\bar\alpha_t)I)
终态均匀分布 1n1\frac{1}{n}\mathbf{1}标准高斯 N(0,I)\mathcal{N}(0, I)
核心共同点从结构化 → 均匀/随机从结构化 → 均匀/随机

共同的数学根源:两者都是从有结构的初始状态出发,通过某种”扩散”过程趋向无结构的平衡态。图扩散沿图的边传播热量直到均匀;DDPM 逐步添加噪声直到数据变成纯高斯噪声。

Score function 与梯度流

扩散模型的生成过程是反向扩散——从噪声出发,通过学习的 score function xlogp(x)\nabla_\mathbf{x} \log p(\mathbf{x}) 逐步去噪。Score function 指向数据密度增大的方向,引导噪声”流”回结构化数据。

在图上,类似的概念是 Laplacian 作为梯度算子:(Lu)i=j(uiuj)(L\mathbf{u})_i = \sum_j (u_i - u_j) 指向”节点值比邻居高”的方向。热方程 u˙=Lu\dot{\mathbf{u}} = -L\mathbf{u} 让信号沿负梯度方向流动——从高到低,趋向平衡。

深层联系:图扩散的正向过程(信号趋向均匀)和扩散模型的正向过程(数据趋向噪声)在结构上是同构的。扩散模型的反向过程(score function 驱动的去噪)可以类比为图上的”反热方程”——从均匀状态恢复原始信号。这种联系为图上的生成模型提供了理论基础。

需要强调:这里的联系是结构性类比,不是精确的数学等价。DDPM 的空间是连续的 Rd\mathbb{R}^d,使用的是标准高斯噪声而非图 Laplacian;图扩散的空间是离散图。但两者共享”正向扩散 → 平衡态 → 反向恢复”的基本范式。

Part 2 总结:从”传”的全貌回望

本文是 Part 2 “传——给定算子”的最后一篇。让我们回顾 Part 2 的完整弧线(Art. 14–22),看看同一套数学工具如何贯穿看似不同的领域。

两条子线的汇总

子线 A:时序算子(从离散到连续)

文章核心矩阵核心操作关键结果
Art. 15 马尔可夫链转移矩阵 PPπP\boldsymbol{\pi}P稳态分布 = λ=1\lambda = 1 的特征向量
Art. 16 HMMPP + 发射 BBForward/Viterbi预测-修正范式
Art. 17 连续系统 & Kalman状态矩阵 AAeAte^{At}矩阵指数、离散化 (A,B,C,D)(A,B,C,D)

子线 B:图/空间算子(从概率到结构到学习)

文章核心矩阵核心操作关键结果
Art. 18 PageRank修改的 PP幂迭代稳态 = 重要性排名
Art. 19 随机游走图上的 PP序列采样DeepWalk/Node2Vec 嵌入
Art. 20 KernelKernel 矩阵 KKKfK\mathbf{f} 平滑非线性映射 + 核技巧
Art. 21 图 LaplacianL=DAL = D - ALfL\mathbf{f} 差异度量谱聚类 = 特征向量嵌入
Art. 22 本文etLe^{-tL}扩散GNN 消息传递 = 一步扩散

贯穿的统一主题

  1. 特征分解是万能钥匙Pn=QΛnQ1P^n = Q\Lambda^n Q^{-1} 分析离散迭代(Art. 15),eAt=QeΛtQ1e^{At} = Qe^{\Lambda t}Q^{-1} 分析连续演化(Art. 17),etL=QetΛQTe^{-tL} = Qe^{-t\Lambda}Q^T 分析图扩散(本文)——公式形式统一,都是 Art. 2 特征分解的直接应用

  2. “乘一次 = 执行一步”:转移矩阵 PP 乘一次 = 一步随机游走,邻接矩阵 AA 乘一次 = 一步消息传递,Kernel 矩阵 KK 乘一次 = 一步平滑。矩阵不是数据容器,而是执行过程的机器

  3. 谱隙决定行为:马尔可夫链的混合时间由 λ2|\lambda_2| 决定(Art. 15),图的连通性由 λ2(L)\lambda_2(L) 决定(Art. 21),GNN 的过平滑由 Laplacian 特征值间距决定(本文)

从 Part 2 到 Part 3

Part 2 中所有的算子矩阵——转移矩阵 PP、图 Laplacian LL、Kernel KK——都是给定的。它们由物理系统、图结构或核函数定义,数学家和工程师根据领域知识手工设计

Part 3 “汇——学习算子”将发生根本转变:矩阵不再由领域知识给定,而是从数据中学习

  • GCN 的传播矩阵 D~1/2A~D~1/2\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2} 是给定的,但权重矩阵 W()W^{(\ell)} 是学习的——这恰好是 Part 2 和 Part 3 的分界线
  • SSM/Mamba 的状态矩阵 AA 从物理给定(Kalman,Art. 17)变成可学习参数(Art. 26)
  • LoRA(Art. 24)发现预训练权重矩阵 WW 的增量 ΔW\Delta W 是低秩的——Part 1 的 SVD 洞察在 Part 3 的语境下复活

下一篇——Art. 23 学习算子概述将建立 Part 3 的概念框架:当矩阵从”给定”变为”学习”,哪些新问题出现?Part 1 和 Part 2 的工具如何在这个新语境下继续发挥作用?