Kernel 矩阵与再生核：数据定义的给定算子

上一篇我们在图上做随机游走，生成节点序列以学习嵌入。图的转移矩阵是由离散的边定义的算子——两个节点之间有没有连接，决定了概率能否流过去。但如果数据不在图上，而是分布在连续的 $\mathbb{R}^d$ 空间中呢？我们需要一种方式来度量任意两个点之间的”相似度”，并将这种相似度编码为一个矩阵。

这就是 kernel 矩阵（kernel matrix）的角色。给定 $n$ 个数据点 $\mathbf{x}_1, \ldots, \mathbf{x}_n \in \mathbb{R}^d$ 和一个核函数（kernel function） $k: \mathbb{R}^d \times \mathbb{R}^d \to \mathbb{R}$ ，kernel 矩阵 $K \in \mathbb{R}^{n \times n}$ 定义为：

$K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$

$K$ 是 Part 2 三族算子矩阵中的第三族——相似度矩阵。在算子全景中我们预告过： $K$ 乘以一个向量 $\mathbf{f}$ 就是对函数 $f$ 做一次”加权平均”——每个点的新值是所有点的值按相似度加权求和。它既是数据定义的，又是一个算子。

本文将从 kernel 矩阵的构造出发，建立 Mercer 定理的严格陈述，揭示 kernel trick 的矩阵本质（ $K = \Phi\Phi^T$ ），连接回 Art. 6 PCA 推广出 Kernel PCA，简述 Gaussian Process 中 $K^{-1}$ 的核心角色，并讨论 Cholesky 分解在高效求解中的作用。

为什么 kernel 矩阵重要

在 Art. 6 PCA 中我们看到了 PCA 的局限：它只能捕获线性关系。如果数据分布在一个弯曲的流形上（如”瑞士卷”），线性投影会把本该分开的结构混在一起。

核心困境是：许多强大的线性方法（PCA、线性回归、SVM 的线性版本）依赖于内积 $\langle \mathbf{x}_i, \mathbf{x}_j \rangle$ 。如果数据的结构是非线性的，直接用原始空间的内积就不够。

Kernel 方法的核心洞察：不要试图在原始空间中发明非线性算法。而是把数据通过一个非线性映射 $\phi: \mathbb{R}^d \to \mathcal{H}$ 送入一个高维（甚至无穷维）的特征空间 $\mathcal{H}$ ，在那里用线性方法。关键是——我们从不需要显式计算 $\phi(\mathbf{x})$ ，只需要计算特征空间中的内积 $\langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle$ ，而这正是核函数 $k(\mathbf{x}_i, \mathbf{x}_j)$ 提供的。

下面的示意图展示了这个核心思路的几何直觉：原始空间中不可线性分离的数据，经过非线性映射 $\phi$ 被”提升”到高维空间后变成线性可分的——而 kernel trick 让我们绕过显式计算 $\phi$ 。

Kernel Trick 的几何直觉：从不可分到可分

非线性映射 φ 将数据送入高维空间，原本缠绕的结构变成线性可分

三种常见核函数

在定义 kernel 矩阵之前，先介绍三种最常用的核函数。设 $\mathbf{x}, \mathbf{y} \in \mathbb{R}^d$ 。

线性核（Linear Kernel）：

$k(\mathbf{x}, \mathbf{y}) = \mathbf{x}^T \mathbf{y}$

最简单的核——就是原始空间的内积。对应的特征映射是恒等映射 $\phi(\mathbf{x}) = \mathbf{x}$ 。Kernel 矩阵退化为 Gram 矩阵 $K = X X^T$ 。

多项式核（Polynomial Kernel）：

$k(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^T \mathbf{y} + c)^p$

其中 $c \geq 0$ 是常数， $p \in \mathbb{N}$ 是阶数（degree）。当 $p = 2, c = 1$ 时，对二维输入 $\mathbf{x} = (x_1, x_2)$ ，对应的显式特征映射为：

$\phi(\mathbf{x}) = (x_1^2, \; x_2^2, \; \sqrt{2}\,x_1 x_2, \; \sqrt{2}\,x_1, \; \sqrt{2}\,x_2, \; 1)^T$

可以验证 $\phi(\mathbf{x})^T \phi(\mathbf{y}) = (x_1 y_1 + x_2 y_2 + 1)^2 = k(\mathbf{x}, \mathbf{y})$ 。原始的 2 维空间被映射到了 6 维——所有二次交叉项都出现了。

高斯核 / RBF 核（Gaussian / Radial Basis Function Kernel）：

$k(\mathbf{x}, \mathbf{y}) = \exp\!\left(-\frac{\|\mathbf{x} - \mathbf{y}\|^2}{2\sigma^2}\right)$

其中 $\sigma > 0$ 是带宽参数（bandwidth）。RBF 核的特征空间是无穷维的—— $\phi$ 映射到一个无穷维的 Hilbert 空间。直觉上， $\sigma$ 控制”相似”的范围： $\sigma$ 小时只有非常近的点才有显著的核值， $\sigma$ 大时远处的点也有不小的核值。

可视化：Kernel 矩阵的结构

下面的交互组件展示了一个包含两个聚类的 2D 点云（点 0–4 和点 5–9）在三种核函数下的 $K$ 矩阵热力图，以及对应的特征值衰减。

选择核函数：σ =1.0

观察要点：

线性核： $K = XX^T$ ，矩阵值反映数据的欧氏内积。右下角（远离原点的聚类）数值更大，因为内积更大。
多项式核：交叉项放大了聚类内部的相似性，块状结构更明显。
RBF 核：块对角结构非常突出——同一聚类内部的点核值接近 1，不同聚类之间核值接近 0。调节 $\sigma$ ： $\sigma$ 小时矩阵趋于单位阵（只有自己和自己相似）； $\sigma$ 大时趋于全 1 矩阵（所有点都相似）。
特征值衰减：对所有核，特征值都是非负的（正半定），且快速衰减。RBF 核的衰减最快——大部分”信息”集中在前几个特征值中。

Mercer 定理：正定核与特征映射

现在我们要回答一个根本问题：什么样的函数 $k$ 可以作为核函数？ 答案是 Mercer 定理——kernel 方法的理论基石。

正定核的定义

定义：一个对称函数 $k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}$ （即 $k(\mathbf{x}, \mathbf{y}) = k(\mathbf{y}, \mathbf{x})$ ）称为正定核（positive definite kernel），如果对任意有限点集 $\{\mathbf{x}_1, \ldots, \mathbf{x}_n\} \subset \mathcal{X}$ ，由 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 定义的矩阵 $K$ 都是半正定的：

$\sum_{i=1}^{n}\sum_{j=1}^{n} c_i c_j \, k(\mathbf{x}_i, \mathbf{x}_j) \geq 0 \quad \forall\, \mathbf{c} \in \mathbb{R}^n, \; \forall\, n \in \mathbb{N}, \; \forall\, \mathbf{x}_1, \ldots, \mathbf{x}_n \in \mathcal{X}$

换言之：无论你怎么选数据点，生成的 kernel 矩阵 $K$ 都是半正定的。

Mercer 定理

定理（Mercer, 1909）：设 $\mathcal{X}$ 是 $\mathbb{R}^d$ 中的紧集， $k: \mathcal{X} \times \mathcal{X} \to \mathbb{R}$ 是连续的对称函数。则 $k$ 是正定核，当且仅当存在一个特征空间 $\mathcal{H}$ （Hilbert 空间）和一个映射 $\phi: \mathcal{X} \to \mathcal{H}$ ，使得：

$k(\mathbf{x}, \mathbf{y}) = \langle \phi(\mathbf{x}), \phi(\mathbf{y}) \rangle_{\mathcal{H}}$

等价地， $k$ 承认一个谱展开：

$k(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{\infty} \lambda_i \, e_i(\mathbf{x}) \, e_i(\mathbf{y})$

其中 $\lambda_i \geq 0$ 是非负特征值， $\{e_i\}$ 是 $L^2(\mathcal{X})$ 中的正交特征函数，级数绝对一致收敛。

逐项理解：

“当且仅当”：这是一个充要条件。正定性完全等价于特征映射的存在。
$\phi$ 可以是无穷维的：对于 RBF 核， $\mathcal{H}$ 是无穷维 Hilbert 空间， $\phi(\mathbf{x})$ 是一个无穷维向量。
谱展开：这是核函数的”特征分解”。与矩阵的谱分解 $A = \sum_i \lambda_i \mathbf{q}_i \mathbf{q}_i^T$ （Art. 2 特征分解）完全类比——只是从有限维推广到了函数空间。
$\lambda_i \geq 0$ ：所有特征值非负，这正是正半定性的函数空间版本。

Mercer 定理的矩阵含义

对于有限数据集，Mercer 定理意味着：如果 $k$ 是正定核，则对任意 $n$ 个点生成的 $K$ 矩阵，都存在分解：

$K = \Phi \Phi^T$

其中 $\Phi \in \mathbb{R}^{n \times m}$ （ $m$ 可能是 $\infty$ ），第 $i$ 行是 $\phi(\mathbf{x}_i)^T$ 。

这意味着 $K$ 的每一个元素都是高维空间中的内积：

$K_{ij} = \phi(\mathbf{x}_i)^T \phi(\mathbf{x}_j)$

Kernel Trick 的矩阵视角

有了 $K = \Phi\Phi^T$ ，kernel trick 的本质变得清晰：

Kernel trick：任何只通过内积 $\mathbf{x}_i^T \mathbf{x}_j$ 使用数据的算法，都可以用 $k(\mathbf{x}_i, \mathbf{x}_j)$ 替换内积，从而隐式地在高维特征空间中工作。

在矩阵语言中：原始数据矩阵 $X \in \mathbb{R}^{n \times d}$ 的 Gram 矩阵是 $G = XX^T$ （ $G_{ij} = \mathbf{x}_i^T \mathbf{x}_j$ ）。Kernel trick 把 $G$ 替换为 $K$ ：

$G = XX^T \quad \longrightarrow \quad K = \Phi\Phi^T$

所有依赖 $G$ 的计算——PCA、SVM、岭回归——自动升级为在高维特征空间中工作，而计算复杂度只取决于 $n$ （数据点数），不取决于 $m$ （特征空间维度，可以是无穷）。

这是一个深刻的矩阵洞察：我们从不需要构造 $\Phi$ ，只需要 $\Phi\Phi^T = K$ 。 就像 SVD 中我们可以只用 $AA^T$ 而不需要显式构造 $A$ 的某些分解一样（Art. 3 SVD）。

Kernel PCA：连接 Part 1

PCA（Art. 6 PCA）在协方差矩阵上做特征分解。标准 PCA 是线性的——但如果我们先用 $\phi$ 把数据映射到高维空间，再做 PCA 呢？

从线性 PCA 到 Kernel PCA

标准 PCA 对中心化数据矩阵 $\tilde{X} \in \mathbb{R}^{n \times d}$ 的协方差矩阵 $C = \frac{1}{n-1}\tilde{X}^T\tilde{X}$ 做特征分解。

在特征空间中，数据变为 $\Phi = [\phi(\mathbf{x}_1), \ldots, \phi(\mathbf{x}_n)]^T \in \mathbb{R}^{n \times m}$ （假设已中心化），协方差矩阵变为：

$C_\phi = \frac{1}{n-1}\Phi^T\Phi \in \mathbb{R}^{m \times m}$

当 $m$ 是无穷维时，直接处理 $C_\phi$ 不可行。但回忆 Art. 6 PCA 中的 Turk-Pentland 技巧：当 $n \ll m$ 时，我们转而处理 $n \times n$ 的矩阵 $\Phi\Phi^T$ 。

设 $C_\phi \mathbf{v} = \lambda \mathbf{v}$ 是特征空间中协方差矩阵的特征值问题。左乘 $\Phi$ 后可以证明：

$\frac{1}{n-1}\Phi\Phi^T (\Phi \mathbf{v}) = \lambda (\Phi \mathbf{v})$

即 $\frac{1}{n-1}K \boldsymbol{\alpha} = \lambda \boldsymbol{\alpha}$ ，其中 $K = \Phi\Phi^T$ 是 kernel 矩阵， $\boldsymbol{\alpha} = \Phi \mathbf{v}$ 。

下图展示了 Kernel PCA 的完整流程——注意自始至终 $\phi$ 都没有出现，所有计算只涉及 $n \times n$ 的核矩阵 $K$ 。

Kernel PCA 流程：全程只需核矩阵 K

无需显式计算 φ(x)，复杂度从 O(m³) 降到 O(n³)

Kernel PCA 算法（Schölkopf, Smola & Müller, 1998）：

计算 kernel 矩阵 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$
中心化 kernel 矩阵： $\tilde{K} = K - \frac{1}{n}\mathbf{1}\mathbf{1}^T K - K \frac{1}{n}\mathbf{1}\mathbf{1}^T + \frac{1}{n^2}\mathbf{1}\mathbf{1}^T K \mathbf{1}\mathbf{1}^T$
对 $\tilde{K}$ 做特征分解： $\tilde{K}\boldsymbol{\alpha}_i = n\lambda_i \boldsymbol{\alpha}_i$
数据点在第 $i$ 个核主成分上的投影坐标为 $\boldsymbol{\alpha}_i$ （归一化后）

关键对比：

	标准 PCA	Kernel PCA
数据空间	原始 $\mathbb{R}^d$	特征空间 $\mathcal{H}$ （可无穷维）
核心矩阵	$C = \frac{1}{n-1}X^TX \in \mathbb{R}^{d \times d}$	$K = \Phi\Phi^T \in \mathbb{R}^{n \times n}$
计算复杂度	$O(d^3)$ 或 $O(nd^2)$	$O(n^3)$ （与特征维度无关）
能力	线性子空间	非线性流形

Kernel PCA 完美体现了 kernel trick 的威力：复杂度从 $O(m^3)$ （无穷！）降到 $O(n^3)$ ，所有操作只涉及 $K$ 。

Gaussian Process：kernel 矩阵求逆

Gaussian Process（GP，高斯过程）是 kernel 方法的贝叶斯版本。如果 kernel 方法的核心是”用 $K$ 编码相似度”，那么 GP 的核心是”用 $K^{-1}$ 做推断”。

GP 回归的核心公式

给定训练数据 $\{(\mathbf{x}_i, y_i)\}_{i=1}^n$ ，GP 假设函数值 $\mathbf{y} = (y_1, \ldots, y_n)^T$ 服从多元高斯分布：

$\mathbf{y} \sim \mathcal{N}(\mathbf{0}, \; K + \sigma_n^2 I)$

其中 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 是核矩阵， $\sigma_n^2$ 是观测噪声方差。

对于新输入 $\mathbf{x}_*$ ，预测均值和方差为（Rasmussen & Williams, 2006, Chapter 2）：

$\mu_* = \mathbf{k}_*^T (K + \sigma_n^2 I)^{-1} \mathbf{y}$

$\sigma_*^2 = k(\mathbf{x}_*, \mathbf{x}_*) - \mathbf{k}_*^T (K + \sigma_n^2 I)^{-1} \mathbf{k}_*$

其中 $\mathbf{k}_* = (k(\mathbf{x}_*, \mathbf{x}_1), \ldots, k(\mathbf{x}_*, \mathbf{x}_n))^T$ 是新点与训练点之间的核向量。

矩阵视角的关键观察：

预测完全由 $K^{-1}$ （准确说是 $(K + \sigma_n^2 I)^{-1}$ ）决定。核矩阵编码了数据点之间的先验相似度，它的逆编码了”去相关后”的信息贡献。
计算瓶颈是 $n \times n$ 矩阵的求逆，复杂度 $O(n^3)$ 。这限制了 GP 的规模——当 $n$ 超过几万时，朴素 GP 变得不可行。
$\sigma_n^2 I$ 的加入既有物理意义（观测噪声），也有数值作用——它确保矩阵严格正定，避免数值奇异性。

Cholesky 分解在 GP 中的角色

实践中从不直接计算 $K^{-1}$ 。对于正定矩阵 $K + \sigma_n^2 I$ ，标准做法是 Cholesky 分解（Cholesky decomposition）：

$K + \sigma_n^2 I = LL^T$

其中 $L$ 是下三角矩阵。然后通过前向/后向替代（forward/backward substitution）求解 $L L^T \boldsymbol{\alpha} = \mathbf{y}$ ，得到 $\boldsymbol{\alpha} = (K + \sigma_n^2 I)^{-1}\mathbf{y}$ 。

Cholesky 分解的优势：

数值稳定：利用了正定性，不会产生主元为零的问题

效率： $O(n^3/3)$ ，比一般的 LU 分解快一倍

副产品： $\log \det(K + \sigma_n^2 I) = 2 \sum_i \log L_{ii}$ ，这是 GP 边际似然（marginal likelihood）的核心项，用于超参数优化

在 Rasmussen & Williams (2006) 的标准 GP 实现中（Algorithm 2.1），Cholesky 分解是第一步——它是 GP 高效实现的基石。

数值例子：RBF Kernel 矩阵的构造与谱

为了具体化上述理论，我们手算一个小例子。

数据：3 个一维点 $x_1 = 0, \, x_2 = 1, \, x_3 = 3$ 。核函数：RBF， $\sigma = 1$ 。

$k(x_i, x_j) = \exp\!\left(-\frac{(x_i - x_j)^2}{2}\right)$

计算 $K$ 矩阵（利用对称性 $K_{ij} = K_{ji}$ ，只需算上三角）：

$K_{11} = e^{0} = 1, \quad K_{12} = e^{-1/2} \approx 0.607, \quad K_{13} = e^{-9/2} \approx 0.011$

$K_{22} = 1, \quad K_{23} = e^{-4/2} = e^{-2} \approx 0.135$

$K_{33} = 1$

$K = \begin{bmatrix} 1 & 0.607 & 0.011 \\ 0.607 & 1 & 0.135 \\ 0.011 & 0.135 & 1 \end{bmatrix}$

验证正半定性：计算特征多项式（或利用 Sylvester 判据——所有顺序主子式非负）：

$K_{11} = 1 > 0$ ✓
$\det\begin{bmatrix}1 & 0.607 \\ 0.607 & 1\end{bmatrix} = 1 - 0.368 = 0.632 > 0$ ✓
$\det(K) \approx 1(1 - 0.018) - 0.607(0.607 - 0.0015) + 0.011(0.082 - 0.011) \approx 0.982 - 0.368 + 0.001 \approx 0.615 > 0$ ✓

所有顺序主子式为正， $K$ 不仅半正定，而且正定。这与 RBF 核对不同点生成正定矩阵的已知性质一致（Micchelli, 1986）。

谱结构：通过数值计算，特征值约为 $\lambda_1 \approx 1.68, \, \lambda_2 \approx 0.93, \, \lambda_3 \approx 0.39$ 。注意 $\lambda_1 + \lambda_2 + \lambda_3 = 3 = \text{tr}(K)$ （RBF 核的对角元素全为 1，迹等于 $n$ ），这与 Art. 2 特征分解中”特征值之和等于迹”一致。

Kernel Trick 的矩阵代数： $K = \Phi\Phi^T$

让我们用多项式核的具体例子看 $K = \Phi\Phi^T$ 是如何工作的。

取 2D 数据点 $\mathbf{x}_1 = (1, 0)^T, \, \mathbf{x}_2 = (0, 1)^T$ ，使用二次多项式核 $k(\mathbf{x}, \mathbf{y}) = (\mathbf{x}^T\mathbf{y} + 1)^2$ 。

直接计算 $K$ ：

$K_{11} = (1 \cdot 1 + 0 \cdot 0 + 1)^2 = 4$

$K_{12} = K_{21} = (1 \cdot 0 + 0 \cdot 1 + 1)^2 = 1$

$K_{22} = (0 \cdot 0 + 1 \cdot 1 + 1)^2 = 4$

$K = \begin{bmatrix}4 & 1 \\ 1 & 4\end{bmatrix}$

通过 $\Phi$ 计算：显式特征映射 $\phi(\mathbf{x}) = (x_1^2, x_2^2, \sqrt{2}x_1 x_2, \sqrt{2}x_1, \sqrt{2}x_2, 1)^T$ 。

$\phi(\mathbf{x}_1) = (1, 0, 0, \sqrt{2}, 0, 1)^T, \quad \phi(\mathbf{x}_2) = (0, 1, 0, 0, \sqrt{2}, 1)^T$

$\Phi = \begin{bmatrix}1 & 0 & 0 & \sqrt{2} & 0 & 1 \\ 0 & 1 & 0 & 0 & \sqrt{2} & 1\end{bmatrix}$

$\Phi\Phi^T = \begin{bmatrix}1 + 0 + 0 + 2 + 0 + 1 & 0 + 0 + 0 + 0 + 0 + 1 \\ 0 + 0 + 0 + 0 + 0 + 1 & 0 + 1 + 0 + 0 + 2 + 1\end{bmatrix} = \begin{bmatrix}4 & 1 \\ 1 & 4\end{bmatrix} = K \quad ✓$

两种路径得到完全相同的 $K$ 。但 kernel trick 的价值在于：我们可以只走第一条路（直接算 $K$ ），绕开显式构造 $\Phi$ 。 当核函数对应无穷维特征空间（如 RBF）时，第二条路根本走不通——但第一条路始终可行。

“核”的词源小考

“核”（kernel）这个词在数学中有多重含义，它们之间有历史联系但指代不同的概念：

零空间意义的核（Kernel of a linear map）：线性映射 $T$ 的核 $\ker(T) = \{\mathbf{x} : T\mathbf{x} = \mathbf{0}\}$ ，即被映射到零的所有向量。这是代数学中最基本的用法。

积分核（Integral kernel）：积分变换 $(Tf)(x) = \int k(x, y) f(y) dy$ 中的函数 $k(x, y)$ 。这里的”核”是变换的”核心”——定义变换的函数。Mercer 定理中的核函数正是这个意义。

正定核 / 再生核（Positive definite kernel / Reproducing kernel）：满足 Mercer 条件的对称正定函数，它在再生核 Hilbert 空间（RKHS）中充当再生核—— $\langle k(\cdot, \mathbf{x}), f \rangle_\mathcal{H} = f(\mathbf{x})$ ，即用核函数可以”再生”函数在任意点的值。

ML 中的 kernel：沿用了积分核的概念——核函数定义了数据点之间的相似度，kernel 矩阵是这个函数的离散化。

从积分核到正定核再到 RKHS，这条线索是 Mercer (1909) → Aronszajn (1950) → Wahba (1990) → Schölkopf & Smola (2002) 逐步建立的。

与前后文的连接

回望：Kernel 矩阵是 Part 1 工具的自然延伸

特征分解（Art. 2 特征分解）： $K$ 是对称半正定矩阵，谱定理保证它有实非负特征值和正交特征向量。Kernel PCA 本质上就是对 $K$ 做特征分解。
SVD（Art. 3 SVD）：如果我们把 $K$ 看成 $\Phi\Phi^T$ ，那么 $K$ 的特征分解等价于 $\Phi$ 的 SVD 的一部分—— $K = U\Sigma^2 U^T$ ，其中 $U, \Sigma$ 来自 $\Phi = U\Sigma V^T$ 。
PCA（Art. 6 PCA）：Kernel PCA 是 PCA 的直接推广，将线性降维扩展到非线性流形。

前瞻：三族算子的第二、第三交汇

图 Laplacian（Art. 21 图 Laplacian）：RBF kernel 矩阵经常被用来构造图—— $K_{ij}$ 作为边权，然后构建图 Laplacian $L = D - K$ 。谱聚类的第一步就是用 kernel 建图，第二步才是图 Laplacian 的特征分解。Kernel 矩阵是图 Laplacian 的上游。
Efficient Attention（Art. 25 Efficient Attention）：Transformer 的注意力矩阵 $A_{ij} = \text{softmax}(\mathbf{q}_i^T \mathbf{k}_j / \sqrt{d})$ 本质上是一个 kernel 矩阵——query 和 key 的内积经过 softmax 变成非负的相似度。线性注意力（linear attention）的核心思想正是用显式特征映射 $\phi$ 替代 softmax，使计算从 $O(n^2)$ 降到 $O(n)$ ——这是 kernel trick 的逆向应用。

总结与展望

本文建立了 kernel 矩阵作为”数据定义的给定算子”的完整理论框架：

Kernel 矩阵 $K_{ij} = k(\mathbf{x}_i, \mathbf{x}_j)$ 将数据点之间的相似度编码为一个对称半正定矩阵
Mercer 定理： $k$ 是正定核 $\iff$ 存在特征映射 $\phi$ 使得 $k(\mathbf{x}, \mathbf{y}) = \langle\phi(\mathbf{x}), \phi(\mathbf{y})\rangle$ 。核函数有谱展开 $k(\mathbf{x}, \mathbf{y}) = \sum_i \lambda_i e_i(\mathbf{x})e_i(\mathbf{y})$
Kernel trick： $K = \Phi\Phi^T$ ，所有只涉及内积的算法可以隐式地在高维特征空间中工作，复杂度只取决于 $n$
Kernel PCA：对 kernel 矩阵做特征分解，将 PCA 从线性推广到非线性
Gaussian Process： $K^{-1}$ （通过 Cholesky 分解高效计算）是 GP 预测的核心
连接全景：kernel 矩阵是 Part 1 工具（特征分解、SVD、PCA）在 Part 2 算子语境下的自然延伸，同时是图 Laplacian 和 Efficient Attention 的上游

下一篇我们转向图 Laplacian——三族算子的第二族。如果 kernel 矩阵编码的是”两点有多相似”，图 Laplacian 编码的是”两点的差异如何沿图传播”。当你用 RBF kernel 给数据建一个相似度图，再构造图 Laplacian，谱聚类的数学就自然浮现了。