SSM / Mamba：矩阵对角化的胜利

这是整条 27 篇矩阵数学路径的最后一篇文章。

在 Art. 23 学习算子中，我们预告了 Part 3 的三个汇聚方向：LoRA（压缩微调）、Efficient Attention（加速推理）、SSM/Mamba（高效架构设计）。前两个方向都是事后发现矩阵的低秩性然后加以利用。SSM/Mamba 走了一条不同的路——在架构设计阶段就主动施加对角结构约束，将 Art. 2 特征分解中”对角化简化一切”的洞察推到极致。

更深层地看，SSM/Mamba 将整条路径的三段弧线汇聚在一个点上：

Part 1 的工具（特征分解、对角化）提供了数学基础
Part 2 的概念（state-space 模型、矩阵指数、离散化，来自 Art. 17 Kalman）提供了建模框架
Part 3 的思路（把给定算子变成可学习参数）提供了设计哲学

这三条线在 SSM/Mamba 这一点交汇。让我们从头开始。

为什么需要 SSM？序列建模的困境

Transformer 的 self-attention 是一种强大的序列建模机制，但它有一个根本性的计算瓶颈：注意力矩阵的大小是 $O(L^2)$ ，其中 $L$ 是序列长度。对于长序列（音频波形 $L \sim 10^5$ 、基因组序列 $L \sim 10^6$ ）， $O(L^2)$ 的计算和内存开销变得不可承受。

Art. 25 Efficient Attention 试图通过低秩近似来降低 attention 的复杂度。但另一条路线更加激进：完全抛弃 attention，回到递推模型的框架。

递推模型（RNN）天然是 $O(L)$ 的——每步只需要固定大小的状态更新。但经典 RNN 有梯度消失/爆炸问题，难以捕获长程依赖。问题在于：

如何设计一个递推模型，既保持 $O(L)$ 的计算复杂度，又能有效建模长程依赖？

答案来自一个经典的数学领域：连续时间状态空间模型——正是 Art. 17 连续系统与 Kalman 中 Kalman 滤波使用的那套公式。但这次，矩阵不是物理系统给定的，而是从数据中学出来的。

从 Kalman 到 SSM：同一公式，不同语境

State-Space 公式回顾

在 Art. 17 连续系统与 Kalman 中，我们建立了连续时间状态空间模型的标准形式：

$\dot{\mathbf{x}}(t) = A\mathbf{x}(t) + B\mathbf{u}(t)$ $\mathbf{y}(t) = C\mathbf{x}(t) + D\mathbf{u}(t)$

逐项回顾（沿用 Art. 17 的符号）：

$\mathbf{x}(t) \in \mathbb{R}^N$ ：状态向量——系统的内部记忆
$\mathbf{u}(t) \in \mathbb{R}^1$ ：输入信号（在序列建模中，这是输入 token 的特征投影，为简化讨论取标量）
$\mathbf{y}(t) \in \mathbb{R}^1$ ：输出信号
$A \in \mathbb{R}^{N \times N}$ ：状态矩阵——编码记忆如何自演化
$B \in \mathbb{R}^{N \times 1}$ ：输入矩阵——输入如何注入状态
$C \in \mathbb{R}^{1 \times N}$ ：输出矩阵——状态如何映射为输出
$D \in \mathbb{R}^{1 \times 1}$ ：直通矩阵——输入对输出的直接影响（通常设为 0，下文省略）

Kalman 与 SSM 的关键差异

Art. 17 中，这套公式描述的是物理系统（卫星轨道、电路状态）， $(A, B, C)$ 由物理定律和传感器特性决定——它们是给定的（Part 2 的”给定算子”）。

在 SSM/Mamba 中，完全相同的公式被用于序列建模（语言、音频、DNA）， $(A, B, C)$ 是从数据中学习的参数——它们是学习算子（Part 3 的核心转变）。

	Kalman 滤波（Art. 17）	SSM / Mamba（本文）
$A$ 的来源	物理系统的动力学方程	可学习参数（数据驱动）
$B, C$ 的来源	传感器模型、系统结构	可学习参数
目标	从噪声观测中推断隐状态（最优估计）	从输入序列预测输出（序列建模）
核心挑战	处理噪声和不确定性	长程依赖 + 计算效率
$A$ 的结构	任意（由物理决定）	约束为对角或 DPLR（对角+低秩）结构

关键的一句话总结：

Kalman 是给定系统的最优滤波，SSM 是学出来的序列建模。

两者用的是同一套数学——state-space 公式、矩阵指数、离散化——但参数的来源和目标完全不同。

HiPPO：连续时间记忆的数学框架

直接把 $A$ 初始化为随机矩阵然后训练，效果并不好——模型难以学会长程依赖。Gu et al. (2020) 在 HiPPO（High-order Polynomial Projection Operators）框架中给出了一个关键洞察：

$A$ 矩阵不应该随机初始化——它应该编码一种”最优记忆”策略。

HiPPO 的核心思想

想象你在看一段连续信号 $u(t)$ 。在任意时刻 $t$ ，你想用有限的 $N$ 维状态向量 $\mathbf{x}(t)$ 来压缩地记住 $u$ 在 $[0, t]$ 上的全部历史。

HiPPO 的方法是：用一组正交多项式基函数（如 Legendre 多项式）来逼近信号的历史。状态向量 $\mathbf{x}(t)$ 的第 $n$ 个分量 $x_n(t)$ 就是信号 $u$ 在第 $n$ 个基函数上的投影系数：

$x_n(t) = \int_0^t u(s) \cdot P_n^{(t)}(s)\, ds$

其中 $P_n^{(t)}$ 是适当定义的正交多项式（在区间 $[0, t]$ 上的 Legendre 多项式经过缩放和平移）。

Gu et al. (2020) 的关键推导表明：这个投影系数的更新规则恰好可以写成状态空间形式 $\dot{\mathbf{x}}(t) = A\mathbf{x}(t) + Bu(t)$ ，其中 $A$ 是一个特定的矩阵。

HiPPO-LegS 矩阵

最重要的 HiPPO 变体是 HiPPO-LegS（Leg = Legendre，S = Scaled），其状态矩阵 $A$ 的定义为：