连续时间线性系统与 Kalman 滤波：从离散步进到平滑流动

回顾 Art. 14 算子全景的概念地图：

	状态可观测	状态隐藏
离散状态	马尔可夫链（Art. 15 马尔可夫链）	HMM（Art. 16 HMM）
连续状态	线性动力系统 ← 你在这里	Kalman 滤波 ← 你在这里

我们沿着时序算子子线来到最后一站。前两篇处理的是离散状态——有限个类别之间的跳转，转移矩阵的每一行是概率分布。现在，我们从表格的上方移到下方：状态不再是 $\{s_1, \ldots, s_N\}$ 这样的离散类别，而是一个连续向量 $\mathbf{x}(t) \in \mathbb{R}^n$ ——卫星的位置和速度、电路中的电压和电流、机器人关节的角度和角速度。

核心变化：

离散 → 连续：差分方程 $\mathbf{x}_{k+1} = A\mathbf{x}_k$ 变成微分方程 $\dot{\mathbf{x}} = A\mathbf{x}$
矩阵幂 → 矩阵指数： $A^n$ 变成 $e^{At}$
模 < 1 → 实部 < 0：离散稳定性判据变成连续稳定性判据
Forward 算法 → Kalman 滤波：离散求和变成连续积分，但”预测 + 修正”的核心结构不变

为什么这在 ML 中重要？因为状态空间模型（State-Space Model, SSM）——Mamba（Art. 26 SSM/Mamba）的数学基础——正是连续时间线性系统的离散化。本文建立的公式将在 Part 3 中直接复用。

从离散到连续： $A^n$ 变成 $e^{At}$

离散系统回顾

在 Art. 15 马尔可夫链中，系统的演化规则是：

$\mathbf{x}_{k+1} = A\mathbf{x}_k$

从初始状态 $\mathbf{x}_0$ 出发， $k$ 步之后：

$\mathbf{x}_k = A^k \mathbf{x}_0$

对角化 $A = Q\Lambda Q^{-1}$ 后（Art. 2 特征分解）：

$\mathbf{x}_k = Q \Lambda^k Q^{-1} \mathbf{x}_0 = Q\, \text{diag}(\lambda_1^k, \lambda_2^k, \ldots, \lambda_n^k)\, Q^{-1} \mathbf{x}_0$

每个特征方向独立演化，第 $i$ 个分量乘以 $\lambda_i^k$ 。离散系统是”一步一步走”——每乘一次 $A$ 就前进一步。

连续系统：微分方程形式

现在想象步长无限缩小。离散系统中 $\mathbf{x}_{k+1} - \mathbf{x}_k = (A - I)\mathbf{x}_k$ 描述的是一步的变化量。当步长趋于零时，差分变成导数：

$\dot{\mathbf{x}}(t) = \frac{d\mathbf{x}}{dt} = A\mathbf{x}(t)$

这是一阶线性常微分方程组（linear ODE system）。 $A \in \mathbb{R}^{n \times n}$ 是系统矩阵（system matrix），它编码了状态各分量之间的耦合关系。 $\dot{\mathbf{x}}$ 是状态的瞬时变化率——连续系统是”平滑流动”——状态在每个瞬间都在改变，而非等到下一步。

类比：离散系统像翻阅照片——每张照片是一个时间步的快照。连续系统像播放视频——状态在时间轴上连续变化。

解：矩阵指数 $e^{At}$

标量情形大家很熟悉： $\dot{x} = ax$ 的解是 $x(t) = e^{at} x(0)$ 。矩阵情形完全平行：

$\boxed{\mathbf{x}(t) = e^{At}\, \mathbf{x}(0)}$

其中 $e^{At}$ 是矩阵指数（matrix exponential），定义为幂级数：

$e^{At} = \sum_{k=0}^{\infty} \frac{(At)^k}{k!} = I + At + \frac{(At)^2}{2!} + \frac{(At)^3}{3!} + \cdots$

逐项理解这个级数：

$k = 0$ ： $I$ （单位矩阵，什么都不做）
$k = 1$ ： $At$ （线性项， $t$ 很小时的一阶近似： $\mathbf{x}(t) \approx (I + At)\mathbf{x}(0)$ ）
$k = 2$ ： $\frac{A^2 t^2}{2!}$ （二阶修正）
后续项：越来越高阶的修正

为什么级数收敛？ 对于任何有限维矩阵 $A$ 和任何实数 $t$ ，这个级数绝对收敛。直觉上， $\frac{\|A\|^k t^k}{k!}$ 的增长被阶乘 $k!$ “压制”——就像标量的 $e^{at} = \sum \frac{(at)^k}{k!}$ 对任何 $a$ 都收敛一样。严格证明可参考 Åström & Murray (2021), Appendix C。

验证它确实是解：对 $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$ 关于 $t$ 求导：

$\frac{d}{dt} e^{At} = \frac{d}{dt}\left(I + At + \frac{A^2 t^2}{2!} + \frac{A^3 t^3}{3!} + \cdots\right) = A + A^2 t + \frac{A^3 t^2}{2!} + \cdots = A \cdot e^{At}$

所以 $\dot{\mathbf{x}}(t) = A e^{At}\mathbf{x}(0) = A\mathbf{x}(t)$ ——确实满足微分方程。 $\blacksquare$

Inline Box：矩阵幂级数与标量 Taylor 展开的正式对应

标量矩阵
$\dot{x} = ax$ $\dot{\mathbf{x}} = A\mathbf{x}$
解： $x(t) = e^{at} x(0)$ 解： $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$
$e^{at} = \sum_{k=0}^{\infty} \frac{(at)^k}{k!}$ $e^{At} = \sum_{k=0}^{\infty} \frac{(At)^k}{k!}$
稳定： $a < 0$ 稳定：所有特征值 $\text{Re}(\lambda_i) < 0$
振荡： $a$ 是纯虚数振荡：特征值是纯虚数

从标量到矩阵，公式形式完全相同——“标量 $a$ 的位置换成矩阵 $A$ ，标量指数换成矩阵指数”。这不是类比，而是严格的数学推广。唯一的注意事项是矩阵乘法不满足交换律，所以 $e^{(A+B)t} \neq e^{At}e^{Bt}$ （除非 $AB = BA$ ）。

标量	矩阵
$\dot{x} = ax$	$\dot{\mathbf{x}} = A\mathbf{x}$
解： $x(t) = e^{at} x(0)$	解： $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$
$e^{at} = \sum_{k=0}^{\infty} \frac{(at)^k}{k!}$	$e^{At} = \sum_{k=0}^{\infty} \frac{(At)^k}{k!}$
稳定： $a < 0$	稳定：所有特征值 $\text{Re}(\lambda_i) < 0$
振荡： $a$ 是纯虚数	振荡：特征值是纯虚数

通过对角化计算矩阵指数

直接用幂级数求和需要无限项，实际中不可行。但如果 $A$ 可以对角化为 $A = Q\Lambda Q^{-1}$ ，那么（Art. 2 特征分解中已经预告过）：

$A^k = Q\Lambda^k Q^{-1}$

代入幂级数：

$e^{At} = \sum_{k=0}^{\infty} \frac{(Q\Lambda Q^{-1})^k t^k}{k!} = Q \left(\sum_{k=0}^{\infty} \frac{\Lambda^k t^k}{k!}\right) Q^{-1} = Q\, e^{\Lambda t}\, Q^{-1}$

而对角矩阵的指数就是逐元素取指数：

$e^{\Lambda t} = \text{diag}(e^{\lambda_1 t}, e^{\lambda_2 t}, \ldots, e^{\lambda_n t})$

所以：

$\boxed{e^{At} = Q\, \text{diag}(e^{\lambda_1 t}, e^{\lambda_2 t}, \ldots, e^{\lambda_n t})\, Q^{-1}}$

这与离散情形 $A^k = Q\,\text{diag}(\lambda_1^k, \ldots, \lambda_n^k)\, Q^{-1}$ 完全平行——从 $\lambda_i^k$ 变成了 $e^{\lambda_i t}$ 。

数值例子

取 $A = \begin{bmatrix}-1 & 0.5 \\ 0 & -2\end{bmatrix}$ 。

第一步：特征分解。 $A$ 是上三角矩阵，特征值直接在对角线上： $\lambda_1 = -1$ , $\lambda_2 = -2$ 。

对 $\lambda_1 = -1$ ： $(A + I)\mathbf{q}_1 = \begin{bmatrix}0 & 0.5 \\ 0 & -1\end{bmatrix}\mathbf{q}_1 = \mathbf{0}$ ，得 $\mathbf{q}_1 = \begin{bmatrix}1 \\ 0\end{bmatrix}$ 。

对 $\lambda_2 = -2$ ： $(A + 2I)\mathbf{q}_2 = \begin{bmatrix}1 & 0.5 \\ 0 & 0\end{bmatrix}\mathbf{q}_2 = \mathbf{0}$ ，得 $\mathbf{q}_2 = \begin{bmatrix}-0.5 \\ 1\end{bmatrix}$ 。

$Q = \begin{bmatrix}1 & -0.5 \\ 0 & 1\end{bmatrix}, \quad Q^{-1} = \begin{bmatrix}1 & 0.5 \\ 0 & 1\end{bmatrix}$

第二步：矩阵指数。

$e^{At} = \begin{bmatrix}1 & -0.5 \\ 0 & 1\end{bmatrix} \begin{bmatrix}e^{-t} & 0 \\ 0 & e^{-2t}\end{bmatrix} \begin{bmatrix}1 & 0.5 \\ 0 & 1\end{bmatrix} = \begin{bmatrix}e^{-t} & 0.5(e^{-t} - e^{-2t}) \\ 0 & e^{-2t}\end{bmatrix}$

第三步：验证。 取 $\mathbf{x}(0) = \begin{bmatrix}1 \\ 1\end{bmatrix}$ ：

$\mathbf{x}(t) = e^{At}\mathbf{x}(0) = \begin{bmatrix}e^{-t} + 0.5(e^{-t} - e^{-2t}) \\ e^{-2t}\end{bmatrix} = \begin{bmatrix}1.5e^{-t} - 0.5e^{-2t} \\ e^{-2t}\end{bmatrix}$

在 $t = 1$ ： $\mathbf{x}(1) = \begin{bmatrix}1.5 \times 0.368 - 0.5 \times 0.135 \\ 0.135\end{bmatrix} = \begin{bmatrix}0.484 \\ 0.135\end{bmatrix}$ 。

两个分量都在衰减（因为 $\lambda_1 = -1 < 0, \lambda_2 = -2 < 0$ ），但以不同的速率—— $x_2$ 衰减更快（ $e^{-2t}$ vs. $e^{-t}$ ）。

稳定性：特征值的实部决定一切

连续系统的稳定性判据

对角化后，每个特征方向的分量独立演化：第 $i$ 个分量的时间行为由 $e^{\lambda_i t}$ 决定。

如果 $\lambda_i$ 是实数：

$\lambda_i < 0$ ： $e^{\lambda_i t} \to 0$ （指数衰减，稳定）
$\lambda_i = 0$ ： $e^{\lambda_i t} = 1$ （常数，临界）
$\lambda_i > 0$ ： $e^{\lambda_i t} \to \infty$ （指数增长，不稳定）

如果 $\lambda_i$ 是复数 $\lambda_i = \alpha + i\beta$ ：

$e^{\lambda_i t} = e^{(\alpha + i\beta)t} = e^{\alpha t} \cdot e^{i\beta t} = e^{\alpha t}(\cos\beta t + i\sin\beta t)$

$\alpha < 0$ ：振荡衰减（稳定螺旋）
$\alpha = 0$ ：等幅振荡（中心，临界稳定）
$\alpha > 0$ ：振荡增长（不稳定螺旋）

稳定性完全由实部 $\alpha = \text{Re}(\lambda_i)$ 决定，虚部 $\beta = \text{Im}(\lambda_i)$ 只决定振荡频率。

$\boxed{\text{连续系统稳定} \iff \text{所有特征值满足 } \text{Re}(\lambda_i) < 0}$

与离散系统的对比

	离散系统 $\mathbf{x}_{k+1} = A\mathbf{x}_k$	连续系统 $\dot{\mathbf{x}} = A\mathbf{x}$
解	$\mathbf{x}_k = A^k \mathbf{x}_0$	$\mathbf{x}(t) = e^{At}\mathbf{x}(0)$
特征方向的行为	$\lambda_i^k$	$e^{\lambda_i t}$
稳定条件	$	\lambda_i
稳定区域	复平面上的单位圆内部	复平面上的左半平面
振荡条件	$\lambda_i$ 有虚部	$\lambda_i$ 有虚部

关键联系：离散的 $|\lambda| < 1$ 和连续的 $\text{Re}(\lambda) < 0$ 通过映射 $z = e^{s\Delta t}$ （ $s$ 是连续特征值， $z$ 是离散特征值）联系起来——如果 $\text{Re}(s) < 0$ ，则 $|e^{s\Delta t}| = e^{\text{Re}(s)\Delta t} < 1$ 。这个映射正是下文离散化的核心。

下图并排展示了两种稳定区域——离散系统的单位圆和连续系统的左半平面，以及连接它们的离散化映射 $z = e^{s\Delta t}$ 。

稳定区域对比：离散系统 vs 连续系统

离散：|λ| < 1（单位圆内） ↔ 连续：Re(λ) < 0（左半平面）通过 z = eˢΔᵗ 联系

复特征值 → 振荡行为

当系统矩阵 $A$ 有复特征值 $\lambda = \alpha \pm i\beta$ 时，对应的运动是振荡（oscillation）叠加指数包络（exponential envelope）：

振荡频率： $\omega = \beta$ （弧度/秒），周期 $T = 2\pi / \beta$
包络变化： $e^{\alpha t}$ ——如果 $\alpha < 0$ ，振幅随时间衰减；如果 $\alpha > 0$ ，振幅随时间增长

一个典型的物理例子：阻尼弹簧系统 $m\ddot{x} + c\dot{x} + kx = 0$ 可以写成一阶形式

$\begin{bmatrix}\dot{x}\\\dot{v}\end{bmatrix} = \begin{bmatrix}0 & 1\\-k/m & -c/m\end{bmatrix}\begin{bmatrix}x\\v\end{bmatrix}$

当阻尼 $c$ 较小时，特征值为复数（欠阻尼），系统表现为衰减振荡——这正是弹簧振子的经典行为。

可视化：线性系统的相平面

下面的交互组件展示了六种典型 2D 线性系统的状态演化。每条彩色轨迹从不同的初始条件出发，在系统矩阵 $A$ 的作用下沿 $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$ 演化。右侧面板显示特征值在复平面上的位置——绿色表示稳定（左半平面），红色表示不稳定（右半平面）。

2D 线性系统状态演化

ẋ = Ax 的相平面轨迹

A = [-1, 0.5; 0, -2]两个负实特征值：所有轨迹指数衰减到原点

特征值位置

A = [-1, 0.5]
    [0, -2]

连续系统稳定性判据：
Re(λᵢ) < 0 ⟹ 稳定
（对比离散系统：|λᵢ| < 1）

t = 3.00

Re(λ) < 0 稳定Re(λ) > 0 不稳定Re(λ) = 0 临界

探索建议：

稳定节点：观察所有轨迹如何从不同方向收敛到原点。特征值都在左半平面，两个衰减速率不同。
不稳定节点：轨迹向外发散。特征值都在右半平面。
稳定螺旋：轨迹螺旋式收敛——这是复特征值（负实部）的标志性行为。
不稳定螺旋：轨迹螺旋式发散。复特征值（正实部）。
中心（纯振荡）：轨迹在闭合曲线上运动——纯虚特征值，既不收敛也不发散。
鞍点：一正一负特征值——沿一个方向收敛，另一个方向发散。

离散化：从连续到离散的桥梁

为什么需要离散化？因为数字计算机只能处理离散的时间步。连续系统 $\dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}$ （加入了输入 $\mathbf{u}$ ）需要被转换为离散形式 $\mathbf{x}_{k+1} = \bar{A}\mathbf{x}_k + \bar{B}\mathbf{u}_k$ 才能在计算机上实现。这个转换在控制工程中由来已久，如今在 SSM/Mamba 中再次成为关键——Mamba 的状态矩阵就是通过离散化从连续参数得到的。

零阶保持（Zero-Order Hold, ZOH）

ZOH 假设输入 $\mathbf{u}(t)$ 在每个采样间隔 $[k\Delta t, (k+1)\Delta t)$ 内保持恒定： $\mathbf{u}(t) = \mathbf{u}_k$ 。

从连续方程 $\dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}$ 出发，在 $[k\Delta t, (k+1)\Delta t)$ 上积分，利用常数变易法：

$\mathbf{x}((k+1)\Delta t) = e^{A\Delta t}\mathbf{x}(k\Delta t) + \left(\int_0^{\Delta t} e^{A\tau}\, d\tau\right) B\, \mathbf{u}_k$

定义离散化后的矩阵：

$\bar{A} = e^{A\Delta t}, \qquad \bar{B} = \left(\int_0^{\Delta t} e^{A\tau}\, d\tau\right) B = A^{-1}(e^{A\Delta t} - I) B$

（当 $A$ 可逆时；不可逆时可通过级数展开计算。）

则离散系统为：

$\mathbf{x}_{k+1} = \bar{A}\mathbf{x}_k + \bar{B}\mathbf{u}_k$

ZOH 离散化的关键性质：

精确性：在采样点上，离散系统给出的值与连续系统完全一致（不是近似）
稳定性保持：如果连续系统稳定（ $\text{Re}(\lambda_i) < 0$ ），离散系统也稳定（ $|e^{\lambda_i \Delta t}| < 1$ ）

双线性变换（Bilinear Transform / Tustin’s Method）

双线性变换用一种不同的方式将连续系统转换为离散系统。核心思想是用梯形法则近似积分：

$s \approx \frac{2}{\Delta t} \cdot \frac{z - 1}{z + 1}$

这给出：

$\bar{A} = \left(I - \frac{\Delta t}{2}A\right)^{-1}\left(I + \frac{\Delta t}{2}A\right)$

$\bar{B} = \left(I - \frac{\Delta t}{2}A\right)^{-1} \Delta t \cdot B$

双线性变换的关键性质：

保持频率响应：将连续系统的频率特性保真地映射到离散域
绝对稳定性保持：连续系统的左半平面精确映射到离散系统的单位圆内部——这意味着稳定的连续系统离散化后一定稳定（无论 $\Delta t$ 多大）
这正是 S4 (Structured State Spaces) 论文中使用的离散化方法（Gu, Goel & Ré, 2022）

离散化方法对比

方法	离散 $\bar{A}$	精确性	稳定性保持	用于
ZOH	$e^{A\Delta t}$	采样点精确	是	控制工程（经典）
双线性变换	$(I - \frac{\Delta t}{2}A)^{-1}(I + \frac{\Delta t}{2}A)$	频率保真	无条件	S4 / SSM
欧拉前向	$I + A\Delta t$	$O(\Delta t)$ 近似	不保证（ $\Delta t$ 大时可能不稳定）	教学/简单仿真

为什么 SSM/Mamba 关注离散化？ 因为 SSM 的核心参数（ $A, B, C, D$ ）定义在连续时间域——这赋予了模型分辨率不变性（resolution invariance）。训练时用特定的 $\Delta t$ 离散化；推理时可以改变 $\Delta t$ 以适应不同的输入分辨率。离散化方法的选择直接影响数值稳定性和计算效率。

Kalman 滤波：连续世界的”Forward 算法”

问题设置

回顾 Art. 16 HMM 的核心问题：状态隐藏了，只能通过噪声观测来推断。 Kalman 滤波处理的是同一个问题，但在连续状态空间中：

	HMM（Art. 16）	Kalman 滤波（本文）
隐状态	离散 $X_t \in \{s_1, \ldots, s_N\}$	连续 $\mathbf{x}_t \in \mathbb{R}^n$
状态转移	转移矩阵 $A$ （概率）	状态方程 $\mathbf{x}_{k+1} = A\mathbf{x}_k + \mathbf{w}_k$ （线性 + 噪声）
观测	发射矩阵 $B$ （概率）	观测方程 $\mathbf{y}_k = C\mathbf{x}_k + \mathbf{v}_k$ （线性 + 噪声）
推断方法	Forward 算法（求和）	Kalman 滤波（高斯积分）
核心结构	传播 + 修正	预测 + 更新

State-Space 形式 $(A, B, C, D)$

一个完整的线性 state-space 模型由四个矩阵描述：

$\dot{\mathbf{x}}(t) = A\mathbf{x}(t) + B\mathbf{u}(t)$ $\mathbf{y}(t) = C\mathbf{x}(t) + D\mathbf{u}(t)$

逐项解释：

$\mathbf{x}(t) \in \mathbb{R}^n$ ：状态向量——系统的内部状态，维度 $n$ 称为状态维度
$\mathbf{u}(t) \in \mathbb{R}^m$ ：输入向量——外部驱动
$\mathbf{y}(t) \in \mathbb{R}^p$ ：输出向量——可观测的量
$A \in \mathbb{R}^{n \times n}$ ：状态矩阵——描述状态的自演化（没有输入时系统如何自行演化）
$B \in \mathbb{R}^{n \times m}$ ：输入矩阵——描述输入如何影响状态（本文首次引入）
$C \in \mathbb{R}^{p \times n}$ ：输出矩阵——描述状态如何被观测
$D \in \mathbb{R}^{p \times m}$ ：直通矩阵——描述输入对输出的直接影响（很多系统中 $D = 0$ ）

第一个方程是状态方程——描述系统的内部动态。第二个是观测方程——描述我们能看到什么。

与 HMM 的对应：HMM 的转移矩阵 $A_{\text{HMM}}$ 对应 state-space 的 $A$ （状态如何演化），HMM 的发射矩阵 $B_{\text{HMM}}$ 对应 state-space 的 $C$ （状态如何被观测）。注意符号差异：HMM 文献用 $B$ 表示发射矩阵，state-space 文献用 $B$ 表示输入矩阵——完全不同的含义，需要根据上下文区分。

离散 Kalman 滤波

实际中，Kalman 滤波通常在离散时间上实现。离散化后的 state-space 模型为：

$\mathbf{x}_{k+1} = A\mathbf{x}_k + B\mathbf{u}_k + \mathbf{w}_k, \quad \mathbf{w}_k \sim \mathcal{N}(\mathbf{0}, Q)$ $\mathbf{y}_k = C\mathbf{x}_k + \mathbf{v}_k, \quad \mathbf{v}_k \sim \mathcal{N}(\mathbf{0}, R)$

其中 $\mathbf{w}_k$ 是过程噪声（模型不完美性）， $\mathbf{v}_k$ 是观测噪声（传感器不完美性）， $Q$ 和 $R$ 分别是它们的协方差矩阵。

Kalman 滤波在每个时间步执行两步操作——与 HMM 的 Forward 算法结构完全对应：

步骤 1：预测（Predict） —— 对应 HMM Forward 的”传播”

$\hat{\mathbf{x}}_{k|k-1} = A\hat{\mathbf{x}}_{k-1|k-1} + B\mathbf{u}_{k-1}$ $P_{k|k-1} = A P_{k-1|k-1} A^T + Q$

第一个方程用状态方程将上一步的最优估计 $\hat{\mathbf{x}}_{k-1|k-1}$ 推进一步，得到先验估计 $\hat{\mathbf{x}}_{k|k-1}$ 。第二个方程将上一步的估计协方差矩阵 $P_{k-1|k-1}$ 也推进一步——不确定性通过 $A$ 传播，加上过程噪声 $Q$ 带来的额外不确定性。

步骤 2：更新（Update） —— 对应 HMM Forward 的”修正”

$K_k = P_{k|k-1} C^T (C P_{k|k-1} C^T + R)^{-1}$ $\hat{\mathbf{x}}_{k|k} = \hat{\mathbf{x}}_{k|k-1} + K_k(\mathbf{y}_k - C\hat{\mathbf{x}}_{k|k-1})$ $P_{k|k} = (I - K_kC) P_{k|k-1}$

逐项解释：

$K_k$ ：Kalman 增益（Kalman gain）——核心权重矩阵
$\mathbf{y}_k - C\hat{\mathbf{x}}_{k|k-1}$ ：新息（innovation）——实际观测与预测观测的差异
$\hat{\mathbf{x}}_{k|k}$ ：后验估计——用新息修正先验估计
$P_{k|k}$ ：后验协方差——更新后的不确定性（因为获得了观测信息，不确定性降低）

Kalman 增益的直觉

$K_k$ 是 Kalman 滤波的灵魂。它平衡两个信息来源之间的”可信度”：

$K_k = \underbrace{P_{k|k-1} C^T}_{\text{状态预测的不确定性投影到观测空间}} \cdot \underbrace{(C P_{k|k-1} C^T + R)^{-1}}_{\text{总不确定性（预测 + 观测）的逆}}$

直觉上：

如果观测噪声 $R$ 很小（传感器很准）： $K_k \to C^{-1}$ （右伪逆），更新步几乎完全相信观测
如果观测噪声 $R$ 很大（传感器很差）： $K_k \to 0$ ，更新步几乎忽略观测，完全相信模型预测
如果预测不确定性 $P_{k|k-1}$ 很大（模型不确定）： $K_k$ 增大，更依赖观测
如果预测不确定性 $P_{k|k-1}$ 很小（模型很确定）： $K_k$ 减小，更依赖模型

“预测 + 更新”与 HMM “传播 + 修正”的统一结构：

步骤	HMM Forward	Kalman 滤波
传播/预测	乘转移矩阵： $\alpha' = \alpha_{k-1} A$	状态方程推进： $\hat{x}_{k \mid k-1} = A \hat{x}_{k-1 \mid k-1}$
修正/更新	乘发射概率（逐元素）	用观测新息修正：加 $K_k$ 倍的新息
数学本质	离散概率的乘法	高斯分布的贝叶斯更新

结构完全一致：先用系统模型推进一步，再用观测数据修正估计。HMM 用离散概率的乘法实现修正，Kalman 用高斯分布的贝叶斯公式实现修正。这就是 Art. 16 HMM 末尾提到的”传播 + 修正范式”在连续状态空间的自然延伸。

下图展示了 Kalman 滤波的”预测-更新”循环结构，以及它与 HMM Forward 算法的对应关系。

Kalman 滤波的"预测-更新"循环

与 HMM Forward 的"传播-修正"结构完全对应

Inline Box：Cholesky 分解在协方差计算中的角色

Kalman 增益的计算涉及矩阵求逆 $(C P_{k|k-1} C^T + R)^{-1}$ 。在实际实现中，直接求逆数值不稳定且效率低。更好的做法是利用 Cholesky 分解。

因为 $S_k = C P_{k|k-1} C^T + R$ 是对称正定矩阵（协方差矩阵之和），它可以唯一分解为：

$S_k = L_k L_k^T$

其中 $L_k$ 是下三角矩阵。然后通过前代-回代求解 $S_k K_k^T = (C P_{k|k-1})^T$ ，避免显式求逆。

Cholesky 分解的优势：

计算量是一般 LU 分解的一半（ $\frac{1}{3}n^3$ vs. $\frac{2}{3}n^3$ ）

保证数值稳定性（利用了正定性）

保持协方差矩阵的正定性（避免舍入误差导致”负方差”）

这种技巧在高维 Kalman 滤波（如 GPS 定位、SLAM）中至关重要。“square-root Kalman filter”就是将整个算法改写为 Cholesky 因子的传播，而非协方差矩阵本身的传播。

Kalman 滤波的最优性

Kalman (1960) 证明了一个深刻的结果：在线性系统 + 高斯噪声的假设下，Kalman 滤波是最小均方误差（MMSE）最优估计器。 即：

$\hat{\mathbf{x}}_{k|k} = \mathbb{E}[\mathbf{x}_k \mid \mathbf{y}_0, \mathbf{y}_1, \ldots, \mathbf{y}_k]$

这不是某种启发式——它是给定所有过去观测后对状态的条件期望，在均方误差意义下不可能被任何其他估计器超越。这个最优性源于高斯分布在线性变换下的封闭性：高斯的先验乘以高斯的似然，后验仍然是高斯——所以只需要追踪均值和协方差就足够了。

与 SSM/Mamba 的 State-Space 公式对照

Kalman 滤波的 state-space 公式与 SSM/Mamba（Art. 26 SSM/Mamba）使用的公式是同一套公式，只是语境和目标不同：

	Kalman 滤波	SSM / Mamba
连续形式	$\dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}$ , $\mathbf{y} = C\mathbf{x}$	$\dot{\mathbf{x}} = A\mathbf{x} + B\mathbf{u}$ , $\mathbf{y} = C\mathbf{x} + D\mathbf{u}$
离散形式	$\mathbf{x}_{k+1} = \bar{A}\mathbf{x}_k + \bar{B}\mathbf{u}_k$	$\mathbf{x}_{k+1} = \bar{A}\mathbf{x}_k + \bar{B}\mathbf{u}_k$
$A$ 的结构	由物理系统决定	可学习参数（约束为对角矩阵）
$B, C$	由物理系统决定	可学习参数
离散化	ZOH（经典）	双线性变换（S4）/ ZOH（Mamba）
目标	从噪声观测中推断隐状态	从输入序列预测输出序列
核心关注点	最优估计（最小方差）	高效序列建模（线性时间复杂度）

关键差异：Kalman 滤波中 $(A, B, C)$ 由物理系统（力学方程、电路方程等）给定，是”领域知识”；SSM/Mamba 中 $(A, B, C)$ 是从数据中学习的参数——这正是 Part 3 “汇——学习算子”的核心转变。

关键连接：SSM/Mamba 将 $A$ 约束为对角矩阵（ $A = \text{diag}(a_1, \ldots, a_n)$ ），此时 $e^{At} = \text{diag}(e^{a_1 t}, \ldots, e^{a_n t})$ ——各状态分量独立演化，离散化后 $\bar{A}$ 也是对角的，使得卷积形式的并行计算成为可能。这是 Art. 2 特征分解中”对角化简化一切”这个洞察的终极应用。

总结与展望

本文从离散步进走向连续流动，完成了 Part 2 时序算子子线的最后一站：

连续线性系统 $\dot{\mathbf{x}} = A\mathbf{x}$ 的解是 $\mathbf{x}(t) = e^{At}\mathbf{x}(0)$ ——矩阵指数是矩阵幂的连续时间推广
矩阵指数的计算依赖对角化： $e^{At} = Q\,\text{diag}(e^{\lambda_1 t}, \ldots, e^{\lambda_n t})\, Q^{-1}$ ，与离散的 $A^k = Q\Lambda^k Q^{-1}$ 完全平行
稳定性判据从离散的 $|\lambda_i| < 1$ 变成连续的 $\text{Re}(\lambda_i) < 0$ ——特征值的实部决定系统命运
复特征值带来振荡行为——实部控制包络增长/衰减，虚部控制振荡频率
离散化（ZOH、双线性变换）将连续系统转换为可在计算机上实现的离散系统——这是 SSM/Mamba 的关键步骤
Kalman 滤波是 HMM Forward 算法在连续状态空间的自然延伸——“预测 + 更新”对应”传播 + 修正”，是线性高斯系统的 MMSE 最优估计
State-Space 公式 $(A, B, C, D)$ 统一了控制论和现代序列建模——同一套数学，不同的参数来源（物理给定 vs. 数据学习）

统一线索：特征分解贯穿始终。 $A^k = Q\Lambda^k Q^{-1}$ 描述离散迭代， $e^{At} = Qe^{\Lambda t}Q^{-1}$ 描述连续演化， $\bar{A} = e^{A\Delta t}$ 实现离散化——这三个公式构成一条因果链，连接着 Art. 2 特征分解→ 本文 → Art. 26 SSM/Mamba。

至此，Part 2 的时序算子子线画上句号。从最简单的马尔可夫链（离散、可观测）到 HMM（离散、隐藏）到本文的连续系统和 Kalman 滤波——我们沿着概念地图走完了”离散 → 连续”和”可观测 → 隐藏”的两个维度。

下一篇，我们进入 Part 2 的第二条子线——图/空间算子。PageRank 将马尔可夫链的思想应用于互联网的链接图：把整个万维网看作一个巨大的马尔可夫链，网页是状态，超链接定义转移概率，稳态分布就是每个网页的”重要性”。它是时序算子子线和图算子子线的交汇点——同时身兼两个身份，连接我们已经走过的路和即将踏入的新领域。

从离散到连续：AnA^nAn 变成 eAte^{At}eAt