强化学习基础：从 Agent 到 Bellman 方程

什么是强化学习

强化学习 (Reinforcement Learning, RL) 是机器学习的第三大范式，与监督学习和无监督学习并列。它的核心思想简单而深刻：一个 Agent（智能体）在 Environment（环境）中通过不断试错来学习最优行为策略。

与监督学习的关键区别在于：

没有标签：没人告诉 Agent 正确答案是什么，它只能从环境的奖励信号中学习
延迟奖励：一个好的决策可能要很久以后才能看到效果（比如下棋的开局布局）
探索-利用困境（Exploration-Exploitation Dilemma）：Agent 必须在”尝试新策略”和”使用已知好策略”之间平衡

在每个时间步，这个循环不断重复：

Agent 观察当前状态 (State) $s_t$
Agent 根据策略选择一个动作 (Action) $a_t$
环境返回奖励 (Reward) $r_t$ 和新状态 $s_{t+1}$
Agent 根据经验调整策略

马尔可夫决策过程 (MDP)

RL 的数学基础是马尔可夫决策过程（Markov Decision Process, MDP），由五元组 $(S, A, P, R, \gamma)$ 定义：

$S$ ：状态空间（所有可能的状态集合）
$A$ ：动作空间（所有可能的动作集合）
$P(s'|s,a)$ ：状态转移概率（在状态 $s$ 执行动作 $a$ 后转移到 $s'$ 的概率）
$R(s,a,s')$ ：奖励函数（状态转移时获得的即时奖励）
$\gamma \in [0,1)$ ：折扣因子（未来奖励的衰减系数，越远的奖励价值越低）

“马尔可夫”的含义是无记忆性：下一个状态只取决于当前状态和动作，不取决于历史。这个假设让问题变得可解。

LLM 连接：在后续文章当 RL 遇上 LLM 中我们会看到,LLM 的文本生成过程可以完美地建模为 MDP——state 是 prompt + 已生成的 token 序列,action 是从词汇表中选择下一个 token,policy 就是 LLM 本身。这里先建立直觉,详细映射见那篇文章。

策略与价值函数

有了 MDP 的框架，我们需要定义 Agent 的行为模式和评估标准：

策略 (Policy) $\pi(a|s)$ ：在状态 $s$ 下选择动作 $a$ 的概率分布。策略可以是确定性的（每个状态固定一个动作）或随机的（概率分布）。

状态价值函数 (State Value Function) $V^\pi(s)$ ：从状态 $s$ 开始，遵循策略 $\pi$ 能获得的期望累积折扣奖励：

$V^\pi(s) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s\right]$

动作价值函数 (Action Value Function) $Q^\pi(s,a)$ ：在状态 $s$ 执行动作 $a$ 后，遵循策略 $\pi$ 的期望回报：

$Q^\pi(s,a) = \mathbb{E}_\pi\left[\sum_{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, a_0 = a\right]$

公式中 $s_0 = s$ 表示”从时间步 0 开始、初始状态为 $s$ ”， $a_0 = a$ 表示”第一步选择的动作为 $a$ “。两个公式的区别仅在于： $V$ 只固定起始状态，第一步动作由策略 $\pi$ 决定； $Q$ 同时固定了起始状态和第一步动作。

V 和 Q 的互推关系：

从 Q 到 V — 在状态 $s$ 下，Agent 可以选择多个动作，每个动作 $a$ 有各自的 Q 值。状态的价值就是把所有动作的 Q 值按策略选择概率做加权平均：

$V^\pi(s) = \sum_a \pi(a|s) \cdot Q^\pi(s,a)$

从 V 到 Q — 反过来，在状态 $s$ 选择动作 $a$ 之后，环境可能转移到多个下一状态 $s'$ 。动作的价值就是对所有可达的下一状态，按转移概率加权求和（即时奖励 + 折扣后的下一状态价值）：

$Q^\pi(s,a) = \sum_{s'} P(s'|s,a) \left[R(s,a,s') + \gamma V^\pi(s')\right]$

这两个方向合在一起，就构成了下一节 Bellman 方程的完整递推。

Bellman 方程

为什么需要 Bellman 方程？

RL 的终极目标是找到最优策略 $\pi^*$ ——在每个状态都选择最好的动作。如果我们已经知道了 $Q^*(s,a)$ （每个状态-动作对的最优价值），策略就是直接选 Q 值最大的动作： $\pi^*(s) = \arg\max_a Q^*(s,a)$ 。所以 RL 的核心问题归结为：如何计算 $V^*$ 或 $Q^*$ ？

直觉上的暴力做法：对每个状态 $s$ ，穷举所有可能的未来轨迹，计算每条轨迹的累积折扣奖励，取期望。问题是轨迹数量随步数指数增长（ $T$ 步、每步 $|A|$ 个动作选择，就有 $|A|^T$ 条轨迹）——完全不可行。Bellman 方程的精妙之处：它把这个指数级的全局搜索变成了一个局部递推关系——你不需要看到终点，只需要看”一步之内的邻居”的价值。

递推关系

核心直觉：一个状态的价值 = 走一步的即时奖励 + 折扣后到达的下一状态的价值。

$V^\pi(s) = \sum_a \pi(a|s) \sum_{s'} P(s'|s,a) \left[R(s,a,s') + \gamma V^\pi(s')\right]$

这正是上一节 V→Q→V 两个方向的组合：在状态 $s$ ，按策略 $\pi$ 选动作 $a$ （外层求和），环境按 $P(s'|s,a)$ 转移到下一状态 $s'$ （内层求和），价值 = 即时奖励 $R$ + 折扣因子 $\gamma$ × 下一状态价值 $V(s')$ 。

最优 Bellman 方程——不按策略概率加权，直接取能达到最高价值的动作：

$V^*(s) = \max_a \sum_{s'} P(s'|s,a) \left[R(s,a,s') + \gamma V^*(s')\right]$

Bellman Backup 图解

下面的三步可视化展示了 Bellman 方程如何从”一个递推公式”变成”一个可执行的算法”：

第 1 步 — 单步 Backup：给定下一状态的 $V(s')$ ，对每个可选动作算 $R + \gamma \cdot V(s')$ ，取最大值就是当前状态的 $V(s)$ 。这就是一次 Bellman “backup”——从后继状态的价值”回传”到当前状态。

第 2 步 — 链式回传：终端状态的价值是已知的（如目标格 V=10）。通过 Backup 依次算出 s₂、s₁、s₀ 的价值——信息从终点向起点逐层回传。

第 3 步 — Value Iteration：在真实环境中，状态关系是一张图而非一条链。Value Iteration 对所有状态反复执行 Backup——每次迭代，终端附近的价值先确定，然后像波浪一样向外扩散，最终所有状态的 $V$ 值收敛到 $V^*$ 。

1. 单步 Backup 计算

从方程到算法

Bellman 方程不只是数学性质——它直接导出了 RL 的核心算法：

Value Iteration（需要环境模型）：反复对每个状态执行 Bellman 更新 $V(s) \leftarrow \max_a \sum_{s'} P(s'|s,a)[R + \gamma V(s')]$ ，直到收敛。但这要求已知转移概率 $P(s'|s,a)$ ——即 model-based 方法。
Q-Learning（不需要环境模型）：Agent 通过与环境交互采样 $(s, a, r, s')$ ，用采样数据近似 Bellman 更新——把”需要完整模型”变成”只需要采样”。这就是下一节要讲的 model-free 方法。

Value-Based 方法

Value-Based 方法的核心思路是：先学到准确的 Q 函数，再从中推导最优策略（贪心：选 Q 值最大的动作）。

Q-Learning 是最经典的 Value-Based 算法，它的更新规则是：

$Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a'} Q(s',a') - Q(s,a)\right]$

其中 $\alpha$ 是学习率。这个更新规则直接逼近最优 Q 函数，不需要知道环境的转移概率（model-free）。

当状态空间很大时（比如图像输入），用表格存储 Q 值不现实。DQN（Deep Q-Network）用神经网络近似 Q 函数，是深度强化学习的里程碑之作。

从 Value 到 Policy

Q-Learning 和 DQN 在 Atari 游戏等离散动作空间中非常成功，但它们有一个根本限制：不适合 LLM 这样的场景。

原因是 LLM 的”动作空间”是整个词汇表（通常 32K-128K tokens），而且是序列决策——生成一个 token 后要生成下一个。用 Q-Learning 需要对每个 token 计算 Q 值，计算量巨大且不自然。

更自然的方式是直接参数化策略：让一个网络直接输出”在当前状态下，每个动作的概率”——这正是 LLM 已经在做的事情（next-token prediction 就是一个策略）。

这就是 Policy Gradient 方法的动机，也是下一篇文章的主题。

RL 方法全景

从图中可以看到，LLM 对齐（RLHF、DPO、GRPO）走的是 Policy-Based → Actor-Critic → PPO 这条路线，而不是 Value-Based 路线。理解这个演进路径是学习后续内容的关键。

总结

本文介绍了强化学习的核心概念：

Agent-Environment 循环是 RL 的基本框架
MDP 为 RL 提供数学基础（状态、动作、转移、奖励、折扣）
Bellman 方程是价值函数的递推关系，是几乎所有 RL 算法的基础
Q-Learning / DQN 是经典的 Value-Based 方法
LLM 的特殊性（巨大动作空间、序列决策）使得 Policy-Based 方法更为适合

下一篇，我们将深入 Policy Gradient，理解如何直接优化策略——这是连接经典 RL 和 LLM 对齐的关键桥梁。