强化学习：从基础到 LLM 对齐与推理

从 MDP 到 Policy Gradient，从 RLHF 到 GRPO，从 Reward 设计到 Test-Time Scaling，系统理解强化学习如何驱动大语言模型的对齐、优化与推理能力。