强化学习:从基础到 LLM 对齐与推理
从 MDP 到 Policy Gradient,从 RLHF 到 GRPO,从 Reward 设计到 Test-Time Scaling,系统理解强化学习如何驱动大语言模型的对齐、优化与推理能力。
- 1
强化学习基础:从 Agent 到 Bellman 方程
中级#reinforcement-learning#mdp#bellman-equation#value-function#q-learning - 2
Policy Gradient:直接优化策略
中级#policy-gradient#reinforce#baseline#variance-reduction#advantage - 3
Actor-Critic 与 PPO:稳定的策略优化
高级#actor-critic#ppo#gae#advantage#clipping#trust-region - 4
当 RL 遇上 LLM:从语言生成到策略优化
中级#reinforcement-learning#llm#post-training#rlhf#policy-optimization#alignment - 5
RLHF:从人类反馈中学习
高级#rlhf#reward-model#alignment#instruct-gpt#kl-divergence - 6
从 DPO 到 GRPO:直接偏好优化
高级#dpo#grpo#ipo#preference-optimization#offline-rl - 7
Reward 设计与 Scaling
高级#reward-model#reward-hacking#process-reward#outcome-reward#constitutional-ai - 8
Test-Time Scaling 与思维强化
高级#test-time-scaling#chain-of-thought#mcts#deepseek-r1#thinking#verifier