本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

强化学习:从基础到 LLM 对齐与推理

从 MDP 到 Policy Gradient,从 RLHF 到 GRPO,从 Reward 设计到 Test-Time Scaling,系统理解强化学习如何驱动大语言模型的对齐、优化与推理能力。

  1. 1

    强化学习基础:从 Agent 到 Bellman 方程

    中级
    #reinforcement-learning#mdp#bellman-equation#value-function#q-learning
  2. 2

    Policy Gradient:直接优化策略

    中级
    #policy-gradient#reinforce#baseline#variance-reduction#advantage
  3. 3

    Actor-Critic 与 PPO:稳定的策略优化

    高级
    #actor-critic#ppo#gae#advantage#clipping#trust-region
  4. 4

    当 RL 遇上 LLM:从语言生成到策略优化

    中级
    #reinforcement-learning#llm#post-training#rlhf#policy-optimization#alignment
  5. 5

    RLHF:从人类反馈中学习

    高级
    #rlhf#reward-model#alignment#instruct-gpt#kl-divergence
  6. 6

    从 DPO 到 GRPO:直接偏好优化

    高级
    #dpo#grpo#ipo#preference-optimization#offline-rl
  7. 7

    Reward 设计与 Scaling

    高级
    #reward-model#reward-hacking#process-reward#outcome-reward#constitutional-ai
  8. 8

    Test-Time Scaling 与思维强化

    高级
    #test-time-scaling#chain-of-thought#mcts#deepseek-r1#thinking#verifier