#reinforcement-learning
3 篇文章
高级
在线学习与成本优化:路由也需要持续进化
#model-routing
#bandit
#reinforcement-learning
#pareto
#cost-optimization
中级
强化学习基础:从 Agent 到 Bellman 方程
#reinforcement-learning
#mdp
#bellman-equation
#value-function
#q-learning
中级
当 RL 遇上 LLM:从语言生成到策略优化
#reinforcement-learning
#llm
#post-training
#rlhf
#policy-optimization
#alignment