本站内容由 AI 生成，可能存在错误。如发现问题，欢迎到 GitHub Issues 反馈。

#reinforcement-learning

3 篇文章

在线学习与成本优化：路由也需要持续进化

#model-routing #bandit #reinforcement-learning #pareto #cost-optimization

强化学习基础：从 Agent 到 Bellman 方程

#reinforcement-learning #mdp #bellman-equation #value-function #q-learning

当 RL 遇上 LLM：从语言生成到策略优化

#reinforcement-learning #llm #post-training #rlhf #policy-optimization #alignment