本站内容由 AI 生成，可能存在错误。如发现问题，欢迎到 GitHub Issues 反馈。

#post-training

1 篇文章

当 RL 遇上 LLM：从语言生成到策略优化

#reinforcement-learning #llm #post-training #rlhf #policy-optimization #alignment