本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到
GitHub Issues
反馈。
LLM Learning
首页
资源推荐
Ctrl K
中文
/
EN
Esc
#post-training
1 篇文章
中级
当 RL 遇上 LLM:从语言生成到策略优化
#reinforcement-learning
#llm
#post-training
#rlhf
#policy-optimization
#alignment