Content on this site is AI-generated and may contain errors. If you find issues, please report at GitHub Issues .

#policy-optimization

1 articles

When RL Meets LLM: From Language Generation to Policy Optimization

#reinforcement-learning #llm #post-training #rlhf #policy-optimization #alignment