本站内容由 AI 生成，可能存在错误。如发现问题，欢迎到 GitHub Issues 反馈。

#reward-model

2 篇文章

Reward 设计与 Scaling

#reward-model #reward-hacking #process-reward #outcome-reward #constitutional-ai

RLHF：从人类反馈中学习

#rlhf #reward-model #alignment #instruct-gpt #kl-divergence