基于人类反馈强化学习示意图

2024-05-10 15:57:36 0 举报
基于人类反馈强化学习示意图
基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页