登录免费注册

首页  流程图  详情

基于人类反馈强化学习示意图

2024-05-10 15:57:36   1  举报





基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)，是指将人类标注者引入到大模型的学习过程中，训练与人类偏好对齐的奖励模型，进而有效指导语言大模型的训练，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容。

RLHF

基于人类反馈强化学习

AI语言大模型关键技术

大模型

强化学习

作者其他创作

大纲/内容

增强学习是...

数据标记工程师给出优劣排序

第一步：训练监督策略模型

从前有一只熊猫…

PPO模型由模型初始化

从提示词数据集中取样一个提示词

基于人类反馈强化学习示意图

D>C>A>B

解释奖励...

奖励模型

PPO

通过监督学习微调

向6岁小孩解释强化学习

对...教学进行奖惩

奖励模型计算输出奖励值

利用PPO算法结合奖励更新策略

D

第二步：训练奖励模型

机器学习是...

第三步：采用近端策略优化进行强化学习

模型生成一个输出

奖惩是...

取样一个提示词和模型多个输出

数据标记工程师给出期望的输出行为

监督微调

参考：《开启智能新时代：2024 年中国AI大模型产业发展报告》

从提示词数据集取样一个新的提示词

训练奖励模型

A

C

B

写一个关于熊猫的故事

 收藏

立即使用

论文研究技术路线图

5份研究框架、课题研究、论文技术路线图模板

 收藏

立即使用

5份研究框架、课题研究、论文技术路线图模板

 收藏

立即使用

【科研配色】5张技术路线图

2025主流深度学习模型架构（Transformer、混合专家模型、多模态、GAN、GCN、Diffusion）

 收藏

立即使用

2025主流深度学习模型架构（Transformer、混合专家模型、多模态、GAN、GCN、Diffusion）

职业：硕士













评论

0 条评论

下一页

为你推荐

查看更多



分层示意图：边缘计算

负载均衡示意图

提醒流程示意图

业务流转示意图模版

系统存储虚拟化示意图

福利示意图

加载数据示意图

WPDRRC信息安全体系架构模型示意图

WPDRRC信息安全体系架构模型示意图

订单全流程示意图