强化学习 - 在llm中的应用
2025-10-25 14:27:19 0 举报
强化学习知识,大模型知识
作者其他创作
大纲/内容
BaseLLM
偏好数据构建数据形式:收集人类对同一问题的多个回答的排序或 pairwise 比较(如「回答A优于回答B」),而非直接打分。
奖励模型(RM)
监督微调(SFT)
用奖励信号优化策略目标:通过强化学习(PPO算法)更新SFT模型,使其生成奖励模型高分的回答,同时避免偏离语言模型基本能力。
构建基础回答能力
强化学习(PPO)
Step 1: 生成经验(Make Experience)Step 2: 计算优势与回报(Advantage & Return)Step 3: 优化Actor与Critic模型
数据构建:收集高质量「问题-回答」对(如人类撰写的理想回复),例如「如何保持健康?」搭配详细的饮食、运动建议
构建特定领域或私域的回答能力
将人类偏好转化为数值信号目标:训练一个能自动为回答打分的模型,替代人类实时反馈,作为强化学习的「奖励函数」
0 条评论
下一页