大模型预训练和微调（理论基础，迭代更新自己的学习笔记）

2025-06-03 23:46:52   0  举报





AI智能生成

深入对比GPT和Llama的大模型预训练和微调过程，它是一种高效的人工智能模型训练技术。大模型预训练是在海量数据上进行的，通过深度学习技术，模型能够学习到丰富的语言知识，掌握基本的语言模式。然后，微调是在预训练的基础上，针对特定任务的数据集进行的。通过微调，模型能够针对性地调整和优化，更好地适应特定任务，显著提高模型的性能。大模型预训练和微调的关键在于模型的初始化状态和微调策略的选择，这直接影响到模型的性能。这种训练方式已经广泛应用于自然语言处理领域，并在图像处理、语音识别等多种人工智能任务中发挥了重要的作用。

GPT

Llama

大模型预训练

大模型微调

作者其他创作

大纲/内容

GPT

1、Pretrain（预训练）

基本流程：
1、不停阅读大量文字资料
2、学习人类如何使用文字（一字一字地学习）
3、学习最多的人类知识；学习文字表达方式

核心问题：
因只是输出了“候选字”的概率清单
预训练模型（Pretrain）输出非常像“接话茬”，
并不是在“做任务”

2、SFT（Supervised Fine-Tuning）
有监督的微调

有监督（Supervised）学习：使用有标签的数据进行训练，学习的过程叫有监督学习
无监督（Unsupervised）学习：使用无标签的数据进行训练，学习的过程叫无监督学习
自监督（Self-Supervised）学习：Pretrain阶段的处理方式，叫自监督学习
半监督（Semi-Supervised）学习：Pretrain+SFT 叫半监督学习（不缺数据，但缺标签）

核心问题：会做任务，但离能优秀的做任务，还是有很大差距

3、Reward Model（奖励模型）

按业务自定义的规则做的偏好打分

ORM（Outcome Reward Model）: 在生成模型中，通常是对生成的结果整体做一个打分

PRM （Process Reward Model）：生成的过程分步骤，每一步打分，更细粒度的奖励-->新宠

a、准备一系列Prompt，让模型给每个Prompt 生成多个Response（几万到几十万条Prompt ）
b、设计一下如何标注？打分？评级？排序？
c、找一批人来做标注工作，继续训练需要每条逐一评估
d、拥有了标注数据之后，开始训练Reward Model
e、目标：大模型任意给一个Prompt-Response pair，Reward Model 就可以给出一个打分
f、利用Reward Model 去完成后续步骤

4、PPO（Proximal Policy Optimization）
近端策略优化

一种强化学习算法，由OpenAI于2017年提出，主要用于优化策略梯度方法。核心思想：通过限制策略更新的幅度，确保训练过程的稳定性，同时兼顾样本利用效率。在大模型中，PPO常与"人类反馈强化学习"（RLHF）配合使用，就像教练+评委的组合

a、SFT：相当于"临摹字帖"：用海量文本教大模型学会基本语言规则，此时PPO不参与，模型死记硬背
b、Reward Model：相当于"老师批改作文"，给不同质量的回答打分，训练出一个"评分AI"（奖励模型），后续代替人类打分
c、PPO优化：相当于"作文特训班"，模型开始自己写作文，PPO负责两个关键控制
c.1、探索控制：允许尝试新句式（如把"很高兴"改成"欣喜若狂"）
c.2、幅度限制：防止突然写起诗歌（通过概率比值裁剪）

Llama

1、Pretrain（预训练）

基本流程：
1、不停阅读大量文字资料
2、学习人类如何使用文字（一字一字地学习）
3、学习最多的人类知识；学习文字表达方式

核心问题：
因只是输出了“候选字”的概率清单
预训练模型（Pretrain）输出非常像“接话茬”，
并不是在“做任务”

2、Reward Model（奖励模型）
----强化学习

按业务自定义的规则做的偏好打分

ORM（Outcome Reward Model）: 在生成模型中，通常是对生成的结果整体做一个打分

PRM （Process Reward Model）：生成的过程分步骤，每一步打分，更细粒度的奖励-->新宠

3、Rejection Sampling（拒绝采样）

通俗来讲：相当于让AI像阅卷老师一样筛选优质答案，从海量草稿中只保留满分作文，丢弃不及格答案

基本流程：
1、生成多个答案
2、用预设标准打分（如逻辑正确性、步骤完整性）做质量评估，类似老师用红笔批改作文
3、采样决策：只保留最高分答案用于训练，其他答案被"拒绝"

vs传统采样：
1、样本质量：拒绝采样只保留最优解，普通采样优劣混杂
2、训练效率：拒绝采样需多次生成，普通采样一次生成
3、资源消耗：拒绝采样计算量高，普通采样计算量低

4、SFT（Supervised Fine-Tuning）
有监督的微调

核心问题：会做任务，但离能优秀的做任务，还是有很大差距

5、DPO（Direct Preference Optimization）
直接偏好优化

一种无需显式奖励模型的对齐方法，通过直接优化策略模型与人类偏好数据的一致性，实现大模型的高效对齐

用"选秀评委"的比喻来解释DPO（直接偏好优化）：
a、传统RLHF（像层层筛选的偶像选拔）：1）海选阶段（SFT）；2）评委培训（RM）；3）晋级赛（PPO反复调整）
b、DPO的革新（像直通决赛的达人秀）：直接把人类偏好变成训练信号，省去"训练评委"环节，核心原理是：
1）将偏好数据转化为概率差（好比直接记录观众投票数）
2）用数学方法保证：好回答的概率 > 差回答的概率
3）通过损失函数直接优化策略（评委意见直接变成训练指令）

优势对比