大语言模型(LLM)训练四阶段流程图
2025-08-06 11:26:10 1 举报
该作品清晰拆解大语言模型从随机初始化起步,经预训练学习文本续写、指令微调掌握对话能力、偏好微调对齐人类偏好,到推理微调优化答案质量的完整训练路径,以直观可视化形式呈现技术迭代逻辑,助力理解复杂的 LLM 训练体系。
作者其他创作
大纲/内容
deepseek
未训练的 LLM
Stage 3偏好微调
what is an LLM?
Stage 2指令微调
用户
经指令微调的LLM
LLM变得可对话,能给出有用答案。
Q&A
① 训练
Stage 0随机初始化模型
① 提问
LLM仅学习续写文本,而非具备对话能力。
预训练的 LLM
②
How do LLMs work? What are LLM params?
③ 提问
④ 输出
指令 - 响应对
Stage 1预训练
② 输出
响应#2
响应#1
庞大文本语料库
LLM训练四阶段
An LLM is a type of ML model that trained...
推理驱动的响应
奖励计算
经偏好微调的LLM
①
有明确答案的推理任务
③
更新模型参数,提升高奖励答案出现概率
④
⑤
Stage 4推理微调
指令 - 响应对
用于RLHF
③ 优选响应
try peter hand and hello 4485n
随机输出
0 条评论
下一页