DeepSeek-R1训练流程整理
2025-04-22 16:38:15 0 举报
尽可能简洁地展示了V3/R1两者的训练流程
作者其他创作
大纲/内容
Reasoning Data(CoT)600K for R1
RL(GRPO)
DeepSeek-V3/R1 训练流程
CoT Prompting生成CoT数据
DeepSeek-R1
Rejection Sampling拒绝采样
关于 Cold Data + GRPO1. GRPO数据 作为业务热数据(频繁访问)2.随时间推移(如结算完成后)转为 Cold data(需要低成本存储但保留备查)
SFT1.5M samples 2 epochs
SFT800k samples 2 epochs
DeepSeek-V3
DeepSeek-R1-Teacher数据生成器
Non-Reasoning Data200k
DeepSeek-V2.5
DeepSeek-V3/R1 训练流程14.8万亿Tokens预训练
Non-Resoning Data
Post-training(SFT+RL)Cold data+GRPO
0 条评论
下一页