DeepSeek调研报告
2025-02-09 16:56:49 0 举报
AI智能生成
深度拆解DeepSeek核心技术,博爱阔技术原理,突破和创新
作者其他创作
大纲/内容
预训练成本
DeepSeek-V3在技术报告里公开的预训练成本。按照H800 GPU每小时每卡2美元的租赁成本,全部训练成本是550万美元左右,不包括前期探索模型架构、消融实验等开销。
主要模型参数
DeepSeek V3的模型参数,是671B。GPT-3的参数是175B,所以它要比GPT-3模型大很多。它是一个MoE的架构,每个token会激活37B参数,大约是5.5%。总共包括61层Transformer。然后它在FFN网络,除了前三层以外,全部替换成MoE。它的MoE架构采用了非常多的细粒度专家,包括1个共享专家和256个路由专家。每个token会激活8个路由专家。
训练过程
亮点
1. 通过规则驱动的方法实现了大规模强化学习:创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero。
这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。
这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。
2. 通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化:其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。
这种泛化能力的实现分为两个阶段。首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning,监督微调)数据。这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。
这种泛化能力的实现分为两个阶段。首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning,监督微调)数据。这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型。随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。
技术原理
主要特点:DeepSeek-R1 构建于 DeepSeek-V3-Base 模型之上,集成了优化训练效率和推理性能的前沿架构创新。这些基础增强包括专家混合(MoE)、多头潜在注意力(MLA)、FP8 量化和多标记预测(MTP)
多头潜在注意力(MLA)
DeepSeek使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。引入旋转位置嵌入(RoPE)提高推理精度
混合专家架构(DeepSeekMoE)
采用辅助损失优化的专家负载平衡策略,避免因负载不均导致的计算效率降低。引入“无辅助损失”的负载平衡新方法,通过动态调整路由偏差值,确保训练过程中的负载均衡
多Token预测目标(MTP)
扩展模型在每个位置预测多个未来token的能力,提高训练数据效率。在推理阶段,MTP模块可被重新用于推测解码,从而加速生成。一个字预测变成多个字预测。
强化学习(RL)
DeepSeek使用强化学习来自主发现推理模式,而不是依赖人工策划的示例。例如,DeepSeek使用组相对策略优化(Grouped Relative Policy Optimization, GRPO)框架来优化模型的策略,通过奖励规范化和策略更新,模型能够自主学习并优化其推理能力
突破和创新
开源强化学习引领推理计算范式转换
DeepSeek R1使用纯粹RL(强化学习),无需SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯RL来激励大模型的推理能力。DeepSeek在R1的训练中观察到了模型推理时的“Aha Moment”(所谓大模型的“顿悟时刻”),这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”
MLA和MoE等引领大模型架构创新
DeepSeek在Transformer架构的基础上做了很多创新,主要包括多头潜在注意力(MLA)和混合专家模型(MoE)。MLA用于高效推理,显著降低了推理显存的消耗。MoE用于高效训练,通过部分激活给定任务所需的特定专家,而不是激活整个神经网络,从而降低计算消耗
“贴身定制”的软硬协同工程优化
DeepSeek在工程优化方面实施了软硬协同的工程优化策略,例如混合精度训练、跨节点通信优化、双流水线机制、DualPipe算法等。甚至采用PTX代码(比CUDA更底层的汇编代码)进行底层优化,实现调整寄存器分配、线程调度、Warp级别优化
低成本高性能的训练
DeepSeek-V3的训练成本相对较低,约为550万美元,远低于类似规模模型的训练成本。DeepSeek通过优化算法、硬件与软件的协同优化、模型压缩与量化技术等,实现了低成本高效率的训练
o1/o3开源复现
能够成功复现 OpenAI o1 的推理水平,把这些事情全部公开给全球,让大家能够快速地建立起相关能力
绕过CUDA垄断?
到底什么是CUDA,什么是PTX?有底层CUDA的driver(驱动),通过驱动最终来调用到底层硬件。可以看到CUDA是一个相对更上层的接口,提供了面向用户的一系列编程接口。而PTX一般被隐藏在了CUDA的驱动中,所以几乎所有的深度学习或大模型算法工程师是不会接触到这一层。
PTX的这一层是通过和硬件的直接交互,使得可以控制硬件更多的细节。
PTX的这一层是通过和硬件的直接交互,使得可以控制硬件更多的细节。
为什么没有完全绕开CUDA
依赖CUDA的基础设施:DeepSeek仍然依赖CUDA提供的基础设施和编程模型。CUDA为开发者提供了丰富的API和工具,方便进行GPU编程和调试。DeepSeek在CUDA的基础上进行优化,而不是完全抛弃CUDA。
PTX是CUDA的一部分:PTX是CUDA的一部分,是英伟达提供的低级别指令集。DeepSeek通过使用PTX指令进行优化,实际上是在CUDA的框架内进行的。这表明DeepSeek并没有绕开CUDA,而是在CUDA的基础上进行了更深层次的优化。
0 条评论
下一页