计算精度
FP32(单精度浮点)<br>
1. 设计核心<br>位结构:32位(1位符号位 + 8位指数位 + 23位尾数位)。<br>数值范围:±1.18×10⁻³⁸ ~ ±3.4×10³⁸,精度约为7位有效小数。<br>核心思想:提供高精度计算,确保科学计算和传统算法的数值稳定性。<br>
2. 技术意义<br>通用性:IEEE 754标准定义,所有CPU/GPU均支持,是科学计算和传统HPC的基准。<br>稳定性:在迭代计算(如流体力学、有限元分析)中避免误差累积。<br>局限性:计算和存储开销大,AI训练中效率低。<br>
3. 典型应用<br>传统科学模拟(如气候模型、分子动力学)。<br>需要高精度的金融计算或工程仿真。<br>
FP16 (16位浮点)<br>
16位浮点通常被称为半精度浮点数(Half Precision)。<br>
FP16的结构<br>符号位(Sign Bit, 1位):用来表示数值的正负,0表示正数,1表示负数。<br>指数位(Exponent, 5位):用来表示指数部分,范围为-14到15(偏移量为15)。<br>尾数位(Mantissa/Fraction, 10位):用来表示有效数字部分。
FP16相比于32位浮点数(FP32)和64位浮点数(FP64)具有更小的存储空间需求<br>FP16有更快的计算速度,但精度较低。<br>
FP8(8位浮点)<br>
1. 设计核心<br><br>位结构:灵活配置(如E5M2或E4M3):<br><br>E5M2:5位指数 + 2位尾数 → 范围广,精度低。<br><br>E4M3:4位指数 + 3位尾数 → 范围小,精度稍高。<br><br>核心思想:极致量化,针对AI推理和训练中的低功耗、高吞吐需求。<br>
2. 技术意义<br><br>显存与带宽优化:相比FP16,显存占用减少75%,带宽需求大幅降低。<br><br>能效比:H100的FP8计算性能达4,000 TFLOPS,是FP16的4倍。<br><br>动态适应:NVIDIA Transformer引擎自动切换FP8/FP16,保持模型收敛性。<br>
3. 典型应用<br><br>边缘计算设备(如自动驾驶、无人机)的低功耗推理。<br><br>训练后期微调(结合高精度格式)。<br>
TF32(Tensor Float 32)<br>
1. 设计核心<br><br>位结构:19位(1位符号位 + 8位指数位 + 10位尾数位),复用FP32的硬件单元。<br><br>数值范围:与FP32相同(指数位保留8位),但尾数精度降低至10位。<br><br><b>核心思想:在AI训练中平衡精度与性能,利用硬件兼容性加速计算。</b><br>
2. 技术意义<br><br>硬件优化:NVIDIA Ampere架构(如A100)的Tensor Core原生支持,无需修改代码即可加速训练。<br><br>精度保留:保持与FP32相同的数值范围,避免梯度爆炸/消失(相比FP16更稳定)。<br><br>性能提升:TF32计算吞吐量是FP32的8倍,显存占用减少50%。<br>
3. 典型应用<br><br>AI模型训练(如ResNet、Transformer),替代FP32作为默认训练精度。<br><br>混合精度训练的中间步骤(结合FP16/FP8)。<br>
显卡资源
NVIDIA GeForce RTX 系列
1. 旗舰级:RTX 4090<br>显存:24GB GDDR6X<br>带宽:1TB/s(基于384-bit位宽)<br>
2. 高端:RTX 4080 Super<br>显存:16GB GDDR6X<br>带宽:736GB/s(256-bit位宽)<br>
3. 中端:RTX 4070 Ti Super<br>显存:16GB GDDR6X<br>带宽:672GB/s(256-bit位宽)<br>
4. 入门:RTX 4060<br>显存:8GB GDDR6<br>带宽:272GB/s(128-bit位宽)<br>
NVIDIA 服务器级显卡<br>
<b>系列定位与架构演进</b><br><br>V系列(Volta架构,2017年)<br>代表型号:Tesla V100<br>定位:首款引入Tensor Core的GPU,奠定AI计算基础,但已逐渐被取代。<br><br>A系列(Ampere架构,2020年)<br>代表型号:A100、A30、A800<br>定位:全面支持多精度计算,成为数据中心主流选择。<br><br>H系列(Hopper架构,2022年)<br>代表型号:H100、H800<br>定位:面向千亿参数模型和超算,性能较前代大幅提升。<br>
<br>
1. NVIDIA A30<br>关键特性:<br>GDDR6显存:24GB显存,成本低于HBM,但带宽和容量受限。<br>低功耗设计:165W TDP,适合高密度部署。<br>MIG支持:单卡分割为4个实例,优化推理吞吐。<br><br>应用场景:<br>边缘计算、实时AI推理(推荐系统、语音识别)。<br>中小规模模型微调。<br>
2. NVIDIA A100<br>关键特性:<br>HBM2e显存:80GB版本提供超高容量,适合大模型训练(如GPT-3)。<br>支持TF32精度:19.5TFLOPS,AI训练速度比V100快20倍。<br>Multi-Instance GPU (MIG):单卡分割为7个独立实例,提升资源利用率。<br><br>应用场景:<br>大规模AI训练(如自然语言处理、图像生成)。<br>科学计算(气候模拟、分子动力学)。<br>
4. NVIDIA A800<br>关键特性:<br>针对中国市场的“阉割版”:NVLink互联带宽从A100的600GB/s降至400GB/s,规避美国出口限制。<br>其他参数与A100一致,但多卡互联性能下降约30%。<br><br>应用场景:<br>中国境内的大模型训练(需多卡协作时性能受限)。<br>替代A100的合规方案。<br>
3. NVIDIA H100<br>关键特性:<br>HBM3显存:80GB显存,带宽较A100翻倍,支持3TB/s以上传输速率。<br>支持TF32精度:60TFLOPS,AI训练速度比A100快。<br>FP8精度:新的精度方案,使得AI推理性能较A100提升30倍,显存效率提升4倍。<br>Transformer引擎:针对大语言模型优化,训练速度提升6-9倍。<br><br>应用场景:<br>千亿参数级模型训练(如GPT-4、LLaMA-2)。<br>实时量子计算模拟、超大规模HPC。<br>
AMD Radeon RX 系列
1. 旗舰级:RX 7900 XTX<br>显存:24GB GDDR6<br>带宽:960GB/s(384-bit位宽)<br>
2. 中高端:RX 7900 GRE<br>显存:16GB GDDR6<br>带宽:576GB/s(256-bit位宽)<br>
3. 中端:RX 7700 XT<br>显存:12GB GDDR6<br>带宽:432GB/s(192-bit位宽)<br>
4. 中端:RX 7600<br>显存:8GB GDDR6<br>带宽:288GB/s(128-bit位宽)<br>
模型框架效率vs<br>
<b>实现 generative, pooling, models across various tasks.</b><br>
If a model supports more than one task, you can set the task via the --task argument.
Qwen2-1.5B<br>
Transformer
Vllm<br>
Qwen2-7B<br>
Transformer
Vllm<br>