基础定义
框架:AI 大模型框架是支撑大模型全生命周期研发的可复用、标准化、模块化软件基础设施 “标准化工厂生产线或者教室”
推理框架
训练框架工程师、分布式训练工程师、优化器专家
DDP/FSDP、3D 并行、ZeRO、Muon、流水线并行、MFU
训练框架
推理优化工程师、部署工程师、KV 缓存优化工程师
PagedAttention、连续批处理、INT4/FP8 量化、KV 缓存
AI 编译器框架
AI 编译器工程师、算子优化工程师、硬件适配工程师
算子融合、中间表示 (IR)、代码生成、昇腾 / 寒武纪适配
分布式调度框架
集群调度工程师、分布式系统工程师、算力平台工程师
资源调度、任务编排、故障自愈、万卡集群管理、RDMA 网络调度
算子:AI 大模型算子是大模型计算流程中不可再拆分的最小执行单元。“螺丝,桌椅(可替换)
训练核心算子
训练框架算子优化工程师、分布式训练工程师
Megatron-LM、DeepSpeed、3D 并行、ZeRO、MFU、训练吞吐量
推理核心算子
推理优化工程师、推理框架工程师
vLLM、TensorRT-LLM、TGI、量化、KV 缓存优化、推理吞吐
分布式通信算子
通信优化工程师、分布式系统工程师
NCCL、HCCL、RDMA、RoCE、通信带宽、集合通信
大模型特有算子
AI 编译器工程师、算子优化工程师、硬件适配工程师
MLIR、TVM、TorchInductor、昇腾 950PR、平头哥 M890、算子融合
AI 编译器算子
大模型架构工程师、核心算法工程师
MoE、稀疏注意力、门控网络、路由算法、长上下文
机器学习平台:机器学习平台是覆盖大模型全生命周期的端到端一体化软件基础设施。“学校,公司”
数据工程平台
数据平台工程师、训练数据工程师、大数据架构师
ETL、数据湖、流式计算、训练数据流水线、数据去重、多模态数据处理
模型训练平台
训练平台工程师、MLOps 工程师、分布式训练架构师
训练任务编排、实验跟踪、超参自动搜索、故障自愈、千卡 / 万卡训练支持
推理服务平台
推理服务工程师、部署工程师、SRE 工程师
模型服务化、自动扩缩容、蓝绿部署、A/B 测试、推理监控、流量调度
MLOps 与模型资产管理平台
MLOps 工程师、平台工程师、DevOps 工程师
CI/CD、模型版本管理、实验可追溯性、可观测性、自动化流水线
算力与资源管理平台
算力调度工程师、集群运维工程师、SRE 工程师
资源调度、任务优先级、弹性伸缩、故障隔离、万卡集群管理
分布式:分布式系统是将一个原本需要单台计算机完成的巨大任务,拆分为多个独立的子任务。“一个人干不完的活,分给一群人一起干”
分布式训练
分布式训练工程师、训练框架工程师、优化器专家
DDP/FSDP、3D 并行、ZeRO-3、流水线气泡、千卡线性扩展、MFU
分布式推理
分布式推理工程师、推理框架工程师、服务部署工程师
张量并行、推理吞吐、延迟优化、多机多卡部署、负载均衡
分布式通信
通信优化工程师、网络架构师、分布式系统工程师
NCCL 源码、RDMA、集合通信优化、网络拓扑、GPU 直连
分布式存储
分布式存储工程师、数据平台工程师、训练数据工程师
Lustre、并行 IO、数据分片、缓存优化、训练数据流水线
分布式调度
集群调度工程师、算力平台工程师、SRE 工程师
资源调度、任务编排、故障自愈、万卡集群管理、弹性伸缩