AI视频生成Sora架构图

2026-03-15 11:01:07   0  举报





该图表展示了OpenAI Sora视频生成模型的核心架构流程。流程从顶部的文本提示开始，经过提示编码器生成语义嵌入，结合时空补丁编码形成Patch Tokens。核心引擎采用Diffusion Transformer (DiT)，通过时间步嵌入和扩散去噪进行迭代优化，生成Latent表示。最后经由视频VAE解码器进行像素重建，输出高清视频帧。图表清晰呈现了从文本输入到视频生成的完整技术链路。

Sora架构

视频生成模型

模板推荐

作者其他创作

大纲/内容