Stable Diffusion 3架构图
2026-01-31 21:46:19 0 举报
Stable Diffusion 3 (SD3) MMDiT 架构图:文生图新范式深度解析 Stable Diffusion 3 彻底革新了生成式 AI 范式。本 ProcessOn 模板为你揭秘其核心 MMDiT (多模态扩散 Transformer) 架构。 核心亮点: 1.颠覆性 MMDiT: 详细呈现其取代 U-Net 的 Transformer 结构,理解多模态信息如何深度融合。 2.双流交互机制: 精准描绘文本流与图像流的并行处理与关键的交叉注意力机制,透彻理解提示词如何精细控制图像生成。 3.结构清晰简洁: 即使 ProcessOn 样式受限,依然通过分段式布局与严谨逻辑流,确保图表的学术准确性与视觉易读性。
作者其他创作
大纲/内容
原始文本提示词
编码器层
图像前馈网络(Feed-Forward)
潜在空间表示(Latent Representation)
\"注入\"
VAE 编码器
文本流分支
文本提示词 (Text Prompt)
文本前馈网络
文本嵌入
\"文本嵌入 (Text Embeds)\"
CLIP Text Encoder(语义特征)
输入源
时间步嵌入
VAE 解码器
真实图像
交叉注意力(Cross-Attention)(文本影响图像)
VAE 编解码器
生成图像 (Generated Image)
\"条件注入\"
图像流分支
噪点潜在图像 (Noisy Latent Image)
时间步 t
文本编码器组合
输出层
输出图像特征
\"拼接/聚合\"
重建图像
MMDiT Transformer Blocks(多模态扩散 Transformer)
图像自注意力(Self-Attention)
图像潜在特征
文本自注意力
MMDiT 单个 Block 内部
组合文本嵌入(用于 MMDiT)
VAE 解码器(还原)
文本编码器 (CLIP & T5)
VAE 编码器(压缩)
T5 文本嵌入
输出文本特征
T5 Text Encoder(更丰富上下文)
核心
\"图像潜在特征\"
CLIP 文本嵌入
0 条评论
下一页