Stable diffusion原理
2025-05-14 09:06:59 1 举报
Stable Diffusion是一种深度学习模型,它利用扩散概率模型技术,通过逐步地增加噪声,然后学会逆转这个过程来生成数据。核心在于训练一个神经网络以理解和模仿数据的生成过程,从而在去噪过程中,从无意义的随机噪声中逐步还原出符合特定分布的有意义的数据。 它的强大之处在于,它能够在不需要任何标签数据的情况下学习生成任意复杂数据分布,如图像、音频或文本等。Stable Diffusion的优点包括生成质量和多样性。但是,它也有挑战,比如需要大量计算资源进行训练,以及可能遇到的过拟合和模式崩溃的问题。 Stable Diffusion是一种高效的无监督学习方法,适用于各种数据生成任务,从简单的图像生成到复杂场景模拟。其应用范围广泛,包括人工智能艺术创作、数据增强、内容生成等领域。应用修饰语通常包括"高效"、"无监督"、"多样性"和"高质量",这些都是描述其能力的重要词汇。
作者其他创作
大纲/内容
CFG scale
text prompt
CLIP model
768-value vector
tokenizer
Decoder
latent noisy image
名词说明:1、CLIP model:是deep learning模型,Open AI开发,用于计算机文字转图片(Contrastive Language-Image Pre-Training model)将text prompt转化成tokenizer,将taken转化成向量,然后生成noise。2、Embedding:是基于CLIP模型训练的模型生成的一个向量3、Latent diffusion model:生成速度快、对计算资源和内存消耗需求小的扩散模型。依据seed的数值随机生成tensor,4、VAE:是neural network,把图片转码成Latent或者将latent解码成图片核心能力是精调图片5、U-Net model:预测并生成noise数据。把embedding向量通过Text transformer(的程序运行机制)转化成noise分布预测值。(1)Noise is sequentially added at each step.(2)Noise predictor estimates the total noise added up to each step.6、Fine-tuned models:是针对某个风格的图片而训练的模型7、Text Conditioning:通过转化prompt生成noise数据,从而指导生成图片样式8、设置参数:(1)sampler:The diffusion sampling method ,Default is “K_lms”sample特性取决于小模型的训练方式和数据集(2)seed: The seed used to generate your imagenoise数据,强关联图片效果(3)steps:How many steps to spend generating(diffusing) your image重复的演算,呈现结果(4)CFG scale: CFG scale adjusets how much the image will be like your prompt(5)Prompt:提示词
Scheduleralgorithm\"reconstruct\"
Encoder
Latent space
Prompt
Text conditionedlatent U-Net
VAE transforms the image to and from the latent space
picture
4*64*64tensor
Seed
U-Net model1、Noise is sequentially added at each step。2、Noise predictor estimates the total noise added up to each step。
VAriational Autoencoder(VAE)
Predicted noise
steps
New latent image
token
Gaussian noise N(0,1)
Frozen CLIPText Encoder
1、Random tensorin latent space2、Controlled by seed
repeat NN:sampling steps
Embedding
0 条评论
下一页