stable diffusion-基础知识收录
2024-06-13 20:49:29 0 举报
Stable Diffusion是一种深度学习模型,主要用于生成高质量的图像。该模型基于变分自编码器(VAE)和扩散概率模型(DPM)进行训练,具有强大的生成能力。 它使用PyTorch框架实现,并使用大规模文本-图像对进行预训练。Stable Diffusion在处理文本提示时能生成符合要求的图像,而且它还可以处理图像编辑任务,如空间定位和物体旋转等。 Stable Diffusion模型文件通常包括模型权重和训练代码,可以处理各种图像生成任务。但是,使用过程中需要注意版权问题,因为模型训练的数据来源可能涉及到知识产权问题。
作者其他创作
大纲/内容
安装
采样方法
ControlNet 扩展
出图尺寸
总批次数&单批数量
提示词相关性CFG Scale
随机种子 Seed
常用功能
Hash 哈希值:模型的身份证号。如果 2 个模型的哈希值相同,说明它们本质上是同一个模型文件
功能类型
主模型
扩展模型
常用模型
文件后缀
模型
Stable-Diffusion-WebUI 格式强调符号 () 与 NovelAI 格式强调符号 {}
比如景色Tag在前,人物就会小,相反的人物会变大或半身。
位置靠前的标签拥有更高权重
英文输入法,英文逗号分隔,支持断行、字母大小写
提示词的内容并非越多越好
这里是用于描述画面的主体内容,比如说是人或者动物,人物的着装、表情,动物的毛发、动作等,物体的材质等。一般同一画面中的主体内容不要超过2个,Stable Diffusion对多个物体的组合生成能力较弱,如果对画面内容有特定要求,可以先挨个生成主体素材进行拼合,然后用controlNet插件约束进行出图。
主体内容
这个很好理解,就是设定周围的场景和辅助元素,比如天空的颜色、四周的背景、环境的灯光、画面色调等,这一步是为了渲染画面氛围,凸显图片的主题。
环境背景
主要用来调节画面的镜头和视角,比如强调景深,物体位置等,黄金分割构图、中全景、景深。
构图镜头
是增强画面表现力的常用词汇,我们经常在一些惊艳的真实系AI图片中看到比如增加细节、摄影画质、电影感等词,可以一定程度上提升画面细节。但注意最终图像的分辨率和精细度主要还是由图像尺寸来决定的,而本地运行的Stable Diffusion支持的绘图尺寸很大程度决定于显卡性能。如果电脑显卡算力跟不上,再多的关键词也弥补不了硬件差距,当然在Stable Diffusion中也有一些实现高清修复的小技巧,我会在后面的文章中为大家介绍。
图像设定
用于描述画面想呈现的风格和情绪表达,比如加入艺术家的名字、艺术手法、年代、色彩等。其实参考风格关键词在Stable Diffusion中使用的并不多,平时我们出图,多数情况下都是先选好特定风格的模型,然后根据模型作者提供的触发词强化风格。因为在Stable Diffusion中,图像风格基本是由模型决定的,如果此前该模型并没有经过艺术风格关键词的训练,是无法理解该艺术词含义的。
最好还是直接使用对应风格的模型来绘图,会比单纯使用提示词有效的多。
参考风格
万能公式
要求
支持多层叠加
花括号{1.05}
方括号[0.9]
圆括号(1.1)
直接填写数值(tag:0.5~1.5)
参数
降低案例
加强案例
权重
step>1 步数 step<1 占比
参数N大于1时,表示具体采样送代步数,如N=3时表示3步;
如采样送代步数设置为30步时:N=0.3=30%x30=9步
[man:girl:0.9] 让百分之99之前都是画男的
参数N小于1时,表示占整个采样送代步数的百分比
[tagA:tagB:step] 到达指定步数前执行tagA 然后执行tagB
[white:red:10] hair 使用整数就是代表步数 ,这个就是十步之前就用白色
(blue hair:floral headwear:10)(蓝色头发:花朵头饰:10)十步前执行头发,十步后执行后花
图例
分步绘制
N表示采样选代过程中前期绘制的占比,比如 N=0.3 时,表示前面的 30%都有绘制[water],而当步数达到 30%时则不再绘制
[ water :: N ]
停止绘制
结合分步绘制和停止绘制的案例来看, 在Stable Diffusion中模型绘制图像内容并非按照完美百分比的步骤进行绘制,画面内容在前面20步左右时已基本定型,后续的迭代步数更多是丰富细节,基本不会再添加或减少主体内容。
步数
到这里有的朋友可能会问,模型本身就是将一段提示词结合起来理解,为什么要额外加上【AND】呢?看完下面这个例子就很好理解了,可以发现如果只是通过逗号分隔,模型绘制时只是简单将黄色和绿色进行填充拼接,而加上【AND】后,模型会将黄色和绿色当作一个词来理解,最终绘制出草绿色。
在提示词间加上AND(必须大写)可以关联前后的元素特征,最终形成具备融合图像的效果AND前后的提示词支持增加权重,比如 ct :12AND dog AND tiger:2.1 由此可以自由控制不同关键词在运算时侧重占比
融合提示词:A AND B
在提示词间加上关键词BREAK(必须大写),可以打断前后提示词的联系,在一定程度上减少提示词污染的情况
Stable Diffusion模型在理解提示词时,并非像人类一样逐字逐句的阅读,而是会结合上下文内容来统一理解,这就导致在运行过程中有时候会出现前后关键词相互影响的情况,也就是我们俗称的污染。
打断提示词:A BREAK B
[white:red:0.5] hair 0.5代表百分之五十 渐变
red|blue hair 红色 竖杠 蓝色头发 混合
使用中竖线[1]分隔多个提示词,在外侧加上方括号,运算时模型会在A和B内容间交替切换交替绘制每次绘制只理解单独的关键词,而并非同时将前后提示词一起理解,因此最终的效果只能融合视觉特征,而无法针对颜色等信息进行融合,通常用于绘制猎奇、魔幻等克苏鲁风格。
交替绘制:[ A/ B ...]
[cow|horse] 牛马混合物
其他混合
配合提示词矩阵Prompt matrix来使用
该语法需要配合提示词矩阵Prompt matrix来使用(脚本中开启),开启后按语法输入,模型会将关键词进行矩阵排列,每个组合的提示词都会生成一张对应的图像,若没有开启则会随机生成其中一张
使用[1]分隔多个提示词,模型会自动将提示进行交叉组合(第一段提示词默认保留),每个组合的提示词都会生成张对应的图像
矩阵排列:A/B··
混合
常用人体
综合人体
反向
与AI沟通作画内容、质量的语言
以词组为基本单位,不必需要完整句子
prompt之间输入分隔符,分隔符:英语逗号
书写方式
穿搭、发型、五官、表情、动作……
人物及主题特征
场景特征
光照环境
画幅视角
内容型
通用高画质
特定高分辨率类型
画质
插画风
二次元
写实
画风
标准化型
分类
分类、书写方式
每套一层括号权重×1.1,如(((black hair))),权重为1.1的三次方
加英文括号
加一重括号后,在提示词后输入英文冒号后直接输入权重倍数,如(black hair:1.5)
数字权重
增强提示词权重
避免不想要的元素出现或崩坏等
可尝试用负面提示词生成特殊风格图片
负面提示词
权重与负面提示词
迭代步数越大,成像越清晰,但步数>20时,往后提升效果并不明显且会消耗更多时间;步数过少(<10)成像效果差
采样迭代步数
AI进行图像生成时使用的算法
采样方法
硬件允许可适当提升分辨率以提高成像质量
可先进行一次低分辨率生成,再通过高清修复放大算法放大图片分辨率解决
分辨率过高易出现多人多手多脚的成像问题
宽/高:出图分辨率
对人物脸部进行修复(写实风格效果较好)
面部修复
用以生成无缝贴满屏幕的纹理图片
平铺/分块
提示词相关性越高AI忠实于提示词的程度越高
提示词相关性
随机种子
可降低每批数量,提升生成批次解决
同批绘制多图会将多个图片看作一张更大的图片一次性成图,容易爆显存
生成批次/数量
出图参数
提示词介绍
tag
stable diffusion-基础知识收录
0 条评论
回复 删除
下一页