跳转到内容

【SD】软件原理傻瓜级理解

📗

作者:白马少年

介绍:SD实践派,出品精细教程

发布时间:2023-04-27 23:00

原文网址:https://mp.weixin.qq.com/s/C-F6ARIMHotl6siAfQ9wig

目前市面上主流的AI绘图软件有两个:Stable DiffusionMidjourney。Stable Diffusion的优势在于开源免费、可以本地化部署、创作自由度很高,缺点是需要比较好的电脑配置,尤其是显卡;Midjourney的优势是操作简单方便,创作内容相当丰富,但是需要科学上网并且付费,目前的使用费大概在每月200多元左右。如果可以融入工作流,这个月费也不算高,毕竟它带来的效率是惊人的,当然前期想要了解玩一玩的,可以试试Stable Diffusion,关于具体的安装方法可以去看看B站的【秋葉aaaki】这个Up主的视频。很多还没有接触过AI绘画的朋友会觉得这个东西很神秘,哪怕装好了软件也会看着一堆英文和参数而一头雾水。今天我就用最傻瓜的方式来讲述一下Stable Diffusion的工作原理和基本功能。

首先是关于Stable Diffusion的工作原理,就好比你现在想学画画,学梵高的风格,那么你肯定要先去看梵高的画,然后一幅幅的临摹。一幅画起码要临摹个一百遍吧,从一开始完全不像,到慢慢找到要领,要想画到出神入化以假乱真的地步,一个月的时间够短了吧。梵高一生有接近500幅画,全部学完大概四十年吧,然后你就可以开始接单画梵高风格的画了。当然,客户的要求肯定不是让你画一模一样的梵高《向日葵》,而是说我要一幅梵高的《西瓜》,并且考虑到你已经很熟练了,给你半个小时的时间画出来,应该不难吧。于是,你吭哧吭哧地画完,客户看完之后立马给了你一个大嘴巴子,说你这个画的是神马东西,立马再给我画一幅。然后你强忍着泪水继续画,好不容易画完了,客户看完之后略有所思,说这一稿还行,但是这个颜色不太好,你再用黄色、紫色、粉红色各微调一版给我。于是,你又花了两个小时,改了三稿给客户,客户看完沉吟了许久,说我可能不太喜欢梵高了,你给我来一幅毕加索风格的吧。。。。。。于是,我打开了AI,花了一分钟的时间画完了这两幅画。

如果把上文中的你换成是AI,这大概就是AI绘画的逻辑了。你花了四十年的时间所学习的梵高风格,就相当于是Stable Diffusion的大模型——Checkpoint。

人们把成千上万的美术风格的作品练成一个模型放在AI里面,AI就能依照这个模型画出风格类似的作品。所以你想要画出符合你心意的作品,首先就是要选对合适的大模型。 大模型的下载,可以去咱们大名鼎鼎的C站(https://civitai.com/),有真实系的(Chillmixout)、有二次元的(anything)、有游戏CG风(ReV Animated)的等等,但是需要科学上网。

如果不会科学上网,也可以去启动器的界面直接下载模型,当然这里是看不见预览图的,但从名字你可能看不出这个模型是什么风格。

将下载的大模型放在根目录的这个文件夹下【……\models\Stable-diffusion】,我们就可以在左上角的模型列表中进行选择了。(看不到就点旁边的蓝色按钮刷新一下)。


旁边这个VAE,相当于是给模型增加一个提高饱和度的滤镜和一些局部上的细节微调。当然有的大模型本身就自带VAE,所以就不用再加了。

VAE可以直接在启动器里面下载,下载的VAE放在根目录的这个文件夹下【……\models\VAE】。


接下来要理解的一个概念是Embedding,这个功能相当于是一个提示词打包的功能。比如你想画一个娜美的人物形象,但是想要固定一个人物形象往往要几十条什么上百条提示词,比如性别、头发、脸型、眼睛、身材等等一大堆精确指向的词汇。

那这个时候,就有人将这些提示词整合到一起做成了一个Embedding文件,你只需要使用一个提示词,就可以直接引入这个人物形象进行创作了。

下载Embedding的地方同样是在C站,通过右上角的筛选Textual Inversion就可以找到,放在根目录下的embeddings文件夹里即可。


接下来,讲一讲最重要的这个LORA,有了LORA就可以将人物或者物品接近完美地复刻进图像中,这就有了极大的商用价值。

比如这个“墨心”的LORA,就可以把你的图片变成水墨风格。

这个盲盒LORA可以生成这种2.5D的卡通小人角色。

或者是一些明星角色的LORA,直接生成真人形象。

还有知名的动漫角色,由于LORA其极其强大的功能,所以在使用上,大家需要有很强的版权和法律意识,所谓能力越大、责任越大,玩得太花,小心律师函到你家。

总结一下,LORA的强大,无论是画风,还是人物、物品,或者是动作姿态,都是可以固定下来,它所做的就是提炼图片特征。LORA和Embedding的区别一是在于体量上,Embedding的文件只有几十kb,而LORA的文件通常有几十上百兆,所以LORA的文件所承载的信息量是要远大于Embedding,尤其是在还原真人物品时,LORA的细节精度是Embedding无法比拟的。 下载的LORA放在根目录的这个文件夹下【……\models\Lora】,使用的时候点击这个红色的小书,找到LORA的选项卡,任意点击一个想要的LORA就可以加载进去了。

使用LORA的时候要注意看作者使用的大模型,一般情况下只有配套使用才能达到LORA最好的效果,当然也不排除有一些LORA和其他的大模型会产生一些奇妙的碰撞。

除了加载lora以外,还需要加入一些特定的触发词,才能保证lora的正常使用。比如这个盲盒的lora,作者提示需要加入full body, chibi这些提示词才行。


Hypernetworks主要是针对画风训练的一种模型,可以像lora一样加载进来。 比如这种卡通Q版头像

蒸汽波风格

油画风格

下载的文件放在根目录的这个文件夹下【…\models\hypernetworks】,使用的时候点击这个红色的小书,找到Hypernetworks的选项卡,任意点击一个想要的Hypernetworks就可以加载进去了。当我们下载了很多的模型、Embedding、Hypernetworks和LORA之后,我们会发现这些文件的后缀名几乎是一样,包括.pt/.safetensors/.ckpt等等,所以这些文件是无法通过后缀名进行区分的,那我们怎么判断这个文件到底是什么?该放到什么文件夹里呢? 这里我们可以去到秋叶大佬整理的这个网站里面https://spell.novelai.dev/,把文件拖进去就可以看到是什么类型的文件。

好了,讲到这里大家应该对Stable Diffusion的概念有一些基本的了解了,接下来,可以试着加点提示词看看能画出什么样的图来吧。

-END-

白马与少年

Stable Diffusion、Blender等学习心得分享

139篇原创内容(持续更新中)

公众号

微信扫一扫 关注该公众号