🥗开始学学Stable Diffusion

ChatGPT3.5 还没听说过什么是Stable Diffusion,现在只会顾左右而言他

参考的内容:

🍕以前我们常说的生成对抗网络 GAN 逐渐被扩散模型 Diffusion Model 取代

🍣什么是Stable Diffusion?

Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它主要用于根据文本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制,以及在提示词英语)指导下产生图生图的翻译。

它是一种潜在变量模型扩散模型,由慕尼黑大学的CompVis研究团体开发的各种生成性人工神经网络之一。[3]它是由初创公司StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION英语)的支持。

Stable Diffusion的代码和模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上运行。而以前的专有文生图模型(如DALL-EMidjourney)只能通过云计算服务访问。

来自wiki

简单来说,Stable Diffusion 是一个用于文本生成图像的深度学习模型,通过使用者给出的描述词,去生成图片。

🧁接触到的概念

one shot

使用单个图像来生成新图像。模型通过尽可能少的示例进行学习,学到目标类别或风格的特征,然后生成具有类似特征的新图像。

这个概念在机器学习和人工智能的领域中被广泛应用,特别是在生成对抗网络(GANs)和变分自编码器(VAEs)等生成模型中。

“One Shot” 学习的概念起源于机器学习领域,尤其是元学习(meta-learning)的研究。元学习是一种关注模型如何能够在面对新任务时快速学习的研究方向。在元学习中,研究人员探讨了使用少量示例(甚至只有一个示例)来进行学习的方法,这就是”One Shot”学习的基础。

具体来说,在元学习的背景下,研究人员研究了如何通过学习从一些少量的、具体任务中获得知识,然后将这种知识迁移到面对新任务时的学习中。这种方法旨在使机器学习模型更具通用性,能够从非常有限的数据中学习,并且在面对新任务时也能够表现良好。

随机种子

随机种子是一个可以锁定生成图像的初始状态的值。当使用相同的随机种子和其他参数,我们可以生成完全相同的图像。设置随机种子可以增加模型的可比性和可重复性,同时也可以用于调试和优化模型,以观察不同参数对图像的影响。

在 Stable Diffusion 中,常用的随机种子有-1 和其他数值。当输入-1 或点击旁边的骰子按钮时,生成的图像是完全随机的,没有任何规律可言。而当输入其他随机数值时,就相当于锁定了随机种子对画面的影响,这样每次生成的图像只会有微小的变化。因此,使用随机种子可以控制生成图像的变化程度,从而更好地探索模型的性能和参数的影响。

在工作产出中,如果细微调整,我们将会固定某个种子参数然后进行批量生成

embedding 的介绍

如果你有做过 UI 的经验,那么你应该知道组件的概念。在 Stable Diffusion 中,embedding 技术就可以被理解为一种组件,它可以将输入数据转换成向量表示,方便模型进行处理和生成。

举个例子,如果我们想要生成一个开心的皮卡丘,通常需要输入很多描述词,如黄毛、老鼠、长耳朵、腮红等等。但是,如果引入皮卡丘的 embedding,我们只需要输入两个词:皮卡丘和开心。皮卡丘的 embedding 打包了所有皮卡丘的特征描述,这样我们就不用每次输入很多单词来控制生成的画面了。

在日常使用中,embedding 技术通常用于控制人物的动作和特征,或者生成特定的画风。相比于其他模型(如 LORA),embedding 的大小只有几十 KB,而不是几百兆或几 GB,除了还原度对比 lora 差一些但在存储和使用上更加方便。

总之,embedding 技术将输入数据转换为向量表示,为模型的处理和生成提供了便利。通过使用 embedding,我们可以更加轻松地生成符合预期的样本,而不需要手动输入大量的描述词汇。

LORA 的介绍

LORA 与 embedding 在本质上类似,因为携带着大量的训练数据,所以 LORA 对人物和细节特征的复刻更加细腻

使用技巧:

通常来说,每个 LORA 模型都有对应的底膜和触发词汇。我们可以查看 LORA 作者产出的相关图片,从中获取模型信息,并从中选择一些提示词和排除词来指定生成图像的方向。需要注意的是,每个 LORA 模型对输出图像的权重设置是非常重要的。权重设置越大,对画面的影响因素就越浅。通常情况下,权重应该控制在 0.7-1 之间。如果权重过高,会大幅度影响出图的质量。

为了获得最佳效果,我们可以根据不同的 LORA 模型选择适当的提示词和排除词,并在设置权重时进行调整。同时,我们还可以参考其他作者的经验和技巧,以便更好地利用 LORA 生成图像。