Stable_Diffusion论文阅读
重点
它们的构造允许通过制导机制来控制图像生成过程而无需重新训练
强大的预训练自动编码器的潜在空间
部分原文翻译
Abstract
通过将图像形成过程分解为分步应用去噪自动编码器,扩散模型(DMs)在图像数据及其他领域上实现了最先进的合成结果。此外,它们的构造允许通过制导机制来控制图像生成过程而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,优化强大的DMs通常会消耗数百个GPU天,并且由于顺序评估的原因推理是昂贵的。为了在有限的计算资源上进行DM训练并保持其质量和灵活性,我们将它们应用于强大的预训练自动编码器的潜在空间。与以前的工作相比,对这种表示进行扩散模型的训练首次实现了在复杂性减少和细节保留之间达到接近最优点,极大地提升了视觉保真度。通过将交叉注意力层引入模型架构中,我们将扩散模型转变为强大而灵活的生成器,用于一般调节输入(例如文本或边界框),并且以卷积方式使高分辨率合成成为可能。我们的潜在扩散模型(LDMs)在图像修复和类条件图像合成方面实现了新的最先进得分,并在各种任务上具有极具竞争力的性能,包括无条件图像生成、文本图像合成和超分辨率,在与基于像素的DM相比,显著降低了计算要求。
Introduction
图像合成是计算机视觉领域中最近发展最为壮观的领域之一,但也是计算需求最大的领域之一。特别是对于复杂自然场景的高分辨率合成,目前主要依靠放大基于似然模型的可能包含数十亿参数的自回归(AR)变换器[64,65]。相比之下,GANs[3,26,39]的有希望结果大多局限于具有相对有限变异性的数据,因为它们的对抗性学习过程不容易扩展到对复杂多模态分布进行建模。最近,由一系列去噪自动编码器构建的扩散模型[79]已经在图像合成方面的研究中显示出令人印象深刻的成果,Denoising Manifold(DM)取得了令人瞩目的成果[29,82],并且超越了之前的研究[7,44,47,56],在类别条件下的图像合成[15,30]和超分辨率[70]方面定义了最先进的技术。此外,即使是无条件的DM,也可以轻松地应用于修复和上色任务[82]或基于笔画的合成[52],与其他类型的生成模型[19,45,67]相比。作为基于似然的模型,它们不会出现GAN的模式崩溃和训练不稳定问题,并且通过广泛利用参数共享,可以模拟自然图像的高度复杂分布,而无需像AR模型[65]那样涉及数十亿的参数。
**民主化的高分辨率图像合成 ** DM属于基于似然的模型类别,其模式覆盖行为使其容易过度分配能力(因此计算资源)来建模数据的不可感知的细节[16,71]。尽管通过对初始去噪步骤进行欠采样,重新加权的变分目标[29]旨在解决此问题,但DM仍然需要大量计算资源,因为训练和评估这样的模型需要在RGB图像的高维空间中进行重复的函数评估(和梯度计算)。例如,训练最强大的DM通常需要数百个GPU天(例如,在[15]中为150个1000 V100天),并且在输入空间的噪声版本上进行重复评估也使推理变得昂贵,因此生成50k个样本大约需要5天[15]的单个A100 GPU。这对研究界和一般用户有两个后果:首先,训练这样的模型需要大量的计算资源,仅有少部分领域可以获得,并且会产生巨大的碳足迹[63, 83]。其次,评估已经训练好的模型也需要时间和内存,因为相同的模型架构必须按顺序运行大量步骤(例如,在[15]中为25-1000步)。
为了提高这个强大模型类的可访问性,同时减少其大量资源消耗,需要一种方法来降低训练和采样的计算复杂性。因此,在不损害其性能的情况下减少 DM 的计算需求是增强其可访问性的关键。
出发到潜在空间 我们的方法从分析像素空间中已经训练好的扩散模型开始:图 2 显示了训练模型的率失真权衡。与任何基于可能性的模型一样,学习可以大致分为两个阶段:第一个是感知压缩阶段,它删除高频细节,但仍然学习很少的语义变化。在第二阶段,实际的生成模型学习数据的语义和概念组成(语义压缩)。因此,我们的目标是首先找到一个感知上等效但计算上更合适的空间,在其中我们将训练用于高分辨率图像合成的扩散模型。
按照常见做法[11,23,64,65,93],我们将训练分为两个不同的阶段:首先,我们训练一个自动编码器,它提供了一个低维(因而高效)的表示空间,该空间在感知上与数据空间等效。重要的是,与之前的工作[23,64]相比,我们不需要依赖过度的空间压缩,因为我们在学习到的潜在空间中训练DM,这在空间维度方面表现出更好的缩放特性。降低的复杂性还可以通过单次网络传递从潜在空间高效生成图像。我们将生成的模型类称为“潜在扩散模型”(LDM)。
这种方法的一个显着优点是我们只需要训练通用自动编码阶段一次,因此可以将其重复用于多个 DM 训练或探索可能完全不同的任务 [78]。这使得能够有效地探索各种图像到图像和文本到图像任务的大量扩散模型。对于后者,我们设计了一个架构,将 Transformer 连接到 DM 的 UNet 主干 [69],并启用任意类型的基于令牌的调节机制,请参见第 2 节。 3.3.
总之,我们的工作做出了以下贡献:
(i)与纯粹基于变压器的方法[23, 64]相比,我们的方法可以更优雅地扩展到更高维度的数据,因此可以(a)在提供更多信息的压缩级别上工作比以前的工作(见图 1)和(b)更忠实和详细的重建可以有效地应用于百万像素图像的高分辨率合成。
(ii) 我们在多个任务(无条件图像合成、修复、随机超分辨率)和数据集上实现了具有竞争力的性能,同时显着降低了计算成本。与基于像素的扩散方法相比,我们还显着降低了推理成本。
(iii)我们表明,与同时学习编码器/解码器架构和基于分数的先验的先前工作[90]相比,我们的方法不需要对重建和生成能力进行微妙的权重。这确保了极其忠实的重建,并且几乎不需要对潜在空间进行正则化。
(iv) 我们发现,对于超分辨率、修复和语义合成等密集条件任务,我们的模型可以以卷积方式应用,并渲染 ∼ 10242 px 的大而一致的图像。
(v)此外,我们设计了一种基于交叉注意力的通用调节机制,从而实现多模式训练。我们用它来训练类条件、文本到图像和布局到图像模型。
(vi) 最后,我们在 https://github 上发布了预训练的潜在扩散和自动编码模型。 com/CompVis/latent-diffusion 除了训练 DM 之外,它还可以重复用于各种任务 [78]。