深层生成模型在逼真的图像合成中取得了显着的进展,并具有多种有条件的输入,而生成多样化但高保真的图像仍然是有条件图像生成的巨大挑战。本文介绍了有条件图像生成的多功能框架,其中包含了CNN的电感偏置和自动回归的强大序列建模,自然会导致图像生成多样化。我们没有像在先前的研究中独立量化多个域的特征,而是设计了一个具有变异正常化程序的集成量化方案,该方案将特征离散化在多个域中,并显着提高了自动回归建模性能。值得注意的是,变异正常器使通过惩罚分布的内域变化来使特征分布在无与伦比的潜在空间中进行正规化。此外,我们设计了一种牙龈样本策略,该策略允许将分配不确定性纳入自动回归训练程序中。牙胶采样大大减轻了暴露偏见,通常会在训练和推理阶段造成未对准并严重损害推理性能。对多条条件图像生成任务进行的广泛实验表明,与最先进的方法相比,我们的方法在定性和定量上实现了卓越的图像生成性能。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
生成的对抗网络(GAN)在图像翻译和操纵方面取得了巨大成功。但是,具有忠实风格控制的高保真形象生成仍然是计算机视觉中的巨大挑战。本文提出了一种多功能的图像翻译和操纵框架,该框架通过明确构建信件来实现图像生成中准确的语义和样式指导。为了处理通过构建密集的对应关系产生的二次复杂性,我们引入了双层功能对齐策略,该策略采用顶部$ k $操作来对块构成块的功能进行排名,然后在块功能之间进行密集的关注,从而降低了内存成本的降低。由于顶部$ k $操作涉及索引交换,从而排除了梯度传播,因此我们近似具有正则地球搬运工问题的非差异上的顶部$ K $操作,以便可以有效地向后传播其梯度。此外,我们设计了一个新颖的语义位置编码机制,该机制为每个单个语义区域建立坐标,以在建立对应关系时保持纹理结构。此外,我们设计了一种新颖的置信度注入模块,该模块通过根据内置对应关系的可靠性适应特征来减轻不匹配问题。广泛的实验表明,与最先进的方法相比,我们的方法在定性和定量上取得了出色的性能。
translated by 谷歌翻译
尽管两阶段矢量量化(VQ)生成模型允许合成高保真性和高分辨率图像,但其量化操作员将图像中的相似贴片编码为相同的索引,从而为相似的相邻区域重复使用现有的解码器体系结构的相似相似区域的重复伪像。为了解决这个问题,我们建议将空间条件的归一化结合起来,以调节量化的向量,以便将空间变体信息插入嵌入式索引图中,从而鼓励解码器生成更真实的图像。此外,我们使用多通道量化来增加离散代码的重组能力,而无需增加模型和代码簿的成本。此外,为了在第二阶段生成离散令牌,我们采用掩盖的生成图像变压器(MaskGit)来学习压缩潜在空间中的基础先验分布,该分布比常规自动回归模型快得多。两个基准数据集的实验表明,我们提出的调制VQGAN能够大大提高重建的图像质量,并提供高保真图像的产生。
translated by 谷歌翻译
扩散模型(DMS)显示出高质量图像合成的巨大潜力。但是,当涉及到具有复杂场景的图像时,如何正确描述图像全局结构和对象细节仍然是一项具有挑战性的任务。在本文中,我们提出了弗里多(Frido),这是一种特征金字塔扩散模型,该模型执行了图像合成的多尺度粗到1个降解过程。我们的模型将输入图像分解为依赖比例的矢量量化特征,然后是用于产生图像输出的粗到细门。在上述多尺度表示阶段,可以进一步利用文本,场景图或图像布局等其他输入条件。因此,还可以将弗里多应用于条件或跨模式图像合成。我们对各种无条件和有条件的图像生成任务进行了广泛的实验,从文本到图像综合,布局到图像,场景环形图像到标签形象。更具体地说,我们在五个基准测试中获得了最先进的FID分数,即可可和开阔图像的布局到图像,可可和视觉基因组的场景环形图像以及可可的标签对图像图像。 。代码可在https://github.com/davidhalladay/frido上找到。
translated by 谷歌翻译
Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to CNNs, they contain no inductive bias that prioritizes local interactions. This makes them expressive, but also computationally infeasible for long sequences, such as high-resolution images. We demonstrate how combining the effectiveness of the inductive bias of CNNs with the expressivity of transformers enables them to model and thereby synthesize high-resolution images. We show how to (i) use CNNs to learn a contextrich vocabulary of image constituents, and in turn (ii) utilize transformers to efficiently model their composition within high-resolution images. Our approach is readily applied to conditional synthesis tasks, where both non-spatial information, such as object classes, and spatial information, such as segmentations, can control the generated image. In particular, we present the first results on semanticallyguided synthesis of megapixel images with transformers and obtain the state of the art among autoregressive models on class-conditional ImageNet. Code and pretrained models can be found at https://git.io/JnyvK.
translated by 谷歌翻译
当前的图像到图像翻译方法通过条件生成模型来制定任务,从而仅学习重塑或区域变化,因为条件上下文提供的丰富结构信息受到了约束。在这项工作中,我们建议将矢量量化技术引入图像到图像翻译框架。矢量量化的内容表示不仅可以促进翻译,还可以促进不同域之间共享的无条件分布。同时,加上散布的样式表示,提出的方法进一步使图像扩展能力具有灵活性,并在内域内和域间具有灵活性。定性和定量实验表明,我们的框架与最先进的图像到图像到图像翻译和图像扩展方法的性能可比。与单个任务的方法相比,所提出的方法是统一的框架,释放了组合图像到图像翻译,无条件生成和图像扩展的应用程序。例如,它为图像生成和扩展提供了样式的可变性,并为图像到图像翻译提供了进一步的扩展功能。
translated by 谷歌翻译
我们提出了COGS,这是一种新颖的方法,用于图像的样式条件,素描驱动的合成。 COGS可以为给定的草图对象探索各种外观可能性,从而对输出的结构和外观进行了脱钩的控制。通过输入草图和基于变压器的草图和样式编码器的示例“样式”调理图像启用了对物体结构和外观的粗粒粒度控制,以生成离散的代码簿表示。我们将代码簿表示形式映射到度量空间中,从而在通过量化量化的GAN(VQGAN)解码器生成图像之前,可以对多个合成选项之间的选择和插值进行细粒度的控制和插值。我们的框架因此统一了搜索和综合任务,因为草图和样式对可以用于运行初始合成,该合成可以通过结合结合在搜索语料库中结合使用,以使图像更加与用户的意图更匹配。我们表明,我们的模型对新创建的Pseudosketches数据集的125个对象类培训,能够生产出多种语义内容和外观样式的范围。
translated by 谷歌翻译
DeNoising扩散模型代表了计算机视觉中最新的主题,在生成建模领域表现出了显着的结果。扩散模型是一个基于两个阶段的深层生成模型,一个正向扩散阶段和反向扩散阶段。在正向扩散阶段,通过添加高斯噪声,输入数据在几个步骤中逐渐受到干扰。在反向阶段,模型的任务是通过学习逐步逆转扩散过程来恢复原始输入数据。尽管已知的计算负担,即由于采样过程中涉及的步骤数量,扩散模型对生成样品的质量和多样性得到了广泛赞赏。在这项调查中,我们对视觉中应用的denoising扩散模型的文章进行了全面综述,包括该领域的理论和实际贡献。首先,我们识别并介绍了三个通用扩散建模框架,这些框架基于扩散概率模型,噪声调节得分网络和随机微分方程。我们进一步讨论了扩散模型与其他深层生成模型之间的关系,包括变异自动编码器,生成对抗网络,基于能量的模型,自回归模型和正常流量。然后,我们介绍了计算机视觉中应用的扩散模型的多角度分类。最后,我们说明了扩散模型的当前局限性,并设想了一些有趣的未来研究方向。
translated by 谷歌翻译
我们介绍了文本到图像生成的矢量量化扩散(VQ-扩散)模型。该方法基于矢量量化变分性AutoEncoder(VQ-VAE),其潜像通过最近开发的去噪扩散概率(DDPM)的条件变体为基础。我们发现这种潜在空间方法非常适合于图像到图像生成任务,因为它不仅消除了具有现有方法的单向偏差,还允许我们结合掩模和更换的扩散策略,以避免积累错误,这是现有方法的严重问题。我们的实验表明,与具有类似数量的参数数量的传统自回归(AR)模型相比,VQ扩散产生明显更好的文本到图像生成结果。与以前的基于GAN的文本到图像方法相比,我们的VQ扩散可以通过大边缘处理更复杂的场景并提高合成的图像质量。最后,我们表明我们的方法中的图像生成计算可以通过Reparameter化进行高效。利用传统的AR方法,文本到图像生成时间随输出图像分辨率线性增加,因此即使对于正常尺寸图像也是相当耗时的。 VQ-扩散使我们能够在质量和速度之间实现更好的权衡。我们的实验表明,具有Reparameterization的VQ扩散模型比传统的AR方法快15倍,同时实现更好的图像质量。
translated by 谷歌翻译
Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.
translated by 谷歌翻译
生成建模研究的持续趋势是将样本分辨率推高更高,同时减少培训和采样的计算要求。我们的目标是通过技术的组合进一步推动这一趋势 - 每个组件代表当前效率在各自领域的顶峰。其中包括载体定量的GAN(VQ-GAN),该模型具有高水平的损耗 - 但感知上微不足道的压缩模型;沙漏变形金刚,一个高度可扩展的自我注意力模型;和逐步未胶片的denoising自动编码器(Sundae),一种非自动化(NAR)文本生成模型。出乎意料的是,当应用于多维数据时,我们的方法突出了沙漏变压器的原始公式中的弱点。鉴于此,我们建议对重采样机制进行修改,该机制适用于将分层变压器应用于多维数据的任何任务。此外,我们证明了圣代表到长序列长度的可伸缩性 - 比先前的工作长四倍。我们提出的框架秤达到高分辨率($ 1024 \ times 1024 $),并迅速火车(2-4天)。至关重要的是,训练有素的模型在消费级GPU(GTX 1080TI)上大约2秒内生产多样化和现实的百像样品。通常,该框架是灵活的:支持任意数量的采样步骤,示例自动插入,自我纠正功能,有条件的生成和NAR公式,以允许任意介绍掩护。我们在FFHQ256上获得10.56的FID得分 - 仅在100个采样步骤中以不到一半的采样步骤接近原始VQ -GAN,而FFHQ1024的FFHQ1024和21.85。
translated by 谷歌翻译
常规域中的文本到图像生成长期以来一直是一个开放问题,这需要强大的生成模型和跨模型理解。我们提出CogView,一个带VQ-VAE牌器的40亿参数变压器来推进此问题。我们还展示了各种下游任务的FineTuning策略,例如,风格学习,超分辨率,文本图像排名和时装设计,以及稳定预制雷岭的方法,例如,消除南损失。Cogview在模糊的MS Coco DataSet上实现最先进的FID,优于以前的基于GAN的模型和最近类似的工作Dall-e。
translated by 谷歌翻译
扩散概率模型(DPM)由于其有希望的结果和对跨模式合成的支持,已成为有条件产生的流行方法。条件合成中的一个关键逃亡者是在条件输入和生成的输出之间实现高对应。大多数现有方法通过将先验纳入变异下限中,隐含地学习了这种关系。在这项工作中,我们采用了另一条路线 - 我们通过使用对比度学习来最大化其共同信息来增强输入输出连接。为此,我们引入了有条件的离散对比扩散(CDCD)损失,并设计了两种对比扩散机制,以有效地将其纳入剥离过程中。我们通过将CDCD与传统的变分目标联系起来来制定CDCD。我们证明了我们的方法在三种多种多样的条件合成任务中的评估中的功效:舞蹈到音乐的生成,文本到图像综合和班级调节图像综合。在每个方面,我们达到最新的或更高的合成质量并提高输入输出对应关系。此外,提出的方法改善了扩散模型的收敛性,将所需扩散步骤的数量减少了两个基准的35%以上,从而大大提高了推理速度。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
我们提出了第一个统一的框架Unicolor,以支持多种方式的着色,包括无条件和条件性的框架,例如中风,示例,文本,甚至是它们的混合。我们没有为每种类型的条件学习单独的模型,而是引入了一个两阶段的着色框架,以将各种条件纳入单个模型。在第一阶段,多模式条件将转换为提示点的共同表示。特别是,我们提出了一种基于剪辑的新方法,将文本转换为提示点。在第二阶段,我们提出了一个基于变压器的网络,该网络由Chroma-vqgan和Hybrid-Transformer组成,以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明,我们的方法在每种控制方式中都优于最先进的方法,并进一步实现了以前不可行的多模式着色。此外,我们设计了一个交互式界面,显示了我们统一框架在实际用法中的有效性,包括自动着色,混合控制着色,局部再现和迭代色彩编辑。我们的代码和型号可在https://luckyhzt.github.io/unicolor上找到。
translated by 谷歌翻译
现有条件图像综合框架基于单个模态中的用户输入生成图像,例如文本,分段,草图或样式参考。它们通常无法在可用时利用多式联运用户输入,这降低了它们的实用性。为了解决这一限制,我们提出了专家级别的生成对抗性网络(PoE-GaN)框架,其可以合成在多个输入模态或其任何子集上调节的图像,即使是空集。 Poe-GaN包括专家级别的发电机和多模式多尺寸投影鉴别器。通过我们精心设计的培训计划,Poe-GaN学习以高质量和多样性合成图像。除了在多模式条件图像合成中推进现有技术之外,PoE-GaN还优于在单向设置中测试时最佳现有的单峰条件图像合成方法。该项目网站在https://deepimagination.github.io/poe-gan提供。
translated by 谷歌翻译
作为生成部件作为自回归模型的向量量化变形式自动化器(VQ-VAE)的集成在图像生成上产生了高质量的结果。但是,自回归模型将严格遵循采样阶段的逐步扫描顺序。这导致现有的VQ系列模型几乎不会逃避缺乏全球信息的陷阱。连续域中的去噪扩散概率模型(DDPM)显示了捕获全局背景的能力,同时产生高质量图像。在离散状态空间中,一些作品已经证明了执行文本生成和低分辨率图像生成的可能性。我们认为,在VQ-VAE的富含内容的离散视觉码本的帮助下,离散扩散模型还可以利用全局上下文产生高保真图像,这补偿了沿像素空间的经典自回归模型的缺陷。同时,离散VAE与扩散模型的集成解决了传统的自回归模型的缺点是超大的,以及在生成图像时需要在采样过程中的过度时间的扩散模型。结果发现所生成的图像的质量严重依赖于离散的视觉码本。广泛的实验表明,所提出的矢量量化离散扩散模型(VQ-DDM)能够实现与低复杂性的顶层方法的相当性能。它还展示了在没有额外培训的图像修复任务方面与自回归模型量化的其他矢量突出的优势。
translated by 谷歌翻译
远远超出了学习自然语言的远程相互作用,变形金刚正成为许多愿景任务的遗弃标准,具有其力量和爬钢丝。特别是在图像和文本之间的跨模型任务中,向量量化变化自动码器(VQ-VAE)被广泛用于使原始RGB图像成为一系列特征向量。为了更好地利用图像和文本之间的相关性,我们提出了一种新颖的架构,该架构包括用于文本到图像和图像到文本的特征增强的变形Autiachoder(Augvae)和双向自动回归变压器(Biart)一代。我们的Augvae在ImageNet1K验证集上显示了最先进的重建性能,以及野外未经看出图像的鲁棒性。与其他模型不同,BIART可以将图像(或文本)区分为条件参考和生成目标。 L-VERSE可以直接用于图像到文本或文本到图像生成任务,而无需任何FineTuning或额外的对象检测框架。在定量和定性实验中,L-VESERS在MS-Coco字幕上的图像到文本和文本到图像生成中,对先前的方法进行了令人印象深刻的结果。我们还评估了L-Verse架构对概念标题的可扩展性,并呈现了一般域的双向视觉语言表示学习的初始结果。代码可用:https://github.com/tgisaturday/l-verse
translated by 谷歌翻译
最近,诸如Interovae和S-Introvae之类的内省模型在图像生成和重建任务方面表现出色。内省模型的主要特征是对VAE的对抗性学习,编码器试图区分真实和假(即合成)图像。但是,由于有效度量标准无法评估真实图像和假图像之间的差异,因此后塌陷和消失的梯度问题仍然存在,从而降低了合成图像的保真度。在本文中,我们提出了一种称为对抗性相似性距离内省变化自动编码器(AS-Introvae)的新变体。我们理论上分析了消失的梯度问题,并使用2-Wasserstein距离和内核技巧构建了新的对抗相似性距离(AS-cantance)。随着重量退火,AS-Introvae能够产生稳定和高质量的图像。通过每批次尝试转换图像,以使其更好地适合潜在空间中的先前分布,从而解决了后塌陷问题。与每个图像方法相比,该策略促进了潜在空间中更多样化的分布,从而使我们的模型能够产生巨大的多样性图像。基准数据集的全面实验证明了AS-Introvae对图像生成和重建任务的有效性。
translated by 谷歌翻译