良好的文本对图像模型不仅应生成高质量的图像,还应确保文本和生成图像之间的一致性。以前的型号无法同时很好地固定双方。本文提出了一个逐步的细化生成对抗网络(GR-GAN),以有效地减轻问题。 GRG模块的设计目的是生成从低分辨率到高分辨率的图像,并具有相应的文本约束,从粗粒度(句子)到细粒度(word)阶段,ITM模块旨在在两个句子上提供图像文本匹配的损失 - 相应阶段的图像级别和文字区域级别。我们还引入了一个新的度量跨模型距离(CMD),以同时评估图像质量和图像文本一致性。实验结果表明,GR-GAN显着的优于先前的模型,并在FID和CMD上实现了新的最新技术。详细的分析证明了GR-GAN不同产生阶段的效率。
translated by 谷歌翻译
In this paper, we propose an Attentional Generative Adversarial Network (AttnGAN) that allows attention-driven, multi-stage refinement for fine-grained text-to-image generation. With a novel attentional generative network, the At-tnGAN can synthesize fine-grained details at different subregions of the image by paying attentions to the relevant words in the natural language description. In addition, a deep attentional multimodal similarity model is proposed to compute a fine-grained image-text matching loss for training the generator. The proposed AttnGAN significantly outperforms the previous state of the art, boosting the best reported inception score by 14.14% on the CUB dataset and 170.25% on the more challenging COCO dataset. A detailed analysis is also performed by visualizing the attention layers of the AttnGAN. It for the first time shows that the layered attentional GAN is able to automatically select the condition at the word level for generating different parts of the image.
translated by 谷歌翻译
文本对图像综合旨在从特定文本描述中生成光真逼真和语义一致的图像。与相应的图像和文本描述相比,由现成模型合成的图像通常包含有限的组件,从而降低了图像质量和文本 - 视觉一致性。为了解决这个问题,我们提出了一种新颖的视觉语言匹配策略,用于文本对图像综合,名为Vlmgan*,该策略介绍了一种双重视觉语言匹配机制,以增强图像质量和语义一致性。双视性匹配机制考虑了生成的图像与相应的文本描述之间的文本 - 视觉匹配,以及综合图像和真实图像之间的视觉视觉视觉一致约束。给定特定的文本描述,vlmgan*首先将其编码为文本特征,然后将它们馈送到基于双视觉匹配的生成模型中,以合成光合逼真的和文本的语义一致图像。此外,文本对图像合成的流行评估指标是从简单图像生成中借用的,该图像生成主要评估合成图像的现实和多样性。因此,我们引入了一个名为Vision语言匹配分数(VLMS)的度量标准,以评估文本对图像合成的性能,该分数可以考虑综合图像和描述之间的图像质量和语义一致性。所提出的双重多层视觉匹配策略可以应用于其他文本对图像合成方法。我们在两个受欢迎的基线上实现了此策略,这些基线用$ {\ text {vlmgan} _ {+\ text {attngan}}} $和$ {\ text {vlmgan} _ {+\ text {+\ text {+\ {+\ text {+\ text {dfgan}}} $ 。两个广泛使用的数据集的实验结果表明,该模型比其他最先进的方法实现了重大改进。
translated by 谷歌翻译
文本到图像生成旨在生成与给定文本一致的真实图像。先前的作品主要通过堆叠生成器 - 歧义器对进行多个对抗训练,主要采用多阶段体系结构,在该培训中,用于提供发电指导的文本语义在所有阶段都保持静态。这项工作认为,每个阶段的文本特征应根据历史阶段的状态(即历史阶段的文本和图像特征)进行自适应重新组合,以在粗到精细的生成过程中提供多样化和准确的语义指导。因此,我们提出了一种新颖的动力学语义演化gan(DSE-GAN),以在新颖的单一对抗性多阶段体系结构下重新构成每个阶段的文本特征。具体而言,我们设计(1)动态语义演化(DSE)模块,该模块首先汇总了历史图像特征以总结生成反馈,然后动态选择在每个阶段重新组装的单词,并通过动态地组装它们增强或抑制不同的粒度子空间的语义。 (2)单个对抗性多阶段体系结构(SAMA),通过消除复杂的多个对抗训练要求扩展了先前的结构,因此可以允许更多的文本图像相互作用阶段,并最终促进DSE模块。我们进行了全面的实验,并表明DSE-GAN在两个广泛使用的基准分别(即CUB-200和MSCOCO)上获得了7.48 \%和37.8%的相对FID。
translated by 谷歌翻译
文本到图像综合的目标是生成与给定文本描述匹配的视觉现实图像。在实践中,人类注释的标题在同一图像中具有很大的内容方差和单词的选择。相同图像的标题之间的语言差异导致偏离地面真理的合成图像。为了解决这个问题,我们提出了一种对比的学习方法来提高质量,增强合成图像的语义一致性。在预先预测阶段,我们利用对比的学习方法来学习对应于相同图像的标题的一致文本表示。此外,在GaN训练的以下阶段,我们采用对比学习方法来增强来自与相同图像相关的标题的所生成的图像之间的一致性。我们分别评估了我们在数据集幼崽和Coco上的两个流行文本到图像综合模型,ATTNGAN和DM-GAN的方法。实验结果表明,我们的方法可以有效地提高三个度量的合成图像的质量:是,FID和R精度。特别是,在挑战的Coco DataSet上,我们的方法将FID显着地通过29.60%的Attngan来增强29.60%,并在DM-GaN中达到21.96%。
translated by 谷歌翻译
我们开发了一种文本到图像生成的方法,该方法由隐性视觉引导丢失和生成目标的组合驱动,该方法包含其他检索图像。与仅将文本作为输入的大多数现有文本到图像生成方法不同,我们的方法将跨模式搜索结果动态馈送到统一的训练阶段,从而提高了生成结果的质量,可控性和多样性。我们提出了一种新颖的超网调制的视觉文本编码方案,以预测编码层的重量更新,从而使视觉信息(例如布局,内容)有效地传输到相应的潜在域。实验结果表明,我们的模型以其他检索视觉数据的指导优于现有基于GAN的模型。在可可数据集上,与最先进的方法相比,我们实现了更好的$ 9.13 $,最高$ 3.5 \ times $ $。
translated by 谷歌翻译
Generating consistent and high-quality images from given texts is essential for visual-language understanding. Although impressive results have been achieved in generating high-quality images, text-image consistency is still a major concern in existing GAN-based methods. Particularly, the most popular metric $R$-precision may not accurately reflect the text-image consistency, often resulting in very misleading semantics in the generated images. Albeit its significance, how to design a better text-image consistency metric surprisingly remains under-explored in the community. In this paper, we make a further step forward to develop a novel CLIP-based metric termed as Semantic Similarity Distance ($SSD$), which is both theoretically founded from a distributional viewpoint and empirically verified on benchmark datasets. Benefiting from the proposed metric, we further design the Parallel Deep Fusion Generative Adversarial Networks (PDF-GAN) that aims at improving text-image consistency by fusing semantic information at different granularities and capturing accurate semantics. Equipped with two novel plug-and-play components: Hard-Negative Sentence Constructor and Semantic Projection, the proposed PDF-GAN can mitigate inconsistent semantics and bridge the text-image semantic gap. A series of experiments show that, as opposed to current state-of-the-art methods, our PDF-GAN can lead to significantly better text-image consistency while maintaining decent image quality on the CUB and COCO datasets.
translated by 谷歌翻译
文本对图像综合的症结很大,源于保持输入文本和合成图像之间的跨模式语义一致性的困难。试图直接建模文本图像映射的典型方法只能在文本中捕获指示常见对象或动作但无法学习其空间分布模式的文本中的关键字。规避此限制的一种有效方法是生成图像布局作为指导,这是通过一些方法尝试的。然而,由于输入文本和对象位置的多样性,这些方法无法生成实际有效的布局。在本文中,我们推动在文本到图像生成和布局到图像合成中进行有效的建模。具体而言,我们将文本到序列生成作为序列到序列建模任务,并在变压器上构建我们的模型,以通过对它们之间的顺序依赖性进行建模,以了解对象之间的空间关系。在布局到图像合成的阶段,我们专注于在布局中每个对象中的每个对象学习文本 - 视觉对齐,以精确地将输入文本纳入布局到图像构图合成过程。为了评估生成的布局的质量,我们设计了一个新的度量标准,称为布局质量得分,该评分既考虑了布局中边界框的绝对分布误差,又考虑了它们之间的相互空间关系。在三个数据集上进行的广泛实验证明了我们的方法优于最先进的方法,既可以预测布局和从给定文本综合图像。
translated by 谷歌翻译
使用生成对抗网络(GAN)生成的面孔已经达到了前所未有的现实主义。这些面孔,也称为“深色伪造”,看起来像是逼真的照片,几乎没有像素级扭曲。尽管某些工作使能够培训模型,从而导致该主题的特定属性,但尚未完全探索基于自然语言描述的面部图像。对于安全和刑事识别,提供基于GAN的系统的能力像素描艺术家一样有用。在本文中,我们提出了一种新颖的方法,可以从语义文本描述中生成面部图像。学习的模型具有文本描述和面部类型的轮廓,该模型用于绘制功能。我们的模型是使用仿射组合模块(ACM)机制训练的,以使用自发动矩阵结合伯特和甘恩潜在空间的文本。这避免了由于“注意力”不足而导致的功能丧失,如果简单地将文本嵌入和潜在矢量串联,这可能会发生。我们的方法能够生成非常准确地与面部面部的详尽文本描述相符的图像,并具有许多细节的脸部特征,并有助于生成更好的图像。如果提供了其他文本描述或句子,则提出的方法还能够对先前生成的图像进行增量更改。
translated by 谷歌翻译
故事可视化旨在生成一系列图像,以在多句故事中叙述每个句子,并在动态场景和角色之间具有全球一致性。当前的作品仍然与输出图像的质量和一致性有关,并依靠其他语义信息或辅助字幕网络。为了应对这些挑战,我们首先引入了一个新的句子表示,该句子将所有故事句子中的单词信息结合在一起,以减轻不一致的问题。然后,我们提出了一个具有融合功能的新歧视器,并进一步扩大了空间注意力,以提高图像质量和故事一致性。与最先进的方法相比,在不同数据集和人类评估上进行的广泛实验表明,我们的方法的出色性能既不使用分割掩码也不使用辅助字幕网络。
translated by 谷歌翻译
在本文中,我们对单一和多对象文本到图像合成的最先进方法进行了研究,并提出了用于评估这些方法的共同框架。我们首先识别当前评估文本到图像模型的几个常见问题,即:(i)用于图像质量评估的常用度量,例如,Inception得分(是),通常是对单个对象的错误匹配案例或滥用多目标案例; (ii)在现有的R精度(RP)和SOA度量中出现过烧点现象,用于分别评估文本相关性和对象精度方面; (iii)在多目标案例评估中的许多重要因素主要被解雇,例如对象保真度,位置对准,计数对准; (iv)基于当前度量的方法的排名与真实图像高度不一致。然后,为了克服这些限制,我们提出了一个组合的现有和新度量标准,以系统地评估方法。对于现有的指标,我们通过使用温度缩放来校准所使用的分类器的置信度的改进版本的名称为*;我们还提出了一种解决方案来减轻RP和SOA的过度问题。关于在多目标情况下缺乏重要评估因素的一套新度量,我们开发CA用于计数对齐,PA用于定位对齐,以对象为中心,是(O-IS),以对象为中心的FID(O- FID)对于对象保真度。因此,我们的基准导致现有方法中高度一致的排名,与人类评估良好。我们还通过众所周知的Attngan简单修改,为基准创建一个强大的基线模型(Attngan ++)。我们将发布此工具箱进行统一评估,所谓的明智,以标准化文本到图像综合模型的评估。
translated by 谷歌翻译
作为一项具有挑战性的任务,文本到图像生成旨在根据给定的文本说明生成照片真实和语义一致的图像。现有方法主要从一个句子中提取文本信息,以表示图像,文本表示良好地影响生成图像的质量。但是,直接利用一个句子中的有限信息错过了一些关键属性描述,这是准确描述图像的关键因素。为了减轻上述问题,我们提出了一种有效的文本表示方法,并具有属性信息的补充。首先,我们构建一个属性内存,以用句子输入共同控制文本对图像生成。其次,我们探讨了两种更新机制,即样品感知和样本 - 关节机制,以动态优化广义属性存储器。此外,我们设计了一个属性句子结合条件生成器学习方案,以使多个表示的特征嵌入对齐,从而促进跨模式网络训练。实验结果表明,该提出的方法对CUB(FID从14.81到8.57)和可可(FID从21.42到12.39)的数据集获得了实质性改进。
translated by 谷歌翻译
Recently, vector quantized autoregressive (VQ-AR) models have shown remarkable results in text-to-image synthesis by equally predicting discrete image tokens from the top left to bottom right in the latent space. Although the simple generative process surprisingly works well, is this the best way to generate the image? For instance, human creation is more inclined to the outline-to-fine of an image, while VQ-AR models themselves do not consider any relative importance of each component. In this paper, we present a progressive denoising model for high-fidelity text-to-image image generation. The proposed method takes effect by creating new image tokens from coarse to fine based on the existing context in a parallel manner and this procedure is recursively applied until an image sequence is completed. The resulting coarse-to-fine hierarchy makes the image generation process intuitive and interpretable. Extensive experiments demonstrate that the progressive model produces significantly better results when compared with the previous VQ-AR method in FID score across a wide variety of categories and aspects. Moreover, the text-to-image generation time of traditional AR increases linearly with the output image resolution and hence is quite time-consuming even for normal-size images. In contrast, our approach allows achieving a better trade-off between generation quality and speed.
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
我们为文本对图像生成引入了一种内存驱动的半参数方法,该方法基于参数和非参数技术。非参数组件是由训练集构建的图像特征的记忆库。参数组件是生成对抗网络。给定在推理时间进行新的文本描述,内存库用于选择性检索作为目标图像的基本信息提供的图像功能,从而使生成器能够产生逼真的合成结果。我们还将内容信息与语义功能一起纳入歧视器中,从而使歧视者可以做出更可靠的预测。实验结果表明,所提出的记忆驱动的半参数方法比视觉忠诚度和文本图像语义一致性都比纯粹的参数方法产生更现实的图像。
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
In this work, we are dedicated to text-guided image generation and propose a novel framework, i.e., CLIP2GAN, by leveraging CLIP model and StyleGAN. The key idea of our CLIP2GAN is to bridge the output feature embedding space of CLIP and the input latent space of StyleGAN, which is realized by introducing a mapping network. In the training stage, we encode an image with CLIP and map the output feature to a latent code, which is further used to reconstruct the image. In this way, the mapping network is optimized in a self-supervised learning way. In the inference stage, since CLIP can embed both image and text into a shared feature embedding space, we replace CLIP image encoder in the training architecture with CLIP text encoder, while keeping the following mapping network as well as StyleGAN model. As a result, we can flexibly input a text description to generate an image. Moreover, by simply adding mapped text features of an attribute to a mapped CLIP image feature, we can effectively edit the attribute to the image. Extensive experiments demonstrate the superior performance of our proposed CLIP2GAN compared to previous methods.
translated by 谷歌翻译
扩散模型(DMS)显示出高质量图像合成的巨大潜力。但是,当涉及到具有复杂场景的图像时,如何正确描述图像全局结构和对象细节仍然是一项具有挑战性的任务。在本文中,我们提出了弗里多(Frido),这是一种特征金字塔扩散模型,该模型执行了图像合成的多尺度粗到1个降解过程。我们的模型将输入图像分解为依赖比例的矢量量化特征,然后是用于产生图像输出的粗到细门。在上述多尺度表示阶段,可以进一步利用文本,场景图或图像布局等其他输入条件。因此,还可以将弗里多应用于条件或跨模式图像合成。我们对各种无条件和有条件的图像生成任务进行了广泛的实验,从文本到图像综合,布局到图像,场景环形图像到标签形象。更具体地说,我们在五个基准测试中获得了最先进的FID分数,即可可和开阔图像的布局到图像,可可和视觉基因组的场景环形图像以及可可的标签对图像图像。 。代码可在https://github.com/davidhalladay/frido上找到。
translated by 谷歌翻译
培训文本到图像生成模型中的主要挑战之一是需要大量的高质量图像文本对。虽然图像样本通常很容易接近,但相关的文本描述通常需要仔细的人类标题,这是特别的 - 耗时和成本耗费。在本文中,我们提出了第一项工作来培训没有任何文本数据的文本到图像生成模型。我们的方法利用了强大的预训练剪辑模型的良好对齐的多模态语义空间:通过从图像特征生成文本特征,无缝地减轻了文本调节的要求。进行广泛的实验以说明所提出的方法的有效性。我们在标准的文本到图像生成任务中获得最先进的结果。重要的是,拟议的无语模型优于具有完整图像文本对训练的大多数现有型号。此外,我们的方法可以应用于微调预先训练的模型,它可以节省培训文本到图像生成模型的培训时间和成本。我们预先接受的模型在MS-Coco DataSet上获得竞争激烈的结果,在零拍摄的图像集中在MS-Coco DataSet上产生竞争结果,但距离最近提出的大型Dall-E型号的模型大小和培训数据大小约为1%。
translated by 谷歌翻译
Synthesizing high-quality images from text descriptions is a challenging problem in computer vision and has many practical applications. Samples generated by existing textto-image approaches can roughly reflect the meaning of the given descriptions, but they fail to contain necessary details and vivid object parts. In this paper, we propose Stacked Generative Adversarial Networks (StackGAN) to generate 256×256 photo-realistic images conditioned on text descriptions. We decompose the hard problem into more manageable sub-problems through a sketch-refinement process. The Stage-I GAN sketches the primitive shape and colors of the object based on the given text description, yielding Stage-I low-resolution images. The Stage-II GAN takes Stage-I results and text descriptions as inputs, and generates high-resolution images with photo-realistic details. It is able to rectify defects in Stage-I results and add compelling details with the refinement process. To improve the diversity of the synthesized images and stabilize the training of the conditional-GAN, we introduce a novel Conditioning Augmentation technique that encourages smoothness in the latent conditioning manifold. Extensive experiments and comparisons with state-of-the-arts on benchmark datasets demonstrate that the proposed method achieves significant improvements on generating photo-realistic images conditioned on text descriptions.
translated by 谷歌翻译