文本对图像综合的症结很大,源于保持输入文本和合成图像之间的跨模式语义一致性的困难。试图直接建模文本图像映射的典型方法只能在文本中捕获指示常见对象或动作但无法学习其空间分布模式的文本中的关键字。规避此限制的一种有效方法是生成图像布局作为指导,这是通过一些方法尝试的。然而,由于输入文本和对象位置的多样性,这些方法无法生成实际有效的布局。在本文中,我们推动在文本到图像生成和布局到图像合成中进行有效的建模。具体而言,我们将文本到序列生成作为序列到序列建模任务,并在变压器上构建我们的模型,以通过对它们之间的顺序依赖性进行建模,以了解对象之间的空间关系。在布局到图像合成的阶段,我们专注于在布局中每个对象中的每个对象学习文本 - 视觉对齐,以精确地将输入文本纳入布局到图像构图合成过程。为了评估生成的布局的质量,我们设计了一个新的度量标准,称为布局质量得分,该评分既考虑了布局中边界框的绝对分布误差,又考虑了它们之间的相互空间关系。在三个数据集上进行的广泛实验证明了我们的方法优于最先进的方法,既可以预测布局和从给定文本综合图像。
translated by 谷歌翻译
文本对图像综合旨在从特定文本描述中生成光真逼真和语义一致的图像。与相应的图像和文本描述相比,由现成模型合成的图像通常包含有限的组件,从而降低了图像质量和文本 - 视觉一致性。为了解决这个问题,我们提出了一种新颖的视觉语言匹配策略,用于文本对图像综合,名为Vlmgan*,该策略介绍了一种双重视觉语言匹配机制,以增强图像质量和语义一致性。双视性匹配机制考虑了生成的图像与相应的文本描述之间的文本 - 视觉匹配,以及综合图像和真实图像之间的视觉视觉视觉一致约束。给定特定的文本描述,vlmgan*首先将其编码为文本特征,然后将它们馈送到基于双视觉匹配的生成模型中,以合成光合逼真的和文本的语义一致图像。此外,文本对图像合成的流行评估指标是从简单图像生成中借用的,该图像生成主要评估合成图像的现实和多样性。因此,我们引入了一个名为Vision语言匹配分数(VLMS)的度量标准,以评估文本对图像合成的性能,该分数可以考虑综合图像和描述之间的图像质量和语义一致性。所提出的双重多层视觉匹配策略可以应用于其他文本对图像合成方法。我们在两个受欢迎的基线上实现了此策略,这些基线用$ {\ text {vlmgan} _ {+\ text {attngan}}} $和$ {\ text {vlmgan} _ {+\ text {+\ text {+\ {+\ text {+\ text {dfgan}}} $ 。两个广泛使用的数据集的实验结果表明,该模型比其他最先进的方法实现了重大改进。
translated by 谷歌翻译
我们开发了一种文本到图像生成的方法,该方法由隐性视觉引导丢失和生成目标的组合驱动,该方法包含其他检索图像。与仅将文本作为输入的大多数现有文本到图像生成方法不同,我们的方法将跨模式搜索结果动态馈送到统一的训练阶段,从而提高了生成结果的质量,可控性和多样性。我们提出了一种新颖的超网调制的视觉文本编码方案,以预测编码层的重量更新,从而使视觉信息(例如布局,内容)有效地传输到相应的潜在域。实验结果表明,我们的模型以其他检索视觉数据的指导优于现有基于GAN的模型。在可可数据集上,与最先进的方法相比,我们实现了更好的$ 9.13 $,最高$ 3.5 \ times $ $。
translated by 谷歌翻译
随着信息中的各种方式存在于现实世界中的各种方式,多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率,在多式联运信息中建模互动,多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同,提供明确的线索,多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面,该领域也面临着具有固有的模态差距的特征的几个挑战,高分辨率图像的合成,忠实的评估度量等。在本调查中,我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后,我们描述了多模式图像综合和编辑方法,其具有详细的框架,包括生成的对抗网络(GAN),GaN反转,变压器和其他方法,例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述,以及分析各个优点和限制的不同合成方法的详细比较。最后,我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得
translated by 谷歌翻译
在本文中,我们对单一和多对象文本到图像合成的最先进方法进行了研究,并提出了用于评估这些方法的共同框架。我们首先识别当前评估文本到图像模型的几个常见问题,即:(i)用于图像质量评估的常用度量,例如,Inception得分(是),通常是对单个对象的错误匹配案例或滥用多目标案例; (ii)在现有的R精度(RP)和SOA度量中出现过烧点现象,用于分别评估文本相关性和对象精度方面; (iii)在多目标案例评估中的许多重要因素主要被解雇,例如对象保真度,位置对准,计数对准; (iv)基于当前度量的方法的排名与真实图像高度不一致。然后,为了克服这些限制,我们提出了一个组合的现有和新度量标准,以系统地评估方法。对于现有的指标,我们通过使用温度缩放来校准所使用的分类器的置信度的改进版本的名称为*;我们还提出了一种解决方案来减轻RP和SOA的过度问题。关于在多目标情况下缺乏重要评估因素的一套新度量,我们开发CA用于计数对齐,PA用于定位对齐,以对象为中心,是(O-IS),以对象为中心的FID(O- FID)对于对象保真度。因此,我们的基准导致现有方法中高度一致的排名,与人类评估良好。我们还通过众所周知的Attngan简单修改,为基准创建一个强大的基线模型(Attngan ++)。我们将发布此工具箱进行统一评估,所谓的明智,以标准化文本到图像综合模型的评估。
translated by 谷歌翻译
我们为文本对图像生成引入了一种内存驱动的半参数方法,该方法基于参数和非参数技术。非参数组件是由训练集构建的图像特征的记忆库。参数组件是生成对抗网络。给定在推理时间进行新的文本描述,内存库用于选择性检索作为目标图像的基本信息提供的图像功能,从而使生成器能够产生逼真的合成结果。我们还将内容信息与语义功能一起纳入歧视器中,从而使歧视者可以做出更可靠的预测。实验结果表明,所提出的记忆驱动的半参数方法比视觉忠诚度和文本图像语义一致性都比纯粹的参数方法产生更现实的图像。
translated by 谷歌翻译
文本到图像综合的目标是生成与给定文本描述匹配的视觉现实图像。在实践中,人类注释的标题在同一图像中具有很大的内容方差和单词的选择。相同图像的标题之间的语言差异导致偏离地面真理的合成图像。为了解决这个问题,我们提出了一种对比的学习方法来提高质量,增强合成图像的语义一致性。在预先预测阶段,我们利用对比的学习方法来学习对应于相同图像的标题的一致文本表示。此外,在GaN训练的以下阶段,我们采用对比学习方法来增强来自与相同图像相关的标题的所生成的图像之间的一致性。我们分别评估了我们在数据集幼崽和Coco上的两个流行文本到图像综合模型,ATTNGAN和DM-GAN的方法。实验结果表明,我们的方法可以有效地提高三个度量的合成图像的质量:是,FID和R精度。特别是,在挑战的Coco DataSet上,我们的方法将FID显着地通过29.60%的Attngan来增强29.60%,并在DM-GaN中达到21.96%。
translated by 谷歌翻译
良好的文本对图像模型不仅应生成高质量的图像,还应确保文本和生成图像之间的一致性。以前的型号无法同时很好地固定双方。本文提出了一个逐步的细化生成对抗网络(GR-GAN),以有效地减轻问题。 GRG模块的设计目的是生成从低分辨率到高分辨率的图像,并具有相应的文本约束,从粗粒度(句子)到细粒度(word)阶段,ITM模块旨在在两个句子上提供图像文本匹配的损失 - 相应阶段的图像级别和文字区域级别。我们还引入了一个新的度量跨模型距离(CMD),以同时评估图像质量和图像文本一致性。实验结果表明,GR-GAN显着的优于先前的模型,并在FID和CMD上实现了新的最新技术。详细的分析证明了GR-GAN不同产生阶段的效率。
translated by 谷歌翻译
扩散模型(DMS)显示出高质量图像合成的巨大潜力。但是,当涉及到具有复杂场景的图像时,如何正确描述图像全局结构和对象细节仍然是一项具有挑战性的任务。在本文中,我们提出了弗里多(Frido),这是一种特征金字塔扩散模型,该模型执行了图像合成的多尺度粗到1个降解过程。我们的模型将输入图像分解为依赖比例的矢量量化特征,然后是用于产生图像输出的粗到细门。在上述多尺度表示阶段,可以进一步利用文本,场景图或图像布局等其他输入条件。因此,还可以将弗里多应用于条件或跨模式图像合成。我们对各种无条件和有条件的图像生成任务进行了广泛的实验,从文本到图像综合,布局到图像,场景环形图像到标签形象。更具体地说,我们在五个基准测试中获得了最先进的FID分数,即可可和开阔图像的布局到图像,可可和视觉基因组的场景环形图像以及可可的标签对图像图像。 。代码可在https://github.com/davidhalladay/frido上找到。
translated by 谷歌翻译
文本到图像生成旨在生成与给定文本一致的真实图像。先前的作品主要通过堆叠生成器 - 歧义器对进行多个对抗训练,主要采用多阶段体系结构,在该培训中,用于提供发电指导的文本语义在所有阶段都保持静态。这项工作认为,每个阶段的文本特征应根据历史阶段的状态(即历史阶段的文本和图像特征)进行自适应重新组合,以在粗到精细的生成过程中提供多样化和准确的语义指导。因此,我们提出了一种新颖的动力学语义演化gan(DSE-GAN),以在新颖的单一对抗性多阶段体系结构下重新构成每个阶段的文本特征。具体而言,我们设计(1)动态语义演化(DSE)模块,该模块首先汇总了历史图像特征以总结生成反馈,然后动态选择在每个阶段重新组装的单词,并通过动态地组装它们增强或抑制不同的粒度子空间的语义。 (2)单个对抗性多阶段体系结构(SAMA),通过消除复杂的多个对抗训练要求扩展了先前的结构,因此可以允许更多的文本图像相互作用阶段,并最终促进DSE模块。我们进行了全面的实验,并表明DSE-GAN在两个广泛使用的基准分别(即CUB-200和MSCOCO)上获得了7.48 \%和37.8%的相对FID。
translated by 谷歌翻译
跨模式时尚图像合成已成为一代域中最有前途的方向之一,因为巨大的未开发的潜力融合了多种方式和广泛的时尚图像应用。为了促进准确的生成,跨模式合成方法通常依赖于对比的语言图像预训练(剪辑)来对齐文本和服装信息。在这项工作中,我们认为,简单地对齐纹理和服装信息不足以捕获视觉信息的语义,因此提出了maskClip。 MaskClip将服装分解为语义部分,以确保视觉和文本信息之间的细粒度和语义准确对齐。在MaskClip上,我们建议Armani,这是一位统一的跨模式时装设计师,具有零件级的服装文本对齐。 Armani在第一阶段将图像分散成统一令牌,并使用变压器在第二阶段的控制信号的标记中使用变压器为真实图像的图像令牌进行建模。与同样依赖两阶段范式的先前方法相反,Armani将文本令牌引入了代码簿中,使该模型可以利用细粒语义信息来生成更真实的图像。此外,通过引入跨模式变压器,Armani具有通用性,可以从各种控制信号(例如纯文本,草图图像和部分图像)中完成图像合成。在我们新收集的跨模式时尚数据集上进行的广泛实验表明,Armani在不同的合成任务中生成了光真实的图像,并且优于现有的最先进的跨模式图像综合方法。 github.com/harvey594/armani。
translated by 谷歌翻译
在本文中,我们提出了一种有效且有效的单级框架(Divergan),根据自然语言描述产生多样化,可粘性和语义一致的图像。 Divergan采用两种新颖的单词级注意模块,即通道关注模块(CAM)和像素 - 注意模块(PAM),这在允许网络允许将较大的权重分配给定句子中的每个单词的重要性与突出字,语义对齐的重要通道和像素。之后,引入了条件自适应实例层归一化(CADailn)以使语言提示嵌入的句子中的语言线索灵活地操纵形状和纹理的变化量,进一步改善视觉语义表示和帮助稳定训练。此外,开发了双剩余结构以保持更多原始的视觉功能,同时允许更深的网络,从而产生更快的收敛速度和更生动的细节。此外,我们建议将完全连接的层插入管道以解决缺乏多样性问题,因为我们观察到致密层会显着提高网络的生成能力,平衡低于之间的权衡尺寸随机潜代码有助于使用高维和文本上下文来强度特征映射的变体和调制模块。在第二个残差块之后插入线性层,实现最佳品种和质量。基准数据集的定性和定量结果都展示了我们的潜水员实现多样性的优越性,而不会损害质量和语义一致性。
translated by 谷歌翻译
使用生成对抗网络(GAN)生成的面孔已经达到了前所未有的现实主义。这些面孔,也称为“深色伪造”,看起来像是逼真的照片,几乎没有像素级扭曲。尽管某些工作使能够培训模型,从而导致该主题的特定属性,但尚未完全探索基于自然语言描述的面部图像。对于安全和刑事识别,提供基于GAN的系统的能力像素描艺术家一样有用。在本文中,我们提出了一种新颖的方法,可以从语义文本描述中生成面部图像。学习的模型具有文本描述和面部类型的轮廓,该模型用于绘制功能。我们的模型是使用仿射组合模块(ACM)机制训练的,以使用自发动矩阵结合伯特和甘恩潜在空间的文本。这避免了由于“注意力”不足而导致的功能丧失,如果简单地将文本嵌入和潜在矢量串联,这可能会发生。我们的方法能够生成非常准确地与面部面部的详尽文本描述相符的图像,并具有许多细节的脸部特征,并有助于生成更好的图像。如果提供了其他文本描述或句子,则提出的方法还能够对先前生成的图像进行增量更改。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
In this paper, we propose an Attentional Generative Adversarial Network (AttnGAN) that allows attention-driven, multi-stage refinement for fine-grained text-to-image generation. With a novel attentional generative network, the At-tnGAN can synthesize fine-grained details at different subregions of the image by paying attentions to the relevant words in the natural language description. In addition, a deep attentional multimodal similarity model is proposed to compute a fine-grained image-text matching loss for training the generator. The proposed AttnGAN significantly outperforms the previous state of the art, boosting the best reported inception score by 14.14% on the CUB dataset and 170.25% on the more challenging COCO dataset. A detailed analysis is also performed by visualizing the attention layers of the AttnGAN. It for the first time shows that the layered attentional GAN is able to automatically select the condition at the word level for generating different parts of the image.
translated by 谷歌翻译
Text-guided 3D object generation aims to generate 3D objects described by user-defined captions, which paves a flexible way to visualize what we imagined. Although some works have been devoted to solving this challenging task, these works either utilize some explicit 3D representations (e.g., mesh), which lack texture and require post-processing for rendering photo-realistic views; or require individual time-consuming optimization for every single case. Here, we make the first attempt to achieve generic text-guided cross-category 3D object generation via a new 3D-TOGO model, which integrates a text-to-views generation module and a views-to-3D generation module. The text-to-views generation module is designed to generate different views of the target 3D object given an input caption. prior-guidance, caption-guidance and view contrastive learning are proposed for achieving better view-consistency and caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D generation module to obtain the implicit 3D neural representation from the previously-generated views. Our 3D-TOGO model generates 3D objects in the form of the neural radiance field with good texture and requires no time-cost optimization for every single caption. Besides, 3D-TOGO can control the category, color and shape of generated 3D objects with the input caption. Extensive experiments on the largest 3D object dataset (i.e., ABO) are conducted to verify that 3D-TOGO can better generate high-quality 3D objects according to the input captions across 98 different categories, in terms of PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.
translated by 谷歌翻译
用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务,专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近,Vision-Language预训练模型大大提高了图像到文本生成任务的性能,但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中,我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vi​​lg。基于图像量化模型,我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程,我们进一步提出了端到端的训练方法,共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观,我们在大规模数据集中培训了100亿参数的Ernie-Vi​​lg模型,以145百万(中文)图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能,以便在MS-Coco上获取7.9的FID,用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。
translated by 谷歌翻译
作为一项具有挑战性的任务,文本到图像生成旨在根据给定的文本说明生成照片真实和语义一致的图像。现有方法主要从一个句子中提取文本信息,以表示图像,文本表示良好地影响生成图像的质量。但是,直接利用一个句子中的有限信息错过了一些关键属性描述,这是准确描述图像的关键因素。为了减轻上述问题,我们提出了一种有效的文本表示方法,并具有属性信息的补充。首先,我们构建一个属性内存,以用句子输入共同控制文本对图像生成。其次,我们探讨了两种更新机制,即样品感知和样本 - 关节机制,以动态优化广义属性存储器。此外,我们设计了一个属性句子结合条件生成器学习方案,以使多个表示的特征嵌入对齐,从而促进跨模式网络训练。实验结果表明,该提出的方法对CUB(FID从14.81到8.57)和可可(FID从21.42到12.39)的数据集获得了实质性改进。
translated by 谷歌翻译
可控图像合成模型允许根据文本指令或来自示例图像的指导创建不同的图像。最近,已经显示出去噪扩散概率模型比现有方法产生更现实的图像,并且已在无条件和类条件设置中成功展示。我们探索细粒度,连续控制该模型类,并引入了一种新颖的统一框架,用于语义扩散指导,允许语言或图像指导,或两者。使用图像文本或图像匹配分数的梯度将指导注入预训练的无条件扩散模型中。我们探讨基于剪辑的文本指导,以及以统一形式的基于内容和类型的图像指导。我们的文本引导综合方法可以应用于没有相关文本注释的数据集。我们对FFHQ和LSUN数据集进行实验,并显示出细粒度的文本引导图像合成的结果,与样式或内容示例图像相关的图像的合成,以及具有文本和图像引导的示例。
translated by 谷歌翻译
视觉问题应答(VQA)任务利用视觉图像和语言分析来回回答图像的文本问题。它是一个流行的研究课题,在过去十年中越来越多的现实应用。本文介绍了我们最近对AliceMind-MMU的研究(阿里巴巴的编码器 - 解码器来自Damo Academy - 多媒体理解的机器智能实验室),其比人类在VQA上获得相似甚至略微更好的结果。这是通过系统地改善VQA流水线来实现的,包括:(1)具有全面的视觉和文本特征表示的预培训; (2)与学习参加的有效跨模型互动; (3)一个新颖的知识挖掘框架,具有专门的专业专家模块,适用于复杂的VQA任务。处理不同类型的视觉问题,需要具有相应的专业知识在提高我们的VQA架构的表现方面发挥着重要作用,这取决于人力水平。进行了广泛的实验和分析,以证明新的研究工作的有效性。
translated by 谷歌翻译