智能论文笔记

Multilingual Communication System with Deaf Individuals Utilizing Natural and Visual Languages

Tuan-Luc Huynh , Khoi-Nguyen Nguyen-Ngoc , Chi-Bien Chu , Minh-Triet Tran , Trung-Nghia Le

分类：计算机视觉

2022-12-01

According to the World Federation of the Deaf, more than two hundred sign languages exist. Therefore, it is challenging to understand deaf individuals, even proficient sign language users, resulting in a barrier between the deaf community and the rest of society. To bridge this language barrier, we propose a novel multilingual communication system, namely MUGCAT, to improve the communication efficiency of sign language users. By converting recognized specific hand gestures into expressive pictures, which is universal usage and language independence, our MUGCAT system significantly helps deaf people convey their thoughts. To overcome the limitation of sign language usage, which is mostly impossible to translate into complete sentences for ordinary people, we propose to reconstruct meaningful sentences from the incomplete translation of sign language. We also measure the semantic similarity of generated sentences with fragmented recognized hand gestures to keep the original meaning. Experimental results show that the proposed system can work in a real-time manner and synthesize exquisite stunning illustrations and meaningful sentences from a few hand gestures of sign language. This proves that our MUGCAT has promising potential in assisting deaf communication.

translated by 谷歌翻译

All You Need In Sign Language Production

Razieh Rastgoo , Kourosh Kiani , Sergio Escalera , Vassilis Athitsos , Mohammad Sabokrou

分类：计算机视觉 | 自然语言处理

2022-01-05

手语是聋人和听力受损社区中使用的沟通语言的主要形式。在听力障碍和听力社区之间进行简单互相的沟通，建立一个能够将口语翻译成手语的强大系统，反之亦然是基本的。为此，标志语言识别和生产是制作这种双向系统的两个必要零件。手语识别和生产需要应对一些关键挑战。在这项调查中，我们审查了使用深度学习的手语制作（SLP）和相关领域的最近进展。为了有更现实的观点来签署语言，我们介绍了聋人文化，聋人中心，手语的心理视角，口语和手语之间的主要差异。此外，我们介绍了双向手语翻译系统的基本组成部分，讨论了该领域的主要挑战。此外，简要介绍了SLP中的骨干架构和方法，并提出了拟议的SLP分类物。最后，介绍了SLP和绩效评估的一般框架，也讨论了SLP最近的发展，优势和限制，评论可能的未来研究的可能线条。

translated by 谷歌翻译

Do DALL-E and Flamingo Understand Each Other?

Hang Li , Jindong Gu , Rajat Koner , Sahand Sharifzadeh , Volker Tresp

分类：计算机视觉 | 机器学习

2022-12-23

A major goal of multimodal research is to improve machine understanding of images and text. Tasks include image captioning, text-to-image generation, and vision-language representation learning. So far, research has focused on the relationships between images and text. For example, captioning models attempt to understand the semantics of images which are then transformed into text. An important question is: which annotation reflects best a deep understanding of image content? Similarly, given a text, what is the best image that can present the semantics of the text? In this work, we argue that the best text or caption for a given image is the text which would generate the image which is the most similar to that image. Likewise, the best image for a given text is the image that results in the caption which is best aligned with the original text. To this end, we propose a unified framework that includes both a text-to-image generative model and an image-to-text generative model. Extensive experiments validate our approach.

translated by 谷歌翻译

From Show to Tell: A Survey on Deep Learning-based Image Captioning

Matteo Stefanini , Marcella Cornia , Lorenzo Baraldi , Silvia Cascianelli , Giuseppe Fiameni , Rita Cucchiara

分类：计算机视觉 | 自然语言处理

2021-07-14

连接视觉和语言在生成智能中起着重要作用。因此，已经致力于图像标题的大型研究工作，即用句法和语义有意义的句子描述图像。从2015年开始，该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来，两种组件通过对象区域，属性，介绍多模态连接，完全关注方法和伯特早期融合策略的利用而显着发展。但是，无论令人印象深刻的结果，图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述，从视觉编码和文本生成到培训策略，数据集和评估度量。在这方面，我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外，讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具，并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。

translated by 谷歌翻译

Transformers in Vision: A Survey

Salman Khan , Muzammal Naseer , Munawar Hayat , Syed Waqas Zamir , Fahad Shahbaz Khan , Mubarak Shah

分类：

2021-01-04

Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.

translated by 谷歌翻译

Implementing and Experimenting with Diffusion Models for Text-to-Image Generation

Robin Zbinden

分类：计算机视觉 | 机器学习

2022-09-22

利用深度学习的最新进展，文本到图像生成模型目前具有吸引公众关注的优点。其中两个模型Dall-E 2和Imagen已经证明，可以从图像的简单文本描述中生成高度逼真的图像。基于一种称为扩散模型的新型图像生成方法，文本对图像模型可以生产许多不同类型的高分辨率图像，其中人类想象力是唯一的极限。但是，这些模型需要大量的计算资源来训练，并处理从互联网收集的大量数据集。此外，代码库和模型均未发布。因此，它可以防止AI社区尝试这些尖端模型，从而使其结果复制变得复杂，即使不是不可能。在本文中，我们的目标是首先回顾这些模型使用的不同方法和技术，然后提出我们自己的文本模型模型实施。高度基于DALL-E 2，我们引入了一些轻微的修改，以应对所引起的高计算成本。因此，我们有机会进行实验，以了解这些模型的能力，尤其是在低资源制度中。特别是，我们提供了比Dall-e 2的作者（包括消融研究）更深入的分析。此外，扩散模型使用所谓的指导方法来帮助生成过程。我们引入了一种新的指导方法，该方法可以与其他指导方法一起使用，以提高图像质量。最后，我们的模型产生的图像质量相当好，而不必维持最先进的文本对图像模型的重大培训成本。

translated by 谷歌翻译

Multimodal Image Synthesis and Editing: A Survey

Fangneng Zhan , Yingchen Yu , Rongliang Wu , Jiahui Zhang , Shijian Lu

分类：计算机视觉

2021-12-27

随着信息中的各种方式存在于现实世界中的各种方式，多式联信息之间的有效互动和融合在计算机视觉和深度学习研究中的多模式数据的创造和感知中起着关键作用。通过卓越的功率，在多式联运信息中建模互动，多式联运图像合成和编辑近年来已成为一个热门研究主题。与传统的视觉指导不同，提供明确的线索，多式联路指南在图像合成和编辑方面提供直观和灵活的手段。另一方面，该领域也面临着具有固有的模态差距的特征的几个挑战，高分辨率图像的合成，忠实的评估度量等。在本调查中，我们全面地阐述了最近多式联运图像综合的进展根据数据模型和模型架构编辑和制定分类。我们从图像合成和编辑中的不同类型的引导方式开始介绍。然后，我们描述了多模式图像综合和编辑方法，其具有详细的框架，包括生成的对抗网络（GAN），GaN反转，变压器和其他方法，例如NERF和扩散模型。其次是在多模式图像合成和编辑中广泛采用的基准数据集和相应的评估度量的综合描述，以及分析各个优点和限制的不同合成方法的详细比较。最后，我们为目前的研究挑战和未来的研究方向提供了深入了解。与本调查相关的项目可在HTTPS://github.com/fnzhan/mise上获得

translated by 谷歌翻译

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation

Adyasha Maharana , Darryl Hannan , Mohit Bansal

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-09-13

文本到图像合成的最新进展导致了较大的经过验证的变压器，具有出色的能力，可以从给定文本产生可视化。但是，这些模型不适合专门的任务，例如故事可视化，该任务要求代理商制作一系列图像，给定相应的字幕序列，形成叙述。此外，我们发现故事可视化任务无法适应新叙事中看不见的情节和角色的概括。因此，我们首先提出了故事延续的任务，其中生成的视觉故事是在源图像上进行的，从而可以更好地对具有新角色的叙述进行更好的概括。然后，我们使用特定于（a）顺序图像生成的任务特定模块和（b）从初始帧复制相关元素的任务特定模块来增强或“复古”文本对图像合成模型。然后，我们探讨了预训练模型的全模型芬太尼以及对参数适应的及时调整。我们在两个现有数据集（PororoSV和FlintStonessV）上评估了我们的方法storydall-e，并介绍了从视频吸引数据集收集的新数据集DIDEMOSV。我们还基于生成的对抗网络（GAN）开发了一个模型故事游戏，以进行故事的延续，并将其与StoryDall-E模型进行比较，以展示我们方法的优势。我们表明，我们的复古拟合方法优于基于GAN的模型，用于故事延续，并促进从源图像中复制视觉元素，从而改善了生成的视觉故事中的连续性。最后，我们的分析表明，经过审计的变压器努力理解包含几个角色的叙述。总体而言，我们的工作表明，可以验证的文本对图像合成模型可以适应复杂和低资源的任务，例如故事延续。

translated by 谷歌翻译

Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos

Alexander Waibel , Moritz Behr , Fevziye Irem Eyiokur , Dogucan Yaman , Tuan-Nam Nguyen , Carlos Mullov , Mehmet Arif Demirtas , Alperen Kantarcı , Stefan Constantin , Hazım Kemal Ekenel

分类：自然语言处理 | 计算机视觉

2022-06-09

在本文中，我们提出了一个神经端到端系统，用于保存视频的语音，唇部同步翻译。该系统旨在将多个组件模型结合在一起，并以目标语言的目标语言与目标语言的原始扬声器演讲的视频与目标语音相结合，但在语音，语音特征，面对原始扬声器的视频中保持着重点。管道从自动语音识别开始，包括重点检测，然后是翻译模型。然后，翻译后的文本由文本到语音模型合成，该模型重新创建了原始句子映射的原始重点。然后，使用语音转换模型将结果的合成语音映射到原始扬声器的声音。最后，为了将扬声器的嘴唇与翻译的音频同步，有条件的基于对抗网络的模型生成了相对于输入面图像以及语音转换模型的输出的适应性唇部运动的帧。最后，系统将生成的视频与转换后的音频结合在一起，以产生最终输出。结果是一个扬声器用另一种语言说话的视频而不真正知道。为了评估我们的设计，我们介绍了完整系统的用户研究以及对单个组件的单独评估。由于没有可用的数据集来评估我们的整个系统，因此我们收集了一个测试集并在此测试集上评估我们的系统。结果表明，我们的系统能够生成令人信服的原始演讲者的视频，同时保留原始说话者的特征。收集的数据集将共享。

translated by 谷歌翻译

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

Van-Quang Nguyen , Masanori Suganuma , Takayuki Okatani

分类：计算机视觉 | 人工智能 | 自然语言处理

2022-07-20

图像字幕的当前最新方法采用基于区域的特征，因为它们提供了对象级信息，对于描述图像的内容至关重要；它们通常由对象检测器（例如更快的R-CNN）提取。但是，他们有几个问题，例如缺乏上下文信息，不准确检测的风险以及高计算成本。可以通过使用基于网格的功能来解决前两个。但是，如何提取和融合这两种功能是未知的。本文提出了一种仅使用变压器的神经结构，称为砂砾（基于网格和区域的图像字幕变压器），该构建物有效地利用了两个视觉特征来生成更好的字幕。粒度用基于DITR的方法代替了以前方法中使用的基于CNN的检测器，从而使其更快地计算。此外，它的整体设计仅由变压器组成，可以对模型进行端到端的训练。这种创新的设计和双重视觉功能的集成带来了重大的性能提高。几个图像字幕基准的实验结果表明，砂砾的推论准确性和速度优于先前的方法。

translated by 谷歌翻译

Automated Audio Captioning: An Overview of Recent Progress and New Challenges

Xinhao Mei , Xubo Liu , Mark D. Plumbley , Wenwu Wang

分类：人工智能

2022-05-12

自动音频字幕是一项跨模式翻译任务，旨在为给定的音频剪辑生成自然语言描述。近年来，随着免费可用数据集的发布，该任务受到了越来越多的关注。该问题主要通过深度学习技术解决。已经提出了许多方法，例如研究不同的神经网络架构，利用辅助信息，例如关键字或句子信息来指导字幕生成，并采用了不同的培训策略，这些策略极大地促进了该领域的发展。在本文中，我们对自动音频字幕的已发表贡献进行了全面综述，从各种现有方法到评估指标和数据集。我们还讨论了公开挑战，并设想可能的未来研究方向。

translated by 谷歌翻译

Integrating Deep Learning and Augmented Reality to Enhance Situational Awareness in Firefighting Environments

Manish Bhattarai

分类：计算机视觉

2021-07-23

我们提出了一种新的四管齐下的方法，在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架，彼此之叠，以提高消防员在紧急首次响应设置中进行的救援任务的安全性，效率和成功完成。首先，我们使用深度卷积神经网络（CNN）系统，以实时地分类和识别来自热图像的感兴趣对象。接下来，我们将此CNN框架扩展了对象检测，跟踪，分割与掩码RCNN框架，以及具有多模级自然语言处理（NLP）框架的场景描述。第三，我们建立了一个深入的Q学习的代理，免受压力引起的迷失方向和焦虑，能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后，我们使用了一种低计算无监督的学习技术，称为张量分解，在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构，我们建立了人工智能系统的骨干，用于消防员的情境意识。要将设计的系统带入消防员的使用，我们设计了一种物理结构，其中处理后的结果被用作创建增强现实的投入，这是一个能够建议他们所在地的消防员和周围的关键特征，这对救援操作至关重要在手头，以及路径规划功能，充当虚拟指南，以帮助迷彩的第一个响应者恢复安全。当组合时，这四种方法呈现了一种新颖的信息理解，转移和综合方法，这可能会大大提高消防员响应和功效，并降低寿命损失。

translated by 谷歌翻译

Zero-Shot Video Captioning with Evolving Pseudo-Tokens

Yoad Tewel , Yoav Shalev , Roy Nadler , Idan Schwartz , Lior Wolf

分类：计算机视觉

2022-07-22

我们介绍了一种零拍的视频字幕方法，该方法采用了两个冷冻网络：GPT-2语言模型和剪辑图像文本匹配模型。匹配分数用于引导语言模型生成一个句子，该句子的平均匹配分数高于视频帧的一个子集。与零拍图像字幕方法不同，我们的工作立即考虑整个句子。这是通过在生成过程中优化从头开始的一部分，通过在提示中修改所有其他令牌的表示，并通过迭代重复该过程，逐渐提高生成句子的特殊性和全面性来实现。我们的实验表明，生成的字幕是连贯的，并显示了广泛的现实知识。我们的代码可在以下网址找到：https：//github.com/yoadtew/zero-shot-video-to-text

translated by 谷歌翻译

A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer

Weijia Wu , Yuanqiang Cai , Debing Zhang , Sibo Wang , Zhuang Li , Jiahong Li , Yejun Tang , Hong Zhou

分类：计算机视觉 | 自然语言处理

2021-12-09

大多数现有的视频文本发现基准测试专注于评估单一语言和具有有限数据的场景。在这项工作中，我们引入了大规模的双语，开放世界视频文本基准数据集（BovText）。 BovText有四个功能。首先，我们提供2,000多个具有超过1,75万多帧的视频，比现有最大数据集大25倍，其中包含录像中的附带文本。其次，我们的数据集涵盖了具有多种各种场景的30多个开放类别，例如Life VLog，驾驶，电影等。第三，为不同的代表提供了丰富的文本类型注释（即标题，标题或场景文本）视频中的意义。第四，BOVTEXT提供双语文本注释，以促进多种文化的生活和沟通。此外，我们提出了一个与变压器的端到端视频文本发现框架，被称为TransVtspotter，它通过简单但高效的关注的查询密钥机制解决了视频中的多东方文本。它将来自前一个帧的对象特征应用于当前帧的跟踪查询，并引入旋转角度预测以适合多大学实例。在ICDAR2015（视频）上，Transvtspotter以44.1％的Mota，9 FPS实现最先进的性能。 DataSet和TransVtspotter的代码可以在GitHub中找到：COM = Weijiawu = BovText和GitHub：Com = Weijiawu = Transvtspotter。

translated by 谷歌翻译

eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

Yogesh Balaji , Seungjun Nah , Xun Huang , Arash Vahdat , Jiaming Song , Karsten Kreis , Miika Aittala , Timo Aila , Samuli Laine , Bryan Catanzaro

分类：计算机视觉 | 机器学习

2022-11-02

Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiff-I, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiff-I's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiff-I/

translated by 谷歌翻译

TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models

Federico A. Galatolo , Mario G. C. A. Cimino , Edoardo Cogotti

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-12-15

Evaluating and comparing text-to-image models is a challenging problem. Significant advances in the field have recently been made, piquing interest of various industrial sectors. As a consequence, a gold standard in the field should cover a variety of tasks and application contexts. In this paper a novel evaluation approach is experimented, on the basis of: (i) a curated data set, made by high-quality royalty-free image-text pairs, divided into ten categories; (ii) a quantitative metric, the CLIP-score, (iii) a human evaluation task to distinguish, for a given text, the real and the generated images. The proposed method has been applied to the most recent models, i.e., DALLE2, Latent Diffusion, Stable Diffusion, GLIDE and Craiyon. Early experimental results show that the accuracy of the human judgement is fully coherent with the CLIP-score. The dataset has been made available to the public.

translated by 谷歌翻译

Image Captioning based on Feature Refinement and Reflective Decoding

Ghadah Alabduljabbar , Hafida Benhidour , Said Kerrache

分类：计算机视觉

2022-06-16

自动在自然语言中自动生成图像的描述称为图像字幕。这是一个积极的研究主题，位于人工智能，计算机视觉和自然语言处理中两个主要领域的交集。图像字幕是图像理解中的重要挑战之一，因为它不仅需要识别图像中的显着对象，还需要其属性及其相互作用的方式。然后，系统必须生成句法和语义上正确的标题，该标题描述了自然语言的图像内容。鉴于深度学习模型的重大进展及其有效编码大量图像并生成正确句子的能力，最近已经提出了几种基于神经的字幕方法，每种方法都试图达到更好的准确性和标题质量。本文介绍了一个基于编码器的图像字幕系统，其中编码器使用以RESNET-101作为骨干为骨干来提取图像中每个区域的空间和全局特征。此阶段之后是一个精致的模型，该模型使用注意力进行注意的机制来提取目标图像对象的视觉特征，然后确定其相互作用。解码器由一个基于注意力的复发模块和一个反思性注意模块组成，该模块会协作地将注意力应用于视觉和文本特征，以增强解码器对长期顺序依赖性建模的能力。在两个基准数据集（MSCOCO和FLICKR30K）上进行的广泛实验显示了提出的方法和生成的字幕的高质量。

translated by 谷歌翻译

Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion

Huang Nisha , Tang Fan , Dong Weiming , Xu Changsheng

分类：计算机视觉

2022-09-27

数字艺术合成在多媒体社区中受到越来越多的关注，因为有效地与公众参与了艺术。当前的数字艺术合成方法通常使用单模式输入作为指导，从而限制了模型的表现力和生成结果的多样性。为了解决这个问题，我们提出了多模式引导的艺术品扩散（MGAD）模型，该模型是一种基于扩散的数字艺术品生成方法，它利用多模式提示作为控制无分类器扩散模型的指导。此外，对比度语言图像预处理（剪辑）模型用于统一文本和图像模式。关于生成的数字艺术绘画质量和数量的广泛实验结果证实了扩散模型和多模式指导的组合有效性。代码可从https://github.com/haha-lisa/mgad-multimodal-guided-artwork-diffusion获得。

translated by 谷歌翻译

Layout-Bridging Text-to-Image Synthesis

Jiadong Liang , Wenjie Pei , Feng Lu

分类：计算机视觉

2022-08-12

文本对图像综合的症结很大，源于保持输入文本和合成图像之间的跨模式语义一致性的困难。试图直接建模文本图像映射的典型方法只能在文本中捕获指示常见对象或动作但无法学习其空间分布模式的文本中的关键字。规避此限制的一种有效方法是生成图像布局作为指导，这是通过一些方法尝试的。然而，由于输入文本和对象位置的多样性，这些方法无法生成实际有效的布局。在本文中，我们推动在文本到图像生成和布局到图像合成中进行有效的建模。具体而言，我们将文本到序列生成作为序列到序列建模任务，并在变压器上构建我们的模型，以通过对它们之间的顺序依赖性进行建模，以了解对象之间的空间关系。在布局到图像合成的阶段，我们专注于在布局中每个对象中的每个对象学习文本 - 视觉对齐，以精确地将输入文本纳入布局到图像构图合成过程。为了评估生成的布局的质量，我们设计了一个新的度量标准，称为布局质量得分，该评分既考虑了布局中边界框的绝对分布误差，又考虑了它们之间的相互空间关系。在三个数据集上进行的广泛实验证明了我们的方法优于最先进的方法，既可以预测布局和从给定文本综合图像。

translated by 谷歌翻译

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation

Han Zhang , Weichong Yin , Yewei Fang , Lanxin Li , Boqiang Duan , Zhihua Wu , Yu Sun , Hao Tian , Hua Wu , Haifeng Wang

分类：计算机视觉 | 自然语言处理

2021-12-31

用于图像文本生成任务的传统方法主要是分别解决自然双向生成任务，专注于设计任务特定的框架以提高所生成的样本的质量和保真度。最近，Vision-Language预训练模型大大提高了图像到文本生成任务的性能，但仍未开发出用于文本到图像综合任务的大规模预训练模型。在本文中，我们提出了一个具有变压器模型的双向图像文本生成的统一生成的预训练框架的Ernie-Vilg。基于图像量化模型，我们将图像生成和文本生成标准为在文本/图像输入上调节的自回归生成任务。双向图像文本生成建模简化了视觉和语言的语义对齐。对于文本到图像生成过程，我们进一步提出了端到端的训练方法，共同学习视觉序列发生器和图像重建。为了探讨双向文本图像生成的大规模预培训景观，我们在大规模数据集中培训了100亿参数的Ernie-Vilg模型，以145百万（中文）图像 - 文本对实现了达到的状态 - 文本到图像和图像到文本任务的最佳性能，以便在MS-Coco上获取7.9的FID，用于文本到图像合成以及用于图像标题的Coco-CN和AIC-ICC的最佳结果。

translated by 谷歌翻译