智能论文笔记

Learning Object-Language Alignments for Open-Vocabulary Object Detection

Chuang Lin , Peize Sun , Yi Jiang , Ping Luo , Lizhen Qu , Gholamreza Haffari , Zehuan Yuan , Jianfei Cai

分类：计算机视觉

2022-11-27

Existing object detection methods are bounded in a fixed-set vocabulary by costly labeled data. When dealing with novel categories, the model has to be retrained with more bounding box annotations. Natural language supervision is an attractive alternative for its annotation-free attributes and broader object concepts. However, learning open-vocabulary object detection from language is challenging since image-text pairs do not contain fine-grained object-language alignments. Previous solutions rely on either expensive grounding annotations or distilling classification-oriented vision models. In this paper, we propose a novel open-vocabulary object detection framework directly learning from image-text pair data. We formulate object-language alignment as a set matching problem between a set of image region features and a set of word embeddings. It enables us to train an open-vocabulary object detector on image-text pairs in a much simple and effective way. Extensive experiments on two benchmark datasets, COCO and LVIS, demonstrate our superior performance over the competing approaches on novel categories, e.g. achieving 32.0% mAP on COCO and 21.7% mask mAP on LVIS. Code is available at: https://github.com/clin1223/VLDet.

translated by 谷歌翻译

Towards Open Vocabulary Object Detection without Human-provided Bounding Boxes

Mingfei Gao , Chen Xing , Juan Carlos Niebles , Junnan Li , Ran Xu , Wenhao Liu , Caiming Xiong

分类：计算机视觉

2021-11-18

尽管对象检测方面取得了很大进展，但由于实例级边界盒注释所需的巨大人性化，大多数现有方法都仅限于一小一少量的对象类别。为了减轻问题，最近的开放词汇和零射击检测方法试图检测培训期间未见的对象类别。但是，这些方法仍然依赖于一组基类上手动提供的边界盒注释。我们提出了一个开放的词汇检测框架，可以在没有手动提供边界盒注释的情况下培训。我们的方法通过利用预先训练的视觉语言模型的本地化能力来实现这一目标，并产生可直接用于训练对象探测器的伪边界盒标签。 Coco，Pascal VOC，Objects365和LVIS的实验结果证明了我们方法的有效性。具体而言，我们的方法优于使用人类注释的边界箱训练的最先进（SOTA），即使我们的培训源未配备手动边界盒标签，也可以在COCO新型类别上用3％AP培训。在利用手动边界箱标签作为基线时，我们的方法主要超过8％的AP。

translated by 谷歌翻译

RegionCLIP: Region-based Language-Image Pretraining

Yiwu Zhong , Jianwei Yang , Pengchuan Zhang , Chunyuan Li , Noel Codella , Liunian Harold Li , Luowei Zhou , Xiyang Dai , Lu Yuan , Yin Li

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-16

使用图像文本对的对比语言图像预测（剪辑）在零拍摄和传输学习设置中的图像分类中取得了令人印象深刻的结果。但是，我们表明，直接应用此类模型以识别对象检测的图像区域导致由于域移位导致的性能差：剪辑训练以与文本描述的整体匹配，而不捕获图像之间的细粒度对齐地区和文本跨度。为了缓解此问题，我们提出了一种称为RegionClip的新方法，可显着扩展剪辑以学习区域级视觉表示，从而在图像区域和文本概念之间实现细粒度对齐。我们的方法利用剪辑模型将图像区域与模板标题匹配，然后预先列出我们的模型以对准要素空间中的这些区域文本对。将预磨料模型转移到开放词汇对象检测任务时，我们的方法显着优于3.8 AP50和2.2 AP的最新技术，分别用于COCO和LVIS数据集的新型类别。更多，学习区域表示支持对象检测的零拍摄推断，显示了对COCO和LVIS数据集的有希望的结果。我们的代码可在https://github.com/microsoft/regionclip上获得。

translated by 谷歌翻译

Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation

Jianzong Wu , Xiangtai Li , Henghui Ding , Xia Li , Guangliang Cheng , Yunhai Tong , Chen Change Loy

分类：计算机视觉

2023-01-02

In this work, we focus on instance-level open vocabulary segmentation, intending to expand a segmenter for instance-wise novel categories without mask annotations. We investigate a simple yet effective framework with the help of image captions, focusing on exploiting thousands of object nouns in captions to discover instances of novel classes. Rather than adopting pretrained caption models or using massive caption datasets with complex pipelines, we propose an end-to-end solution from two aspects: caption grounding and caption generation. In particular, we devise a joint Caption Grounding and Generation (CGG) framework based on a Mask Transformer baseline. The framework has a novel grounding loss that performs explicit and implicit multi-modal feature alignments. We further design a lightweight caption generation head to allow for additional caption supervision. We find that grounding and generation complement each other, significantly enhancing the segmentation performance for novel categories. We conduct extensive experiments on the COCO dataset with two settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic Segmentation (OSPS). The results demonstrate the superiority of our CGG framework over previous OVIS methods, achieving a large improvement of 6.8% mAP on novel classes without extra caption data. Our method also achieves over 15% PQ improvements for novel classes on the OSPS benchmark under various settings.

translated by 谷歌翻译

Localized Vision-Language Matching for Open-vocabulary Object Detection

Maria A. Bravo , Sudhanshu Mittal , Thomas Brox

分类：计算机视觉 | 机器学习

2022-05-12

在这项工作中，我们提出了一种开放式摄制对象检测方法，该方法基于图像映射对，学会了检测新颖对象类别以及给定的一组已知类别。这是一种两阶段的训练方法，首先使用位置引导的图像捕获匹配技术以弱监督的方式学习新颖和已知类别的类标签，第二个使用已知的类注释专用于对象检测任务的模型。我们表明，一个简单的语言模型比检测新对象的大型上下文化语言模型更适合。此外，我们引入了一种一致性调查技术，以更好地利用图像捕获对信息。我们的方法比较与现有的开放式检测方法相比，同时具有数据效率。源代码可从https://github.com/lmb-freiburg/locov获得。

translated by 谷歌翻译

Detecting Twenty-thousand Classes using Image-level Supervision

Xingyi Zhou , Rohit Girdha , Armand Joulin , Phillip Krähenbühl , Ishan Misra

分类：计算机视觉

2022-01-07

由于检测数据集的规模小，当前对象探测器的词汇量受到限制。另一方面，图像分类器的原因是大约更大的词汇表，因为他们的数据集更大，更容易收集。我们提出守则，只需在图像分类数据上培训检测器的分类器，从而扩展了探测器的词汇量到数万个概念。与现有工作不同，拒绝不会根据模型预测将图像标签分配给框，使其更容易实现和兼容一系列检测架构和骨架。我们的结果表明，即使没有箱子注释，否则差异也能产生出色的探测器。它优于开放词汇和长尾检测基准的事先工作。拒绝为所有类和8.3地图提供了2.4地图的增益，用于开放词汇LVIS基准测试中的新型类。在标准的LVIS基准测试中，守护者达到41.7地图所有课程和41.7地图以获得罕见课程。我们首次培训一个探测器，其中包含所有二十一千类的ImageNet数据集，并显示它在没有微调的情况下推广到新数据集。代码可在https://github.com/facebookresearch/dorm提供。

translated by 谷歌翻译

Open-Vocabulary DETR with Conditional Matching

Yuhang Zang , Wei Li , Kaiyang Zhou , Chen Huang , Chen Change Loy

分类：计算机视觉 | 人工智能

2022-03-22

Open-vocabulary object detection, which is concerned with the problem of detecting novel objects guided by natural language, has gained increasing attention from the community. Ideally, we would like to extend an open-vocabulary detector such that it can produce bounding box predictions based on user inputs in form of either natural language or exemplar image. This offers great flexibility and user experience for human-computer interaction. To this end, we propose a novel open-vocabulary detector based on DETR -- hence the name OV-DETR -- which, once trained, can detect any object given its class name or an exemplar image. The biggest challenge of turning DETR into an open-vocabulary detector is that it is impossible to calculate the classification cost matrix of novel classes without access to their labeled images. To overcome this challenge, we formulate the learning objective as a binary matching one between input queries (class name or exemplar image) and the corresponding objects, which learns useful correspondence to generalize to unseen queries during testing. For training, we choose to condition the Transformer decoder on the input embeddings obtained from a pre-trained vision-language model like CLIP, in order to enable matching for both text and image queries. With extensive experiments on LVIS and COCO datasets, we demonstrate that our OV-DETR -- the first end-to-end Transformer-based open-vocabulary detector -- achieves non-trivial improvements over current state of the arts.

translated by 谷歌翻译

Exploiting Unlabeled Data with Vision and Language Models for Object Detection

Shiyu Zhao , Zhixing Zhang , Samuel Schulter , Long Zhao , Vijay Kumar B. G , Anastasis Stathopoulos , Manmohan Chandraker , Dimitris Metaxas

分类：计算机视觉

2022-07-18

构建强大的通用对象检测框架需要扩展到更大的标签空间和更大的培训数据集。但是，大规模获取数千个类别的注释是高昂的成本。我们提出了一种新颖的方法，该方法利用了最近的视觉和语言模型中可用的丰富语义来将对象定位和分类在未标记的图像中，从而有效地生成了伪标签以进行对象检测。从通用和类别的区域建议机制开始，我们使用视觉和语言模型将图像的每个区域分类为下游任务所需的任何对象类别。我们在两个特定的任务（开放式摄影检测检测）中演示了生成的伪标签的值，其中模型需要概括为看不见的对象类别以及半监督对象检测，其中可以使用其他未标记的图像来改善模型。我们的经验评估显示了伪标签在这两个任务中的有效性，我们在其中优于竞争基准并实现了开放式摄制对象检测的新颖最新。我们的代码可在https://github.com/xiaofeng94/vl-plm上找到。

translated by 谷歌翻译

DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection

Lewei Yao , Jianhua Han , Youpeng Wen , Xiaodan Liang , Dan Xu , Wei Zhang , Zhenguo Li , Chunjing Xu , Hang Xu

分类：计算机视觉

2022-09-20

开放世界对象检测是一个更具笼统和挑战性的目标，旨在识别和本地化由任意类别名称描述的对象。最近的工作GLIP通过将检测数据集的所有类别名称连接到句子中，从而将此问题作为接地问题，从而导致类别名称之间的效率低下的相互作用。本文介绍了Distclip，这是一种通过诉诸于设计概念词典的知识富集，是一种平行的视觉概念训练预训练方法，用于开放世界检测。为了提高学习效率，我们提出了一种新型的并行概念公式，该公式分别提取概念，以更好地利用异质数据集（即检测，接地和图像文本对）进行培训。我们进一步设计了来自各种在线资源和检测数据集的概念字典〜（带有描述），以提供每个概念的先验知识。通过用描述丰富这些概念，我们明确地建立了各种概念之间的关系，以促进开放域学习。所提出的概念词典进一步用于提供足够的负面概念，用于构建单词区域对齐损失\，并完成图像对文本对数据标题中缺少描述的对象的标签。所提出的框架显示出强烈的零射击性能性能，例如，在LVIS数据集上，我们的DETCLIP-T优于9.9％的地图GLIPT-T优于GLIP-T，并且与完全避免的型号相比，稀有类别的稀有类别提高了13.5％。作为我们的。

translated by 谷歌翻译

Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection

Hanoona Rasheed , Muhammad Maaz , Muhammad Uzair Khattak , Salman Khan , Fahad Shahbaz Khan

分类：计算机视觉 | 人工智能

2022-07-07

现有的开放式视频探测器通常通过利用不同形式的弱监督来扩大其词汇大小。这有助于推断出新的对象。开放式视频检测（OVD）中使用的两种流行形式的弱点，包括预审计的剪辑模型和图像级监督。我们注意到，这两种监督模式均未在检测任务中最佳地对齐：剪辑经过图像文本对培训，并且缺乏对象的精确定位，而图像级监督已与启发式方法一起使用，这些启发式方法无法准确指定本地对象区域。在这项工作中，我们建议通过从剪辑模型中执行以对象为中心的语言嵌入来解决此问题。此外，我们仅使用伪标记的过程来视觉上仅通过图像级监督对象，该过程提供高质量的对象建议，并有助于在训练过程中扩展词汇。我们通过新的重量转移函数在上述两个对象对准策略之间建立桥梁，该策略汇总了它们的免费强度。本质上，提出的模型试图最大程度地减少OVD设置中对象和以图像为中心表示之间的差距。在可可基准上，我们提出的方法在新颖类中实现了40.3 AP50，绝对11.9比以前的最佳性能获得了11.9的增长。对于LVIS，我们超过了5.0 Mask AP的最先进VILD模型，总体上有3.4个。。代码：https：//bit.ly/3byzoqp。

translated by 谷歌翻译

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

Dat Huynh , Jason Kuen , Zhe Lin , Jiuxiang Gu , Ehsan Elhamifar

分类：计算机视觉

2021-11-24

开放词汇实例分段旨在分割没有掩码注释的新型类。这是减少艰苦的人类监督的重要一步。大多数现有的作品首先返回覆盖许多小说类的标题图像模型，然后在带有掩模注释的有限基础类上的Finetune。然而，单独从标题预先预先估望中学到的高级文本信息无法有效地编码像素明智分割所需的细节。为解决此问题，我们提出了一种跨模型伪标签框架，它通过在标题中对齐单词语义来生成培训伪掩模，其中具有图像中的对象掩码的可视特征。因此，我们的框架能够通过他们的单词语义来标记新颖的类别来自动训练学生模型。为了考虑伪掩模中的噪声，我们设计了一种强大的学生模型，通过估计掩模噪声水平来选择性地蒸馏掩模知识，因此减轻了嘈杂的伪掩模的不利影响。通过广泛的实验，我们展示了我们框架的有效性，我们在MS-Coco上显着提高了地图得分4.5％，与最先进的大规模打开图像和概念标题数据集有5.1％。

translated by 谷歌翻译

PromptDet: Towards Open-vocabulary Detection using Uncurated Images

Chengjian Feng , Yujie Zhong , Zequn Jie , Xiangxiang Chu , Haibing Ren , Xiaolin Wei , Weidi Xie , Lin Ma

分类：计算机视觉

2022-03-30

这项工作的目的是使用零手动注释建立可扩展的管道，以将对象检测器扩展到新颖/看不见的类别。为此，我们做出以下四个贡献：（i）追求概括，我们提出了一个两阶段的开放式摄制对象检测器，其中类无形的对象建议与预先训练的视觉视觉训练的文本编码一起分类语言模型；（ii）要将视觉潜在空间（RPN框建议）与预训练的文本编码器配对，我们提出了区域提示的概念，以学习将文本嵌入空间与区域视觉对象特征相结合；（iii）为了扩展学习过程以检测更广泛的对象，我们通过新颖的自我训练框架利用可用的在线资源，该框架允许在嘈杂的未经图像的网络图像上训练所提出的检测器。最后，（iv）评估我们所提出的检测器，称为及时插图，我们对具有挑战性的LVI和MS-COCO数据集进行了广泛的实验。提示件表现出优于现有方法的卓越性能，而其他培训图像和零手动注释较少。带代码的项目页面：https：//fcjian.github.io/promptdet。

translated by 谷歌翻译

Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization

Peixian Chen , Kekai Sheng , Mengdan Zhang , Yunhang Shen , Ke Li , Chunhua Shen

分类：计算机视觉

2022-06-22

开放式视频对象检测（OVD）旨在扩展词汇大小，以检测训练词汇以外的新颖类别的对象。最近的工作诉诸于预先训练的视觉模型中的丰富知识。但是，现有方法在提案级视觉语言对准方面无效。同时，这些模型通常遭受对基本类别的信心偏见，并且在新颖的类别上表现较差。为了克服挑战，我们提出了Medet，这是一个新颖有效的OVD框架，并具有建议挖掘和预测均衡。首先，我们设计了一个在线建议挖掘，以完善从粗到细的继承的视觉语义知识，从而允许提案级别以检测为导向的特征对齐。其次，基于因果推论理论，我们引入了班级的后门调整，以加强对新类别的预测，以提高整体OVD性能。对可可和LVIS基准的广泛实验验证了MEDET在检测新型类别的对象（例如可可的32.6％AP50）和LVI上的22.4％蒙版图中的优越性。

translated by 谷歌翻译

Grounded Language-Image Pre-training

Liunian Harold Li , Pengchuan Zhang , Haotian Zhang , Jianwei Yang , Chunyuan Li , Yiwu Zhong , Lijuan Wang , Lu Yuan , Lei Zhang , Jenq-Neng Hwang

分类：计算机视觉 | 人工智能 | 自然语言处理 | 机器学习

2021-12-07

本文介绍了用于学习对象级别，语言感知和富含语义的视觉表示的接地语言图像预培训（GLIP）模型。 Glip统一对象检测和短语进行预培训。统一带来了两个好处：1）它允许GLIP从检测和接地数据中学习，以改善两个任务和引导良好的接地模型; 2）GLIP可以通过以自培训方式产生接地盒来利用大规模的图像文本对，使学习的表示是语义丰富的。在我们的实验中，我们在27M的接地数据上预先列车触胶，包括3M人的注释和24M Web爬网的图像文本对。学习的表示表明了强烈的零射击和对各种对象识别任务的可转换性。 1）直接在Coco和LVIS上评估（在训练期间没有在Coco中看到任何图像）时，Plip分别达到49.8 AP和26.9 AP，超过许多监督基线。 2）在COCO上微调后，GLIP在Val和61.5 AP上实现60.8 AP在测试开发上，超过先前的SOTA。 3）当转移到下游对象检测任务时，具有完全监控动态头的1次触发器竞争对手。代码将在https://github.com/microsoft/glip发布。

translated by 谷歌翻译

OmDet: Language-Aware Object Detection with Large-scale Vision-Language Multi-dataset Pre-training

Tiancheng Zhao , Peng Liu , Xiaopeng Lu , Kyusong Lee

分类：计算机视觉 | 自然语言处理

2022-09-10

长期以来，将物体检测推向开放量和几乎没有射击转移一直是计算机视觉研究的挑战。这项工作探讨了一种持续的学习方法，该方法使探测器能够通过多数据远见语言的预训练扩展其零/少量功能。我们使用自然语言作为知识表示，我们探讨了从不同培训数据集积累“视觉词汇”的方法，并将任务统一为语言条件的检测框架。具体而言，我们提出了一种新颖的语言感知探测器OMDET和一种新颖的培训机制。拟议的多模式检测网络可以解决多数据库联合培训中的技术挑战，并且可以推广到任意数量的培训数据集，而无需手动标签分类合并的要求。与单独训练相比，Coco，Pascal VOC和更宽的面部/行人的实验结果通过在关节训练中或更高的分数来证实了疗效。此外，我们对超过400万个独特的对象词汇进行了预先培训，并在ODINW的35个下游任务上评估了所得模型。结果表明，OMDET能够在ODINW上实现最新的微调性能。分析表明，通过扩展提出的预训练方法，OMDET继续改善其零/少量调整性能，这表明了进一步扩展的有希望的方法。

translated by 谷歌翻译

Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation

Xingchen Li , Long Chen , Wenbo Ma , Yi Yang , Jun Xiao

分类：计算机视觉

2022-08-03

最近，越来越多的努力集中在弱监督的场景图（WSSGG）上。 WSSGG的主流解决方案通常遵循相同的管道：它们首先将文本实体与弱图像级别的监督（例如，未定位的关系三胞胎或字幕）相结合，然后用图像区域对齐，然后以完全固定的实例训练SGG模型 - 级别的“伪”标签。但是，我们认为大多数现有的WSSGG仅专注于对象一致性，这意味着接地区域应具有与文本实体相同的对象类别标签。尽管他们忽略了理想对齐的另一个基本要求：相互作用，这意味着接地区域对应具有与文本实体对相同的相互作用（即视觉关系）。因此，在本文中，我们建议通过使用对象感知和互动感知知识来增强简单的接地模块，以获取更可靠的伪标签。为了更好地利用这两种类型的知识，我们将它们视为两位老师，并融合其生成的目标，以指导我们接地模块的训练过程。具体而言，我们设计了两种不同的策略，可以通过评估每个培训样本的可靠性来适应不同的教师。广泛的实验表明，我们的方法始终在各种弱监督下提高WSSGG性能。

translated by 谷歌翻译

SLAN: Self-Locator Aided Network for Cross-Modal Understanding

Jiang-Tian Zhai , Qi Zhang , Tong Wu , Xing-Yu Chen , Jiang-Jiang Liu , Bo Ren , Ming-Ming Cheng

分类：计算机视觉

2022-11-28

Learning fine-grained interplay between vision and language allows to a more accurate understanding for VisionLanguage tasks. However, it remains challenging to extract key image regions according to the texts for semantic alignments. Most existing works are either limited by textagnostic and redundant regions obtained with the frozen detectors, or failing to scale further due to its heavy reliance on scarce grounding (gold) data to pre-train detectors. To solve these problems, we propose Self-Locator Aided Network (SLAN) for cross-modal understanding tasks without any extra gold data. SLAN consists of a region filter and a region adaptor to localize regions of interest conditioned on different texts. By aggregating cross-modal information, the region filter selects key regions and the region adaptor updates their coordinates with text guidance. With detailed region-word alignments, SLAN can be easily generalized to many downstream tasks. It achieves fairly competitive results on five cross-modal understanding tasks (e.g., 85.7% and 69.2% on COCO image-to-text and text-to-image retrieval, surpassing previous SOTA methods). SLAN also demonstrates strong zero-shot and fine-tuned transferability to two localization tasks.

translated by 谷歌翻译

Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

Golnaz Ghiasi , Xiuye Gu , Yin Cui , Tsung-Yi Lin

分类：计算机视觉

2021-12-22

我们设计了一个开放式图像分割模型，以将图像组织到任意文本指示的有意义区域中。最近的作品（剪辑和对齐），尽管使用图像级字幕标签获得了令人印象深刻的开放式摄氏分类精度，但仍无法用像素分段视觉概念。我们认为这些模型错过了视觉分组的重要步骤，该模型在学习视觉语义对齐之前将像素组织成小组。我们建议OpenSeg解决上述问题，同时仍利用可扩展的图像级标题监督。首先，它学会了为可能的组织提出细分面具。然后，它通过将标题中的每个单词与一个或几个预测的面具对齐来学习视觉语义对齐。我们发现蒙版表示是支持字幕学习图像分割的关键，从而可以扩大数据集和词汇大小。 OpenSeg大大优于pascal数据集上LSEG最近的开放式LSEG +19.9 MIOU的开放式方法。

translated by 谷歌翻译

Fine-Grained Semantically Aligned Vision-Language Pre-Training

Juncheng Li , Xin He , Longhui Wei , Long Qian , Linchao Zhu , Lingxi Xie , Yueting Zhuang , Qi Tian , Siliang Tang

分类：计算机视觉

2022-08-04

大规模的视觉预训练在各种下游任务中都表现出了令人印象深刻的进步。现有方法主要是通过图像和文本的全局表示形式的相似性或对图像和文本特征上的高级交叉模式关注来对跨模式对齐进行建模。但是，由于只有全局图像文本对齐信息，因此他们无法明确学习视觉区域和文本短语之间的细粒语义对齐。在本文中，我们介绍了Loupe，这是一种精细的语义一致性视觉语言预训练框架，该框架从新颖的游戏理论互动的角度学习了细粒度的语义对齐。为了有效地计算游戏理论相互作用，我们进一步提出了一种不确定性感知的神经Shapley交互学习模块。实验表明，Loupe在图像文本检索基准测试中实现了最新的。如果没有任何对象级的人类注释和微调，Loupe就可以在对象检测和视觉接地方面实现竞争性能。更重要的是，Loupe从大规模的原始图像文本对学习细粒语义的新方向。

translated by 谷歌翻译

KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation

Yongfei Liu , Chenfei Wu , Shao-yen Tseng , Vasudev Lal , Xuming He , Nan Duan

分类：计算机视觉

2021-09-22

自我监督的视觉和语言预处理（VLP）旨在从大规模的图像文本数据中学习可转移的多模式表示形式，并在填充后在广泛的视觉范围内实现强大的表现。以前的主流VLP方法通常采用依靠外部对象检测器来编码多模式变压器框架中的图像的两步策略，该框架遭受了限制性对象概念空间，有限的图像上下文和效率低下的计算。在本文中，我们提出了一个对象感知的端到端VLP框架，该框架将来自CNN的图像网格特征直接馈送到变压器中，并共同学习多模式表示。更重要的是，我们建议执行对象知识蒸馏，以促进在不同语义级别的学习跨模式对齐。为了实现这一目标，我们通过将对象特征及其来自外部检测器的语义标签作为监督来设计两个新颖的借口任务：1。）对象引导的蒙版视觉建模任务的重点是在多模式变压器中强制执行对象感知的表示的学习； 2.）短语区域对准任务旨在通过利用语言空间中名词短语和对象标签之间的相似性来改善跨模式对齐。对各种视觉语言任务进行的广泛实验证明了我们提出的框架的功效，并且我们在现有的预科策略中实现了竞争性或优越的表现。

translated by 谷歌翻译