我们呈现LSEG,这是一种用于语言驱动语义图像分割的新模型。 LSEG使用文本编码器来计算描述性输入标签(例如,“草”或“构建”)的嵌入式,以及基于变压器的图像编码器,该图像编码器计算输入图像的密度每个像素嵌入。图像编码器具有对比度目标,以将像素嵌入对准对应语义类的文本嵌入。文本嵌入式提供了一种灵活的标签表示,其中将语义相似的标签映射到嵌入空间中的类似区域(例如,“猫”和“毛茸茸”)。这允许LSEG概括到以前在测试时间的预先看不见的类别,而不会再培训或甚至需要单一的额外训练样本。我们展示了与现有的零点和少量拍摄语义分割方法相比,我们的方法实现了高竞争激烈的零射性能,甚至在提供固定标签集时符合传统分段算法的准确性。代码和演示可在https://github.com/isl-org/lang-seg获取。
translated by 谷歌翻译
分组和识别是视觉场景理解的重要组成部分,例如,用于对象检测和语义分割。借助端到端的深度学习系统,图像区域的分组通常通过像素级识别标签的自上而下的监督隐式进行。取而代之的是,在本文中,我们建议将分组机制恢复到深层网络中,从而使语义片段仅在文本监督下自动出现。我们提出了一个分层分组视觉变压器(GroupVit),它超出了常规的网格结构表示,并学会了将图像区域分组为逐渐更大的任意形状段。我们通过对比度损失在大规模图像文本数据集上与文本编码器共同训练小组vit。只有文本监督并且没有任何像素级注释,GroupVit就学会了将语义区域分组在一起,并以零拍的方式成功地将语义分割的任务转移到语义分割的任务,即,而没有任何进一步的微调。它在Pascal VOC 2012上获得了52.3%MIOU的零拍摄精度和Pascal上下文数据集中的22.4%MIOU,并竞争性地表现为需要更高水平监督的最先进的转移学习方法。我们在https://github.com/nvlabs/groupvit上开放代码。
translated by 谷歌翻译
最近,Vision-Language预训练的零拍图像分类已经表现出令人难以置信的成就,即该模型可以对任意类别进行分类而不看到该类别的其他注释图像。然而,目前尚不清楚如何在更广泛的视觉问题上进行零射识别,例如对象检测和语义分割。在本文中,我们通过在现成的预训练的视觉模型,即剪辑上建立零拍语义分割来定位零拍语义分割。很难因为语义分割和剪辑模型在不同的视觉粒度上执行,该语义分段处理在像素上时,而剪辑在图像上执行。为了解决处理粒度的差异,我们拒绝使用普遍的一级FCN基于FCN的框架,并倡导一个两级语义分割框架,其中第一阶段提取一个完全提取的掩模提案和第二阶段利用基于图像的剪辑模型在第一阶段生成的蒙版图像作物上执行零拍分类。我们的实验结果表明,这种简单的框架通过大型利润率超越了先前的最先进:+29.5 Hiou On Pascal VOC 2012 DataSet,+8.9 Hiou On Coco Stuff DataSet。凭借其简单性和强大的表现,我们希望本框架成为促进未来研究的基准。
translated by 谷歌翻译
对比语言 - 图像预训练(剪辑)在开放词汇零拍摄图像识别方面取得了显着突破。许多最近的研究利用预先训练的剪辑模型进行图像级分类和操纵。在本文中,我们进一步探索了剪辑的电位,用于像素级致密预测,具体地在语义分割中。在没有注释和微调的情况下,我们的方法Denseclip会产生合理的分段结果,在各种数据集中的开放概念上产生了合理的分段结果。通过添加伪标签和自我培训,Denseclip +超越了SOTA转换零点语义分割方法,通过大幅边缘,例如,Pascal VOC / Pascal Context / Coco Sift的宣传课程从35.6 / 20.7 / 30.3到86.1 / 66.7 / 54.7。我们还在输入损坏下测试了Denseclip的稳健性,并评估其在识别细粒度物体和新颖概念中的能力。我们的发现表明,Denseclip可以作为致密预测任务的新可靠的监督源,以实现无批准的分割。
translated by 谷歌翻译
通常通过培训用于固定的对象类的模型来解决图像分割。稍后包含附加类或更复杂的查询是昂贵的,因为它需要重新培训包含这些表达式的数据集上的模型。在这里,我们提出了一个系统,该系统可以基于测试时间的任意提示生成图像分割。提示可以是文本或图像。这种方法使我们能够为三个常见的分段任务创建一个统一的模型(训练一次),这具有不同的挑战:引用表达式分割,零拍分段和单次分割。我们构建在剪辑模型中作为骨干,我们使用基于变压器的解码器扩展,该解码器能够致密预测。在对PhraseCut数据集的扩展版本进行培训之后,我们的系统基于自由文本提示符或表达查询的附加图像生成图像的二进制分段映射。详细分析了基于图像的提示的不同变体。这种新型混合输入允许不仅针对上述三个分段任务的动态调整,而是可以制定文本或图像查询的任何二进制分段任务。最后,我们发现我们的系统适应涉及可承受能力或属性的广义查询。源代码:https://ecterlab.org/code/clipseg
translated by 谷歌翻译
We introduce Patch Aligned Contrastive Learning (PACL), a modified compatibility function for CLIP's contrastive loss, intending to train an alignment between the patch tokens of the vision encoder and the CLS token of the text encoder. With such an alignment, a model can identify regions of an image corresponding to a given text input, and therefore transfer seamlessly to the task of open vocabulary semantic segmentation without requiring any segmentation annotations during training. Using pre-trained CLIP encoders with PACL, we are able to set the state-of-the-art on the task of open vocabulary zero-shot segmentation on 4 different segmentation benchmarks: Pascal VOC, Pascal Context, COCO Stuff and ADE20K. Furthermore, we show that PACL is also applicable to image-level predictions and when used with a CLIP backbone, provides a general improvement in zero-shot classification accuracy compared to CLIP, across a suite of 12 image classification datasets.
translated by 谷歌翻译
为了弥合监督语义细分与现实世界应用程序之间的差距,这些应用程序获取一个模型以识别任意新概念,最近的零弹性细分通过探索看不见的对象类别之间的关系,吸引了很多关注带有不同基础类别的通知数据。在本文中,我们提出了一种新的开放世界语义分割管道,该管道首次尝试学习各种开放世界类别的语义对象,而无需对密集注释进行任何努力,纯粹是通过纯粹利用自然存在的图像捕获数据来进行的。互联网。我们的方法,视觉语言驱动的语义分割(VIL-SEG),采用图像和文本编码器来生成图像捕获数据的视觉和文本嵌入,具有两个核心组件,具有赋予其分割能力的两个核心组件:首先,图像,图像,图像编码器通过基于视觉的对比和跨模式对比度进行了共同训练,这鼓励视觉嵌入既保留对细分任务至关重要的细粒语义和高级类别信息。此外,在图像编码器上设计了一个在线聚类头,该群体可以动态地将视觉嵌入到不同的语义组中,以便可以通过与各种文本嵌入来完成分类以完成我们的细分管道来对其进行分类。实验表明,如果不使用任何具有密集注释的数据,我们的方法可以直接分割任意类别的对象,超过了需要在三个基准数据集上进行数据标记的零摄像分割方法。
translated by 谷歌翻译
我们设计了一个开放式图像分割模型,以将图像组织到任意文本指示的有意义区域中。最近的作品(剪辑和对齐),尽管使用图像级字幕标签获得了令人印象深刻的开放式摄氏分类精度,但仍无法用像素分段视觉概念。我们认为这些模型错过了视觉分组的重要步骤,该模型在学习视觉语义对齐之前将像素组织成小组。我们建议OpenSeg解决上述问题,同时仍利用可扩展的图像级标题监督。首先,它学会了为可能的组织提出细分面具。然后,它通过将标题中的每个单词与一个或几个预测的面具对齐来学习视觉语义对齐。我们发现蒙版表示是支持字幕学习图像分割的关键,从而可以扩大数据集和词汇大小。 OpenSeg大大优于pascal数据集上LSEG最近的开放式LSEG +19.9 MIOU的开放式方法。
translated by 谷歌翻译
语义细分具有广泛的应用,但是其现实世界的影响受到实现部署所必需的过度注释成本的限制。放弃监督的细分方法可以辅助这些成本,但表现出不便的要求,以提供目标分布中标记的示例以将概念名称分配给预测。语言图像预训练中的另一种工作线最近证明了可以产生模型的潜力,这些模型既可以在概念的大词汇上分配名称,又可以使零摄像转移进行分类,但并未证明相应的细分能力。在这项工作中,我们努力实现这两种结合其优势的方法的综合。我们利用一种此类语言图像预训练的模型Clip的检索能力,从未标记的图像中动态策划训练集,以获取任意概念名称集的收集,并利用现代图像表示的强大对应关系到共同段的实体之间的强大通信由此产生的收藏。然后使用合成段集合来构建一个分割模型(不需要像素标签),其概念知识是从剪辑的可扩展预训练过程继承的。我们证明,我们的方法被称为检索和共段(RECO)对无监督的分割方法表现出色,同时继承了可命名的预测和零拍传输的便利性。我们还展示了Reco为极稀有物体生成专业细分器的能力。
translated by 谷歌翻译
零拍语义分割(ZS3)旨在分割培训中没有看到的新型类别。现有的作品将zs3作为像素级零拍分类问题,以及在仅使用文本预先培训的语言模型的帮助下,将语义知识从看见课程转移到未知一体。虽然简单,像素级ZS3配方显示了集成具有图像文本对预训练的视觉语言模型的有限能力,并且目前展示了愿景任务的巨大潜力。灵感来自观察,人类经常执行段级语义标签,我们建议将zs3分成两个子任务:1)将像素分组到段中的类别不可知的分组任务。 2)段的零拍分类任务。前者的子任务不涉及类别信息,可以直接传输到未安装类的组像素。后一子任务在段级执行,提供了一种自然的方式,可以利用预先培训的大规模视觉模型,用于ZS3的图像文本对(例如剪辑)。基于解耦制剂,我们提出了一种简单且有效的零拍语义分割模型,称为ZegFormer,这优于大幅边缘的先前方法,例如,Pascal VOC的35分和3分在Coco-在宫颈课程方面的东西。代码将在https://github.com/dingjiansw101/zegformer发布。
translated by 谷歌翻译
We tackle open-world semantic segmentation, which aims at learning to segment arbitrary visual concepts in images, by using only image-text pairs without dense annotations. Existing open-world segmentation methods have shown impressive advances by employing contrastive learning (CL) to learn diverse visual concepts and adapting the learned image-level understanding to the segmentation task. However, these methods based on CL have a discrepancy since it only considers image-text level alignment in training time, while the segmentation task requires region-text level alignment at test time. In this paper, we propose a novel Text-grounded Contrastive Learning (TCL) framework to directly align a text and a region described by the text to address the train-test discrepancy. Our method generates a segmentation mask associated with a given text, extracts grounded image embedding from the masked region, and aligns it with text embedding via TCL. The framework addresses the discrepancy by letting the model learn region-text level alignment instead of image-text level alignment and encourages the model to directly improve the quality of generated segmentation masks. In addition, for a rigorous and fair comparison, we present a unified evaluation protocol with widely used 8 semantic segmentation datasets. TCL achieves state-of-the-art zero-shot segmentation performance with large margins in all datasets. Code is available at https://github.com/kakaobrain/tcl.
translated by 谷歌翻译
这项工作的目的是在训练过程中划分和名称图像区域,而无需访问像素级标签。为了解决这项任务,我们通过提炼两个基础模型的互补优势来构建细分器。第一个剪辑(Radford等,2021)具有将名称分配给图像内容的能力,但缺乏对象结构的可访问表示。第二个Dino(Caron等,2021)捕获了物体的空间范围,但对对象名称不了解。我们的方法称为名为Mask,开始使用剪辑来构建特定于类别的图像档案。这些图像用dino的类别 - 敏捷的对象检测器进行伪标记,然后使用夹档案标签通过类别特定的细分器进行完善。得益于精制面具的高质量,我们表明,在这些档案中训练有适当数据的培训的标准分割体系结构可为单对象和多对象图像带来令人印象深刻的语义细分能力。结果,我们提出的名字命名为在包括VOC2012,可可和大规模ImageNet-S数据集在内的五个基准上的一系列先前工作中表现出色。
translated by 谷歌翻译
Few-shot segmentation (FSS) aims to segment unseen classes using a few annotated samples. Typically, a prototype representing the foreground class is extracted from annotated support image(s) and is matched to features representing each pixel in the query image. However, models learnt in this way are insufficiently discriminatory, and often produce false positives: misclassifying background pixels as foreground. Some FSS methods try to address this issue by using the background in the support image(s) to help identify the background in the query image. However, the backgrounds of theses images is often quite distinct, and hence, the support image background information is uninformative. This article proposes a method, QSR, that extracts the background from the query image itself, and as a result is better able to discriminate between foreground and background features in the query image. This is achieved by modifying the training process to associate prototypes with class labels including known classes from the training data and latent classes representing unknown background objects. This class information is then used to extract a background prototype from the query image. To successfully associate prototypes with class labels and extract a background prototype that is capable of predicting a mask for the background regions of the image, the machinery for extracting and using foreground prototypes is induced to become more discriminative between different classes. Experiments for both 1-shot and 5-shot FSS on both the PASCAL-5i and COCO-20i datasets demonstrate that the proposed method results in a significant improvement in performance for the baseline methods it is applied to. As QSR operates only during training, these improved results are produced with no extra computational complexity during testing.
translated by 谷歌翻译
完全监督的语义细分技术在现场了解中带来了范式转变。然而,昂贵的标签成本负担仍然是一个挑战。为了解决成本问题,最近的研究提出了基于语言模型的零拍语义分段(L-ZSSS)方法。在本文中,我们地址L-ZSS在泛化中有一个限制,这是零射击学习的德。解决限制,我们提出了一种无意义的零拍语义分段框架,空间和多尺度感知视觉类嵌入网络(SM-VCenet)。此外,利用视觉导向的类嵌入SM-VCENET通过多尺度关注和空间关注来丰富群体的视觉信息。我们还提出了一种用于零拍语义分割的新型基准(Pascal2coco),其通过域适应提供泛化评估,并含有视觉挑战性样本。在实验中,我们的SM-VCENET通过Pascal-5i基准测试中的相对余量优于零拍语义分割最新状态,并在Pascal2coco基准中显示泛化稳健性。
translated by 谷歌翻译
最近的方法表明,直接在大规模图像文本对集合上训练深神网络可以在各种识别任务上进行零拍传输。一个中心问题是如何将其推广到对象检测,这涉及本地化的非语义任务以及分类的语义任务。为了解决这个问题,我们引入了一种视觉嵌入对准方法,该方法将审计模型(例如夹子)(例如夹子)的概括能力传输到像Yolov5这样的对象检测器。我们制定了一个损耗函数,使我们能够将图像和文本嵌入在预审计的模型夹中对齐与检测器的修改语义预测头。通过这种方法,我们能够训练一个对象检测器,该对象检测器可以在可可,ILSVRC和视觉基因组零摄像机检测基准上实现最先进的性能。在推断期间,我们的模型可以适应以检测任何数量的对象类,而无需其他培训。我们还发现,标准对象检测缩放可以很好地传输到我们的方法,并在Yolov5模型和Yolov3模型的各种尺度上找到一致的改进。最后,我们开发了一种自我标记的方法,该方法可提供显着的分数改进,而无需额外的图像或标签。
translated by 谷歌翻译
We present X-Decoder, a generalized decoding model that can predict pixel-level segmentation and language tokens seamlessly. X-Decodert takes as input two types of queries: (i) generic non-semantic queries and (ii) semantic queries induced from text inputs, to decode different pixel-level and token-level outputs in the same semantic space. With such a novel design, X-Decoder is the first work that provides a unified way to support all types of image segmentation and a variety of vision-language (VL) tasks. Further, our design enables seamless interactions across tasks at different granularities and brings mutual benefits by learning a common and rich pixel-level visual-semantic understanding space, without any pseudo-labeling. After pretraining on a mixed set of a limited amount of segmentation data and millions of image-text pairs, X-Decoder exhibits strong transferability to a wide range of downstream tasks in both zero-shot and finetuning settings. Notably, it achieves (1) state-of-the-art results on open-vocabulary segmentation and referring segmentation on eight datasets; (2) better or competitive finetuned performance to other generalist and specialist models on segmentation and VL tasks; and (3) flexibility for efficient finetuning and novel task composition (e.g., referring captioning and image editing). Code, demo, video, and visualization are available at https://x-decoder-vl.github.io.
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
Traditional 3D scene understanding approaches rely on labeled 3D datasets to train a model for a single task with supervision. We propose OpenScene, an alternative approach where a model predicts dense features for 3D scene points that are co-embedded with text and image pixels in CLIP feature space. This zero-shot approach enables task-agnostic training and open-vocabulary queries. For example, to perform SOTA zero-shot 3D semantic segmentation it first infers CLIP features for every 3D point and later classifies them based on similarities to embeddings of arbitrary class labels. More interestingly, it enables a suite of open-vocabulary scene understanding applications that have never been done before. For example, it allows a user to enter an arbitrary text query and then see a heat map indicating which parts of a scene match. Our approach is effective at identifying objects, materials, affordances, activities, and room types in complex 3D scenes, all using a single model trained without any labeled 3D data.
translated by 谷歌翻译
Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP's zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both "inductive" and "transductive" zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.
translated by 谷歌翻译
使用图像文本对的对比语言图像预测(剪辑)在零拍摄和传输学习设置中的图像分类中取得了令人印象深刻的结果。但是,我们表明,直接应用此类模型以识别对象检测的图像区域导致由于域移位导致的性能差:剪辑训练以与文本描述的整体匹配,而不捕获图像之间的细粒度对齐地区和文本跨度。为了缓解此问题,我们提出了一种称为RegionClip的新方法,可显着扩展剪辑以学习区域级视觉表示,从而在图像区域和文本概念之间实现细粒度对齐。我们的方法利用剪辑模型将图像区域与模板标题匹配,然后预先列出我们的模型以对准要素空间中的这些区域文本对。将预磨料模型转移到开放词汇对象检测任务时,我们的方法显着优于3.8 AP50和2.2 AP的最新技术,分别用于COCO和LVIS数据集的新型类别。更多,学习区域表示支持对象检测的零拍摄推断,显示了对COCO和LVIS数据集的有希望的结果。我们的代码可在https://github.com/microsoft/regionclip上获得。
translated by 谷歌翻译