本文介绍了一个新颖的成本聚合网络,称为变压器(VAT),称为体积聚集,以进行几次分割。变压器的使用可以通过在全球接收场上的自我注意来使相关图的聚集受益。但是,变压器处理的相关图的令牌化可能是有害的,因为令牌边界处的不连续性会降低令牌边缘附近可用的局部环境,并减少电感偏差。为了解决这个问题,我们提出了一个4D卷积的SWIN变压器,在该问题上,高维的SWIN变压器之前是一系列的小内核卷积,这些卷积将局部环境赋予所有像素并引入卷积归纳偏置。另外,我们通过在锥体结构中应用变压器来提高聚合性能,在锥体结构中,在更粗糙的水平上的聚集指导聚集在较好的水平上。然后,在查询的外观嵌入中,在随后的解码器中过滤变压器输出中的噪声。使用此模型,为所有标准基准设置了一个新的最新基准,以几次射击分段设置。结果表明,增值税还达到了语义通信的最先进的性能,而成本汇总也起着核心作用。
translated by 谷歌翻译
我们介绍一个新颖的成本聚合网络,用变压器(VAT)被复制体积聚集,通过使用卷曲和变压器来解决几次拍摄分段任务,以有效地处理查询和支持之间的高维相关映射。具体而言,我们提出了由卷嵌入模块组成的编码器,不仅将相关性图转换为更具易易概要,而且为成本聚合注入一些卷积电感偏置和体积变压器模块。我们的编码器具有金字塔形结构,让较粗糙的级别聚合来指导更精细的水平并强制执行互补匹配分数。然后,我们将输出送入我们的亲和感知解码器以及投影特征映射,以指导分割过程。组合这些组件,我们进行实验以证明所提出的方法的有效性,我们的方法为几次拍摄分割任务中的所有标准基准设置了新的最先进的。此外,我们发现所提出的方法甚至可以在语义对应任务中的标准基准中获得最先进的性能,尽管没有专门为此任务设计。我们还提供广泛的消融研究,以验证我们的建筑选择。培训的权重和代码可用于:https://seokju-cho.github.io/vat/。
translated by 谷歌翻译
我们提出了一种新的成本聚合网络,称为成本聚合变压器(CAT),在语义类似的图像之间找到密集的对应关系,其中具有大型类内外观和几何变化构成的额外挑战。成本聚合是匹配任务的一个非常重要的过程,匹配精度取决于其输出的质量。与寻址成本聚集的手工制作或基于CNN的方法相比,缺乏严重变形的鲁棒性或继承了由于接受领域有限而无法区分错误匹配的CNN的限制,猫探讨了初始相关图之间的全球共识一些建筑设计的帮助,使我们能够充分利用自我关注机制。具体地,我们包括外观亲和力建模,以帮助成本聚合过程,以消除嘈杂的初始相关映射并提出多级聚合,以有效地从分层特征表示中捕获不同的语义。然后,我们与交换自我关注技术和残留连接相结合,不仅要强制执行一致的匹配,而且还可以缓解学习过程,我们发现这些结果导致了表观性能提升。我们进行实验,以证明拟议模型在最新方法中的有效性,并提供广泛的消融研究。代码和培训的型号可以在https://github.com/sunghwanhong/cats提供。
translated by 谷歌翻译
我们提出了一个新颖的建筑,以实现密集的对应关系。当前的最新方法是基于变压器的方法,它们专注于功能描述符或成本量集合。但是,尽管关节聚集会通过提供一个人(即图像的结构或语义信息)或像素匹配的相似性来提高一个或另一个,但并非两者都聚集,但并非两者都汇总,尽管关节聚集会相互促进。在这项工作中,我们提出了一个基于变压器的新型网络,该网络以利用其互补信息的方式交织了两种形式的聚合。具体而言,我们设计了一个自我发项层,该层利用描述符来消除嘈杂的成本量,并且还利用成本量以促进准确匹配的方式汇总特征。随后的跨意思层执行进一步的聚合,该聚集在图像的描述上,并由早期层的聚合输出有助于。我们通过层次处理进一步提高了性能,在该处理中,更粗糙的聚合指导那些处于优质水平的过程。我们评估了所提出的方法对密集匹配任务的有效性,并在所有主要基准上实现最先进的性能。还提供了广泛的消融研究来验证我们的设计选择。
translated by 谷歌翻译
具有很少带注释的样本的训练语义分割模型在各种现实世界中具有巨大的潜力。对于少数拍摄的分段任务,主要的挑战是如何准确地测量使用有限的培训数据之间的支持样本和查询样品之间的语义对应关系。为了解决这个问题,我们建议用可变形的4D变压器汇总可学习的协方差矩阵,以有效预测分割图。具体而言,在这项工作中,我们首先设计了一种新颖的艰难示例挖掘机制,以学习高斯过程的协方差内核。在对应测量中,学到的协方差内核函数比现有基于余弦相似性的方法具有很大的优势。基于学到的协方差内核,设计有效的双重变形4D变压器模块旨在适应骨料特征相似性图中的分割结果。通过组合这两种设计,提出的方法不仅可以在公共基准测试上设置新的最新性能,而且比现有方法更快地收敛。三个公共数据集的实验证明了我们方法的有效性。
translated by 谷歌翻译
少量分割旨在培训一个分割模型,可以快速适应具有少量示例的新型课程。传统的训练范例是学习对从支持图像的特征上的查询图像进行预测。以前的方法仅利用支持图像的语义级原型作为条件信息。这些方法不能利用用于查询预测的所有像素 - WISE支持信息,这对于分割任务来说是至关重要的。在本文中,我们专注于利用支持和查询图像之间的像素方面的关系来促进几次拍摄分段任务。我们设计一种新颖的循环一致的变压器(Cyctr)模块,将像素天然气支持功能聚合到查询中。 Cyctr在来自不同图像的特征之间进行跨关注,即支持和查询图像。我们观察到可能存在意外的无关像素级支持特征。直接执行跨关注可以将这些功能从支持汇总到查询和偏置查询功能。因此,我们建议使用新的循环一致的注意机制来滤除可能的有害支持特征,并鼓励查询功能从支持图像上参加最富有信息的像素。所有几次分割基准测试的实验表明,与以前的最先进的方法相比,我们所提出的Cyctr导致显着的改进。具体而言,在Pascal-$ 5 ^ i $和20 ^ i $ datasets上,我们达到了66.6%和45.6%的5次分割,优于以前的最先进方法分别为4.6%和7.1%。
translated by 谷歌翻译
对少量语义分割(FSS)的研究引起了极大的关注,目的是在查询图像中仅给出目标类别的少数注释的支持图像。这项具有挑战性的任务的关键是通过利用查询和支持图像之间的细粒度相关性来充分利用支持图像中的信息。但是,大多数现有方法要么将支持信息压缩为几个班级原型,要么在像素级别上使用的部分支持信息(例如,唯一的前景),从而导致不可忽略的信息损失。在本文中,我们提出了密集的像素,互源和支持的注意力加权面膜聚合(DCAMA),其中前景和背景支持信息都是通过配对查询和支持特征之间的多级像素的相关性通过多级像素的相关性充分利用的。 DCAMA在变压器体系结构中以缩放点产生的关注实现,将每个查询像素视为令牌,计算其与所有支持像素的相似之处,并预测其分割标签是所有支持像素标签的添加剂聚集 - 相似之处。基于DCAMA的唯一公式,我们进一步提出了对N-shot分割的有效有效的一通推断,其中所有支持图像的像素立即为掩模聚集收集。实验表明,我们的DCAMA在Pascal-5i,Coco-20i和FSS-1000的标准FSS基准上显着提高了最先进的状态以前的最佳记录。烧烤研究还验证了设计dcama。
translated by 谷歌翻译
很少有分割的目的是仅给出少数标记的样品,旨在细分看不见的级对象。原型学习,支持功能通过平均全局和局部对象信息产生单个原型,在FSS中已广泛使用。但是,仅利用原型矢量可能不足以代表所有训练数据的功能。为了提取丰富的特征并做出更精确的预测,我们提出了一个多相似性和注意力网络(MSANET),包括两个新型模块,一个多相似性模块和一个注意模块。多相似模块利用支持图像和查询图像的多个特征图来估计准确的语义关系。注意模块指示网络专注于相关的信息。该网络在标准FSS数据集,Pascal-5i 1-Shot,Pascal-5i 5-Shot,Coco-20i 1-Shot和Coco-20i 5-Shot上进行了测试。具有RESNET-101骨架的MSANET可在所有4基准测试数据集中达到最先进的性能,而平均交叉点(MIOU)为69.13%,73.99%,51.09%,56.80%。代码可在https://github.com/aivresearch/msanet上获得
translated by 谷歌翻译
在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而,这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干,而FineTuning可显着提高性能。为实现这一目标,我们提出了一个简单且有效的框架,在语义关注操作的帮助下将语义信息包含在编码器中。此外,我们在训练期间使用轻量级语义解码器,为每个阶段提供监督对中间语义的先前地图。我们的实验表明,结合语义前导者增强了所建立的分层编码器的性能,随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明,因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22%的MIOU,并在Miou指标中提高了超过3%的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
FSS(Few-shot segmentation)~aims to segment a target class with a small number of labeled images (support Set). To extract information relevant to target class, a dominant approach in best performing FSS baselines removes background features using support mask. We observe that this support mask presents an information bottleneck in several challenging FSS cases e.g., for small targets and/or inaccurate target boundaries. To this end, we present a novel method (MSI), which maximizes the support-set information by exploiting two complementary source of features in generating super correlation maps. We validate the effectiveness of our approach by instantiating it into three recent and strong FSS baselines. Experimental results on several publicly available FSS benchmarks show that our proposed method consistently improves the performance by visible margins and allows faster convergence. Our codes and models will be publicly released.
translated by 谷歌翻译
我们研究了几个射击语义分割,该语义分割旨在在提供目标类别的一些带注释的支持图像时,旨在从查询图像中分割目标对象。最近的几种方法求助于特征掩蔽技术(FM)技术,以丢弃无关的特征激活,最终促进了分割蒙版的可靠预测。 FM的基本限制是无法保留影响分割面罩准确性的细粒空间细节,尤其是对于小目标对象。在本文中,我们开发了一种简单,有效且有效的方法来增强特征掩蔽(FM)。我们将增强的FM称为杂交遮罩(HM)。具体而言,我们通过研究和利用互补的基本输入掩蔽方法来补偿FM技术中细粒空间细节的损失。已经对三个公共可用的基准测试进行了实验,并具有强烈​​的少量分割(FSS)基准。我们通过在不同基准之间可见的边缘在当前的最新方法中表现出了进步的性能。我们的代码和训练有素的模型可在以下网址找到:https://github.com/moonsh/hm-hybrid-masking
translated by 谷歌翻译
几乎没有射击的细分是一项具有挑战性的密集预测任务,它需要分割新的查询图像,仅给出一个小注释的支持集。因此,关键问题是设计一种方法,该方法可以从支持集中汇总详细信息,同时对外观和上下文的巨大变化进行稳健。为此,我们提出了基于密集的高斯过程(GP)回归的几种分割方法。鉴于支持集,我们密集的GP了解了从局部深层图像特征到掩模值的映射,能够捕获复杂的外观分布。此外,它提供了一种捕获不确定性的原则方法,这是CNN解码器获得的最终分割的另一种强大提示。我们进一步利用了我们方法的端到端学习能力,以学习GP的高维输出空间。我们的方法在Pascal-5 $^i $和Coco-20 $^i $ Benchmarks上设定了新的最新技术,在Coco-20 $^i $中获得了绝对的$+8.4 $ MIOU的绝对增益5杆设置。此外,在增加支撑设置大小时,我们的方法的分割质量会优雅地缩放,同时实现强大的跨数据库转移。代码和训练有素的模型可在\ url {https://github.com/joakimjohnander/dgpnet}上获得。
translated by 谷歌翻译
在视觉上或在视觉上或语义上相似的图像中建立密集的技术的传统技术集中在设计特定的任务特定匹配之前,这难以模拟。为了克服这一点,最近的基于学习的方法已经试图在大型训练数据上学习模型本身之前的良好匹配。性能改善是明显的,但需要足够的培训数据和密集学习阻碍了他们的适用性。此外,在测试时间中使用固定模型不考虑一对图像可能需要其自身的事实,从而提供有限的性能和未遵守观看图像的较差。在本文中,我们示出了通过仅优化在输入对图像上的未训练匹配网络上,可以捕获特定于图像对特定的。针对密集对应的这种测试时间优化量身定制,我们提出了一个残留的匹配网络和信心感知对比损失,以保证有意义的收敛性。实验表明,我们的框架被称为最先前(DMP)的深度匹配,是竞争力的,甚至优于几何与几何匹配和语义匹配的基准测试的最新学习方法,即使它既不需要大型培训数据也不需要深入学习。通过预先培训的网络,DMP在所有基准上达到最先进的性能。
translated by 谷歌翻译
很少有分段旨在学习一个细分模型,该模型可以推广到只有几个培训图像的新课程。在本文中,我们提出了一个交叉引用和局部全球条件网络(CRCNET),以进行几次分割。与以前仅预测查询图像掩码的作品不同,我们提出的模型同时对支持图像和查询图像进行了预测。我们的网络可以更好地在两个图像中使用交叉引用机制找到同时出现的对象,从而有助于少量分割任务。为了进一步改善功能比较,我们开发了一个局部全球条件模块,以捕获全球和本地关系。我们还开发了一个掩模修补模块,以重新完善前景区域的预测。Pascal VOC 2012,MS Coco和FSS-1000数据集的实验表明,我们的网络实现了新的最新性能。
translated by 谷歌翻译
Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution-based methods, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on both ADE20K and Pascal Context datasets and is competitive on Cityscapes.
translated by 谷歌翻译
视觉表示学习是解决各种视力问题的关键。依靠开创性的网格结构先验,卷积神经网络(CNN)已成为大多数深视觉模型的事实上的标准架构。例如,经典的语义分割方法通常采用带有编码器编码器体系结构的完全横向卷积网络(FCN)。编码器逐渐减少了空间分辨率,并通过更大的接受场来学习更多抽象的视觉概念。由于上下文建模对于分割至关重要,因此最新的努力一直集中在通过扩张(即极度)卷积或插入注意力模块来增加接受场。但是,基于FCN的体系结构保持不变。在本文中,我们旨在通过将视觉表示学习作为序列到序列预测任务来提供替代观点。具体而言,我们部署纯变压器以将图像编码为一系列贴片,而无需局部卷积和分辨率减少。通过在变压器的每一层中建立的全球环境,可以学习更强大的视觉表示形式,以更好地解决视力任务。特别是,我们的细分模型(称为分割变压器(SETR))在ADE20K上擅长(50.28%MIOU,这是提交当天测试排行榜中的第一个位置),Pascal环境(55.83%MIOU),并在CityScapes上达到竞争成果。此外,我们制定了一个分层局部全球(HLG)变压器的家族,其特征是窗户内的本地关注和跨窗户的全球性专注于层次结构和金字塔架构。广泛的实验表明,我们的方法在各种视觉识别任务(例如,图像分类,对象检测和实例分割和语义分割)上实现了吸引力的性能。
translated by 谷歌翻译
卷积神经网络(CNN)已成为医疗图像分割任务的共识。但是,由于卷积操作的性质,它们在建模长期依赖性和空间相关性时受到限制。尽管最初开发了变压器来解决这个问题,但它们未能捕获低级功能。相比之下,证明本地和全球特征对于密集的预测至关重要,例如在具有挑战性的环境中细分。在本文中,我们提出了一种新型方法,该方法有效地桥接了CNN和用于医学图像分割的变压器。具体而言,我们使用开创性SWIN变压器模块和一个基于CNN的编码器设计两个多尺度特征表示。为了确保从上述两个表示获得的全局和局部特征的精细融合,我们建议在编码器编码器结构的跳过连接中提出一个双层融合(DLF)模块。在各种医学图像分割数据集上进行的广泛实验证明了Hiformer在计算复杂性以及定量和定性结果方面对其他基于CNN的,基于变压器和混合方法的有效性。我们的代码可在以下网址公开获取:https://github.com/amirhossein-kz/hiformer
translated by 谷歌翻译
多任务密集的场景理解是一个蓬勃发展的研究领域,需要同时对与像素预测的一系列相关任务进行推理。由于卷积操作的大量利用,大多数现有作品都会遇到当地建模的严重限制,而在全球空间位置和多任务背景中学习相互作用和推断对于此问题至关重要。在本文中,我们提出了一种新颖的端到端倒立金字塔多任务变压器(Invpt),以在统一框架中对空间位置和多个任务进行同时建模。据我们所知,这是探索设计变压器结构的第一项工作,以用于多任务密集的预测以进行场景理解。此外,人们广泛证明,较高的空间分辨率对密集的预测非常有益,而对于现有的变压器来说,由于对大空间大小的巨大复杂性,现有变形金刚更深入地采用更高的分辨率。 Invpt提出了一个有效的上移动器块,以逐渐增加分辨率学习多任务特征交互,这还结合了有效的自我发言消息传递和多规模特征聚合,以高分辨率产生特定于任务的预测。我们的方法分别在NYUD-V2和PASCAL-CONTEXT数据集上实现了卓越的多任务性能,并且显着优于先前的最先前。该代码可在https://github.com/prismformore/invpt上获得
translated by 谷歌翻译