视频场景在野外与不同方案进行了解析,是一个具有挑战性和重要的任务,特别是随着自动驾驶技术的快速发展。野外(VSPW)中的数据集视频场景分析包含良好的修整长时间,密度注释和高分辨率剪辑。基于VSPW,我们设计具有视觉变压器的时间双边网络。我们首先使用卷积设计空间路径以产生能够保留空间信息的低级功能。同时,采用具有视觉变压器的上下文路径来获得足够的上下文信息。此外,时间上下文模块被设计为利用帧间内容信息。最后,该方法可以实现VSPW2021挑战测试数据集的49.85 \%的Union(Miou)的平均交叉点。
translated by 谷歌翻译
AVA挑战的目标是提供与可访问性相关的基于视觉的基准和方法。在本文中,我们将提交的技术细节介绍给CVPR2022 AVA挑战赛。首先,我们进行了一些实验,以帮助采用适当的模型和数据增强策略来完成此任务。其次,采用有效的培训策略来提高性能。第三,我们整合了两个不同分割框架的结果,以进一步提高性能。实验结果表明,我们的方法可以在AVA测试集上获得竞争结果。最后,我们的方法在CVPR2022 AVA挑战赛的测试集上实现了63.008 \%ap@0.50:0.95。
translated by 谷歌翻译
人们众所周知,与卷积神经网络相比,变压器在语义分割方面的性能更好。然而,最初的视觉变压器可能缺乏当地社区的归纳偏见,并且具有较高的时间复杂性。最近,Swin Transformer通过使用分层体系结构并更有效地改变了窗口,在各种视觉任务中创建了新记录。但是,由于Swin Transformer是专门为图像分类设计的,因此它可能在基于密集的预测分段任务上实现次优性能。此外,仅使用现有方法对SWIN Transformer梳理将导致最终分割模型的模型大小和参数的提升。在本文中,我们重新考虑了Swin Transformer进行语义分割,并设计了一个轻巧但有效的变压器模型,称为SSFormer。在此模型中,考虑到SWIN Transformer的固有层次设计,我们提出了一个解码器来汇总来自不同层的信息,从而获得了局部和全局的注意。实验结果表明,提出的SSFormer与最先进的模型产生了可比的MIOU性能,同时保持较小的模型尺寸和较低的计算。
translated by 谷歌翻译
在图像变压器网络的编码器部分中的FineTuning佩带的骨干网一直是语义分段任务的传统方法。然而,这种方法揭示了图像在编码阶段提供的语义上下文。本文认为将图像的语义信息纳入预磨料的基于分层变换器的骨干,而FineTuning可显着提高性能。为实现这一目标,我们提出了一个简单且有效的框架,在语义关注操作的帮助下将语义信息包含在编码器中。此外,我们在训练期间使用轻量级语义解码器,为每个阶段提供监督对中间语义的先前地图。我们的实验表明,结合语义前导者增强了所建立的分层编码器的性能,随着絮凝物的数量略有增加。我们通过将Sromask集成到Swin-Cransformer的每个变体中提供了经验证明,因为我们的编码器与不同的解码器配对。我们的框架在CudeScapes数据集上实现了ADE20K数据集的新型58.22%的MIOU,并在Miou指标中提高了超过3%的内容。代码和检查点在https://github.com/picsart-ai-research/semask-egation上公开使用。
translated by 谷歌翻译
共同出现的视觉模式使上下文聚集成为语义分割的重要范式。现有的研究重点是建模图像中的上下文,同时忽略图像以下相应类别的有价值的语义。为此,我们提出了一个新颖的软采矿上下文信息,超出了名为McIbi ++的图像范式,以进一步提高像素级表示。具体来说,我们首先设置了动态更新的内存模块,以存储各种类别的数据集级别的分布信息,然后利用信息在网络转发过程中产生数据集级别类别表示。之后,我们为每个像素表示形式生成一个类概率分布,并以类概率分布作为权重进行数据集级上下文聚合。最后,使用汇总的数据集级别和传统的图像级上下文信息来增强原始像素表示。此外,在推论阶段,我们还设计了一种粗到最新的迭代推理策略,以进一步提高分割结果。 MCIBI ++可以轻松地纳入现有的分割框架中,并带来一致的性能改进。此外,MCIBI ++可以扩展到视频语义分割框架中,比基线进行了大量改进。配备MCIBI ++,我们在七个具有挑战性的图像或视频语义分段基准测试中实现了最先进的性能。
translated by 谷歌翻译
We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation and propose the SegVit. Previous ViT-based segmentation networks usually learn a pixel-level representation from the output of the ViT. Differently, we make use of the fundamental component -- attention mechanism, to generate masks for semantic segmentation. Specifically, we propose the Attention-to-Mask (ATM) module, in which the similarity maps between a set of learnable class tokens and the spatial feature maps are transferred to the segmentation masks. Experiments show that our proposed SegVit using the ATM module outperforms its counterparts using the plain ViT backbone on the ADE20K dataset and achieves new state-of-the-art performance on COCO-Stuff-10K and PASCAL-Context datasets. Furthermore, to reduce the computational cost of the ViT backbone, we propose query-based down-sampling (QD) and query-based up-sampling (QU) to build a Shrunk structure. With the proposed Shrunk structure, the model can save up to $40\%$ computations while maintaining competitive performance.
translated by 谷歌翻译
ACM MMSPORTS2022 DEEPSPORTRADAR实例细分挑战的目标是解决个人人类的细分,包括球员,教练和裁判在篮球场上。这项挑战的主要特征是,玩家之间存在很高的阻塞,数据量也非常有限。为了解决这些问题,我们设计了一个强大的实例分割管道。首先,我们对此任务采用了适当的数据增强策略,主要包括光度失真变换和复制式策略,该策略可以生成更多具有更广泛分布的图像实例。其次,我们采用了强大的分割模型,基于SWIN基础的CBNETV2骨架上的基于混合任务级联的检测器,并将Maskiou Head添加到HTCMASKHEAD,可以简单有效地改善实例细分的性能。最后,采用了SWA培训策略来进一步提高性能。实验结果表明,所提出的管道可以在DeepSportradar挑战中取得竞争成果,而挑战集则以0.768AP@0.50:0.95。源代码可在https://github.com/yjingyu/instanc_segentation_pro中获得。
translated by 谷歌翻译
Semantic segmentation requires both rich spatial information and sizeable receptive field. However, modern approaches usually compromise spatial resolution to achieve real-time inference speed, which leads to poor performance. In this paper, we address this dilemma with a novel Bilateral Segmentation Network (BiSeNet). We first design a Spatial Path with a small stride to preserve the spatial information and generate high-resolution features. Meanwhile, a Context Path with a fast downsampling strategy is employed to obtain sufficient receptive field. On top of the two paths, we introduce a new Feature Fusion Module to combine features efficiently. The proposed architecture makes a right balance between the speed and segmentation performance on Cityscapes, CamVid, and COCO-Stuff datasets. Specifically, for a 2048×1024 input, we achieve 68.4% Mean IOU on the Cityscapes test dataset with speed of 105 FPS on one NVIDIA Titan XP card, which is significantly faster than the existing methods with comparable performance.
translated by 谷歌翻译
由于长距离依赖性建模的能力,变压器在各种自然语言处理和计算机视觉任务中表现出令人印象深刻的性能。最近的进展证明,将这种变压器与基于CNN的语义图像分割模型相结合非常有前途。然而,目前还没有很好地研究了纯变压器的方法如何实现图像分割。在这项工作中,我们探索了语义图像分割的新框架,它是基于编码器 - 解码器的完全变压器网络(FTN)。具体地,我们首先提出金字塔组变压器(PGT)作为逐步学习分层特征的编码器,同时降低标准视觉变压器(VIT)的计算复杂性。然后,我们将特征金字塔变换器(FPT)提出了来自PGT编码器的多电平进行语义图像分割的多级别的语义级别和空间级信息。令人惊讶的是,这种简单的基线可以在多个具有挑战性的语义细分和面部解析基准上实现更好的结果,包括帕斯卡背景,ADE20K,Cocostuff和Celebamask-HQ。源代码将在https://github.com/br -dl/paddlevit上发布。
translated by 谷歌翻译
多尺度表示对于语义细分至关重要。社区目睹了利用多尺度上下文信息的语义分割卷积神经网络(CNN)的蓬勃发展。通过视觉变压器(VIV)的动机是强大的图像分类,最近提出了一些语义分割VITS,其中大多数是令人印象深刻的结果,但以计算经济为代价。在本文中,我们通过窗口注意机制成功地将多尺度表示引入语义分割vit,并进一步提高了性能和效率。为此,我们介绍了大型窗口关注,允许本地窗口在略微计算开销时仅查询大面积的上下文窗口。通过调节上下文区域与查询区域的比率,我们可以在多个尺度上捕获大量窗口注意。此外,采用空间金字塔汇集的框架与大窗口关注合作,这提出了一种名为大型窗口注意空​​间金字塔池(LawinAspp)的新型解码器,用于语义细分vit。我们所产生的Vit,草坪变压器由一个高效的定理视觉变压器(HVT)作为编码器和作为解码器的草坪Appp。实证结果表明,与现有方法相比,草坪变压器提供了提高的效率。草坪变压器进一步为城市景观(84.4 \%Miou),ADE20K(56.2 \%Miou)和Coco-incumate集进行了新的最先进的性能。代码将在https://github.com/yan-hao-tian/lawin发布。
translated by 谷歌翻译
语义分割是计算机视觉中的关键任务之一,它是为图像中的每个像素分配类别标签。尽管最近取得了重大进展,但大多数现有方法仍然遇到两个具有挑战性的问题:1)图像中的物体和东西的大小可能非常多样化,要求将多规模特征纳入完全卷积网络(FCN); 2)由于卷积网络的固有弱点,很难分类靠近物体/物体的边界的像素。为了解决第一个问题,我们提出了一个新的多受感受性现场模块(MRFM),明确考虑了多尺度功能。对于第二期,我们设计了一个边缘感知损失,可有效区分对象/物体的边界。通过这两种设计,我们的多种接收场网络在两个广泛使用的语义分割基准数据集上实现了新的最先进的结果。具体来说,我们在CityScapes数据集上实现了83.0的平均值,在Pascal VOC2012数据集中达到了88.4的平均值。
translated by 谷歌翻译
多任务密集的场景理解是一个蓬勃发展的研究领域,需要同时对与像素预测的一系列相关任务进行推理。由于卷积操作的大量利用,大多数现有作品都会遇到当地建模的严重限制,而在全球空间位置和多任务背景中学习相互作用和推断对于此问题至关重要。在本文中,我们提出了一种新颖的端到端倒立金字塔多任务变压器(Invpt),以在统一框架中对空间位置和多个任务进行同时建模。据我们所知,这是探索设计变压器结构的第一项工作,以用于多任务密集的预测以进行场景理解。此外,人们广泛证明,较高的空间分辨率对密集的预测非常有益,而对于现有的变压器来说,由于对大空间大小的巨大复杂性,现有变形金刚更深入地采用更高的分辨率。 Invpt提出了一个有效的上移动器块,以逐渐增加分辨率学习多任务特征交互,这还结合了有效的自我发言消息传递和多规模特征聚合,以高分辨率产生特定于任务的预测。我们的方法分别在NYUD-V2和PASCAL-CONTEXT数据集上实现了卓越的多任务性能,并且显着优于先前的最先前。该代码可在https://github.com/prismformore/invpt上获得
translated by 谷歌翻译
图像中的场景细分是视觉内容理解中的一个基本而又具有挑战性的问题,即学习一个模型,将每个图像像素分配给分类标签。这项学习任务的挑战之一是考虑空间和语义关系以获得描述性特征表示,因此从多个量表中学习特征图是场景细分中的一种常见实践。在本文中,我们探讨了在多尺度图像窗口中自我发挥的有效使用来学习描述性视觉特征,然后提出三种不同的策略来汇总这些特征图以解码特征表示形式以进行密集的预测。我们的设计基于最近提出的SWIN Transformer模型,该模型完全放弃了卷积操作。借助简单而有效的多尺度功能学习和聚合,我们的模型在四个公共场景细分数据集,Pascal VOC2012,Coco-STUFF 10K,ADE20K和CITYSCAPES上实现了非常有希望的性能。
translated by 谷歌翻译
近年来,热图像超分辨率(TISR)问题已成为一个有吸引力的研究主题。 TISR将用于各种领域,包括军事,医疗,农业和动物生态学。由于PBVS-2020和PBVS-2021研讨会挑战的成功,TISR的结果不断改善,并吸引了更多的研究人员注册PBVS-2022挑战。在本文中,我们将向PBVS-2022挑战介绍我们提交的技术细节,该挑战设计具有频道拆分网络和变压器(BN-CSNT)的双边网络以解决TISR问题。首先,我们设计了一个基于带有变压器的频道拆分网络的上下文分支,以获取足够的上下文信息。其次,我们设计了一个带有浅变压器的空间分支,以提取可以保留空间信息的低水平特征。最后,对于上下文分支,为了融合通道拆分网络和变压器的功能,我们提出了一个注意力改进模块,然后通过建议的特征融合模块融合了上下文分支和空间分支的特征。所提出的方法可以实现X4的PSNR = 33.64,SSIM = 0.9263,PSNR = 21.08,SSIM = 0.7803在PBVS-2022挑战测试数据集中X2的SSIM = 0.7803。
translated by 谷歌翻译
In this work, we present a new computer vision task named video object of interest segmentation (VOIS). Given a video and a target image of interest, our objective is to simultaneously segment and track all objects in the video that are relevant to the target image. This problem combines the traditional video object segmentation task with an additional image indicating the content that users are concerned with. Since no existing dataset is perfectly suitable for this new task, we specifically construct a large-scale dataset called LiveVideos, which contains 2418 pairs of target images and live videos with instance-level annotations. In addition, we propose a transformer-based method for this task. We revisit Swin Transformer and design a dual-path structure to fuse video and image features. Then, a transformer decoder is employed to generate object proposals for segmentation and tracking from the fused features. Extensive experiments on LiveVideos dataset show the superiority of our proposed method.
translated by 谷歌翻译
已知预测的集合,而是比单独采取的个体预测更好地执行更好。但是,对于需要重型计算资源的任务,\ texit {例如}语义细分,创建需要单独培训的学习者的集合几乎没有易行。在这项工作中,我们建议利用集合方法提供的性能提升,以增强语义分割,同时避免了集合的传统训练成本。我们的自我集成框架利用了通过特征金字塔网络方法生产的多尺度功能来提供独立解码器,从而在单个模型中创建集合。类似于集合,最终预测是每个学习者所做的预测的聚合。与以前的作品相比,我们的模型可以训练结束,减轻了传统的繁琐多阶段培训的合奏。我们的自身融合框架优于当前最先进的基准数据集ADE20K,Pascal Context和Coco-Stuff-10K用于语义细分,并且在城市景观竞争。代码将在Github.com/walbouss/senformer上使用。
translated by 谷歌翻译
Image segmentation is often ambiguous at the level of individual image patches and requires contextual information to reach label consensus. In this paper we introduce Segmenter, a transformer model for semantic segmentation. In contrast to convolution-based methods, our approach allows to model global context already at the first layer and throughout the network. We build on the recent Vision Transformer (ViT) and extend it to semantic segmentation. To do so, we rely on the output embeddings corresponding to image patches and obtain class labels from these embeddings with a point-wise linear decoder or a mask transformer decoder. We leverage models pre-trained for image classification and show that we can fine-tune them on moderate sized datasets available for semantic segmentation. The linear decoder allows to obtain excellent results already, but the performance can be further improved by a mask transformer generating class masks. We conduct an extensive ablation study to show the impact of the different parameters, in particular the performance is better for large models and small patch sizes. Segmenter attains excellent results for semantic segmentation. It outperforms the state of the art on both ADE20K and Pascal Context datasets and is competitive on Cityscapes.
translated by 谷歌翻译
最近建议的MaskFormer \ Cite {MaskFormer}对语义分割的任务提供了刷新的透视图:它从流行的像素级分类范例转移到蒙版级分类方法。实质上,它生成对应于类别段的配对概率和掩码,并在推理的分割映射期间结合它们。因此,分割质量依赖于查询如何捕获类别的语义信息及其空间位置。在我们的研究中,我们发现单尺度特征顶部的每个掩模分类解码器不足以提取可靠的概率或掩模。对于挖掘功能金字塔的丰富语义信息,我们提出了一个基于变压器的金字塔融合变压器(PFT),用于多尺度特征顶部的每个掩模方法语义分段。为了有效地利用不同分辨率的图像特征而不会产生过多的计算开销,PFT使用多尺度变压器解码器,具有跨尺度间间的关注来交换互补信息。广泛的实验评估和消融展示了我们框架的功效。特别是,与屏蔽Former相比,我们通过Reset-101c实现了3.2 miou改进了Reset-101c。此外,在ADE20K验证集上,我们的Swin-B骨架的结果与单尺度和多尺寸推断的屏蔽骨架中的较大的Swin-L骨架相匹配,分别实现54.1 miou和55.3 miou。使用Swin-L骨干,我们在ADE20K验证集中实现了56.0 Miou单尺度结果和57.2多尺度结果,从而获得数据集的最先进的性能。
translated by 谷歌翻译
与2020年相比,由于注意力和嗜睡的增加,汽车撞车事故增长了20%。昏昏欲睡和分心的驾驶是所有车祸的45%的原因。作为减少昏昏欲睡和分心的驾驶的一种手段,使用计算机视觉的检测方法可以设计为低成本,准确和微创。这项工作调查了视觉变压器以优于3D-CNN的最先进准确性。两个独立的变压器接受了嗜睡和分心。昏昏欲睡的视频变压器模型接受了全国Tsing-hua大学昏昏欲睡的驾驶数据集(NTHU-DDD)的培训,其中有一个视频Swin Transformer模型,可在两个类别上进行10个时代 - 昏昏欲睡和非der脚模拟10.5个小时。分散注意力的视频变压器在驾驶员监视数据集(DMD)上接受了带有视频SWIN变压器的50个时代的培训,该时期超过9个分心相关的类。嗜睡模型的准确性达到44%,测试集的损失值高,表明过度拟合和模型性能差。过度拟合表明有限的培训数据和应用模型体系结构缺乏可量化的参数。分散注意力的模型优于DMD上的最新模型,达到97.5%,表明有足够的数据和强大的体系结构,变压器适合不适合驾驶检测。未来的研究应使用较新的模型,例如Tokenlearner来实现更高的准确性和效率,合并现有数据集以扩展以检测酒后驾车和道路愤怒,以创建全面的解决方案,以防止交通崩溃,并部署功能性的原型,以革新自动安全安全性行业。
translated by 谷歌翻译
基于深度学习的自动化道路特性或分割已经取得了重大进展,但仍然有利于结果的完整性和连通性的边缘。这主要是由于大型级别差异,含糊不清的阶级区别的挑战,以及来自阴影,树木和建筑物的闭塞。因此,能够感知全球背景和模型几何信息对于进一步提高道路分割的准确性至关重要。在本文中,我们设计了一种新型双分支编码块Coswin,它利用了Swin变压器的全局上下文建模的能力和Reset的本地特征提取。此外,我们还提出了一个名为CFilter的上下文引导的过滤器块,这可以过滤滤除与上下文 - 无关的噪声功能,以便更好地重建细节。我们在U形网络架构中使用CosWin和CFilter。马萨诸塞州和CHN6-CUG数据集上的实验表明,该方法在F1,IOU和OA的指标上优于其他最先进的方法。进一步的分析表明,准确性的提高来自于分段道路的更好的完整性和连通性。
translated by 谷歌翻译