视频效果旨在通过给定的输入视频序列预测每个帧的α哑光。在过去的几年中,深度卷积神经网络(CNN)的最新解决方案一直由深度卷积神经网络(CNN)主导,这已成为学术界和工业的事实上的标准。但是,它们具有内置的局部归纳性偏见,并且由于基于CNN的架构而不会捕获图像的全局特征。在处理多个帧的特征图时,考虑到计算成本,他们还缺乏远程时间建模。在本文中,我们提出了VMFormer:一种基于变压器的端对端方法,用于视频垫子。它可以通过视频输入序列从可学习的查询中对每个帧的α哑光进行预测。具体而言,它利用自我发挥的层来建立特征序列的全局集成,并在连续帧上使用短距离的时间建模。我们进一步应用查询来通过在所有查询上使用远程时间建模的变压器解码器中的交叉注意来学习全局表示形式。在预测阶段,查询和相应的特征图均用于对Alpha Matte的最终预测。实验表明,VMFormer在合成基准测试上的表现优于先前基于CNN的视频效果方法。据我们所知,这是第一个基于完整视觉变压器建立的端到端视频底漆解决方案,并对可学习的查询进行预测。该项目在https://chrisjuniorli.github.io/project/project/vmformer/上开源
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
视频实例分割旨在预测每个帧的对象分割掩码,并关联多个帧的实例。最近的端到端视频实例分割方法能够在直接并行序列解码/预测框架中共同执行对象分割和实例关联。尽管这些方法通常可以预测较高质量的对象分割掩码,但它们可能无法在具有挑战性的情况下与实例相关联,因为它们没有明确对相邻帧的时间实例一致性进行建模。我们提出了一个一致的端到端视频实例分割框架,并在框架间反复注意,以建模相邻帧的时间实例一致性和全局时间上下文。我们的广泛实验表明,框架间的重复注意显着提高了时间实例的一致性,同时保持对象分割掩模的质量。我们的模型在YouTubevis-2019(62.1 \%)和YouTubevis-2021(54.7 \%)数据集上都达到了最新的精度。此外,定量和定性结果表明,所提出的方法可以预测更具时间一致的实例分割掩码。
translated by 谷歌翻译
视频实例分割(VIS)在视频序列中共同处理多对象检测,跟踪和分割。过去,VIS方法反映了这些子任务在其建筑设计中的碎片化,因此在关节溶液上错过了这些子任务。变形金刚最近允许将整个VIS任务作为单个设定预测问题进行。然而,现有基于变压器的方法的二次复杂性需要较长的训练时间,高内存需求和处理低音尺度特征地图的处理。可变形的注意力提供了更有效的替代方案,但尚未探索其对时间域或分段任务的应用。在这项工作中,我们提出了可变形的Vis(Devis),这是一种利用可变形变压器的效率和性能的VIS方法。为了在多个框架上共同考虑所有VIS子任务,我们使用实例感知对象查询表示时间尺度可变形。我们进一步介绍了带有多尺度功能的新图像和视频实例蒙版头,并通过多提示剪辑跟踪执行近乎对方的视频处理。 Devis减少了内存和训练时间要求,并在YouTube-Vis 2021以及具有挑战性的OVIS数据集上实现了最先进的结果。代码可在https://github.com/acaelles97/devis上找到。
translated by 谷歌翻译
我们提出Osformer,这是伪装实例分割(CIS)的第一个单阶段变压器框架。Osformer基于两个关键设计。首先,我们设计了一个位置传感变压器(LST),以通过引入位置引导查询和混合通风volvolution feedforward网络来获得位置标签和实例感知参数。其次,我们开发了一个粗到细节的融合(CFF),以合并LST编码器和CNN骨架的各种上下文信息。结合这两个组件使Osformer能够有效地融合本地特征和远程上下文依赖关系,以预测伪装的实例。与两阶段的框架相比,我们的OSFORMER达到41%的AP并达到良好的收敛效率,而无需大量的训练数据,即仅3040个以下的样本以下60个时代。代码链接:https://github.com/pjlallen/osformer。
translated by 谷歌翻译
变压器是一种基于关注的编码器解码器架构,彻底改变了自然语言处理领域。灵感来自这一重大成就,最近在将变形式架构调整到计算机视觉(CV)领域的一些开创性作品,这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力,与现代卷积神经网络相比在本文中,我们已经为三百不同的视觉变压器进行了全面的审查,用于三个基本的CV任务(分类,检测和分割),提出了根据其动机,结构和使用情况组织这些方法的分类。 。由于培训设置和面向任务的差异,我们还在不同的配置上进行了评估了这些方法,以便于易于和直观的比较而不是各种基准。此外,我们已经揭示了一系列必不可少的,但可能使变压器能够从众多架构中脱颖而出,例如松弛的高级语义嵌入,以弥合视觉和顺序变压器之间的差距。最后,提出了三个未来的未来研究方向进行进一步投资。
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
用于深度卷积神经网络的视频插值的现有方法,因此遭受其内在限制,例如内部局限性核心权重和受限制的接收领域。为了解决这些问题,我们提出了一种基于变换器的视频插值框架,允许内容感知聚合权重,并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本,我们将当地注意的概念引入视频插值并将其扩展到空间域。此外,我们提出了一个节省时间的分离策略,以节省内存使用,这也提高了性能。此外,我们开发了一种多尺度帧合成方案,以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说,定量和定性地在各种基准数据集上进行定量和定性。
translated by 谷歌翻译
对象的时间建模是多个对象跟踪(MOT)的关键挑战。现有方法通过通过基于运动和基于外观的相似性启发式方法关联检测来跟踪。关联的后处理性质阻止了视频序列中时间变化的端到端。在本文中,我们提出了MOTR,它扩展了DETR并介绍了轨道查询,以模拟整个视频中的跟踪实例。轨道查询被转移并逐帧更新,以随着时间的推移执行迭代预测。我们提出了曲目感知的标签分配,以训练轨道查询和新生儿对象查询。我们进一步提出了时间聚集网络和集体平均损失,以增强时间关系建模。 Dancetrack上的实验结果表明,MOTR在HOTA度量方面的表现明显优于最先进的方法,字节范围为6.5%。在MOT17上,MOTR在关联性能方面优于我们的并发作品,跟踪器和Transtrack。 MOTR可以作为对时间建模和基于变压器的跟踪器的未来研究的更强基线。代码可在https://github.com/megvii-research/motr上找到。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
基于查询的变压器在许多图像域任务中构建长期注意力方面表现出了巨大的潜力,但是由于点云数据的压倒性大小,在基于激光雷达的3D对象检测中很少考虑。在本文中,我们提出了CenterFormer,这是一个基于中心的变压器网络,用于3D对象检测。 CenterFormer首先使用中心热图在基于标准的Voxel点云编码器之上选择中心候选者。然后,它将中心候选者的功能用作变压器中的查询嵌入。为了进一步从多个帧中汇总功能,我们通过交叉注意设计一种方法来融合功能。最后,添加回归头以预测输出中心功能表示形式上的边界框。我们的设计降低了变压器结构的收敛难度和计算复杂性。结果表明,与无锚对象检测网络的强基线相比,有了显着改善。 CenterFormer在Waymo Open数据集上实现了单个模型的最新性能,验证集的MAPH为73.7%,测试集的MAPH上有75.6%的MAPH,大大优于所有先前发布的CNN和基于变压器的方法。我们的代码可在https://github.com/tusimple/centerformer上公开获取
translated by 谷歌翻译
伯德眼景(BEV)中的语义细分是自动驾驶的重要任务。尽管这项任务吸引了大量的研究工作,但灵活应对在自动驾驶汽车上配备的任意(单个或多个)摄像头传感器仍然具有挑战性。在本文中,我们介绍了BEVSEGFORMER,这是一种有效的基于变压器的方法,用于从任意摄像机钻机中进行BEV语义分割。具体而言,我们的方法首先编码带有共享骨架的任意摄像机的图像功能。然后,这些图像功能通过基于变压器的编码器增强。此外,我们引入了BEV变压器解码器模块以解析BEV语义分割结果。有效的多相机可变形注意单元旨在进行BEV-to-to-image视图转换。最后,查询是根据BEV中网格的布局重塑的,并以监督方式进行了更大的采样以产生语义分割结果。我们在公共Nuscenes数据集和自收集的数据集上评估了所提出的算法。实验结果表明,我们的方法在任意摄像机钻机上实现了BEV语义分割的有希望的性能。我们还通过消融研究证明了每个组件的有效性。
translated by 谷歌翻译
Vision transformers (ViTs) encoding an image as a sequence of patches bring new paradigms for semantic segmentation.We present an efficient framework of representation separation in local-patch level and global-region level for semantic segmentation with ViTs. It is targeted for the peculiar over-smoothness of ViTs in semantic segmentation, and therefore differs from current popular paradigms of context modeling and most existing related methods reinforcing the advantage of attention. We first deliver the decoupled two-pathway network in which another pathway enhances and passes down local-patch discrepancy complementary to global representations of transformers. We then propose the spatially adaptive separation module to obtain more separate deep representations and the discriminative cross-attention which yields more discriminative region representations through novel auxiliary supervisions. The proposed methods achieve some impressive results: 1) incorporated with large-scale plain ViTs, our methods achieve new state-of-the-art performances on five widely used benchmarks; 2) using masked pre-trained plain ViTs, we achieve 68.9% mIoU on Pascal Context, setting a new record; 3) pyramid ViTs integrated with the decoupled two-pathway network even surpass the well-designed high-resolution ViTs on Cityscapes; 4) the improved representations by our framework have favorable transferability in images with natural corruptions. The codes will be released publicly.
translated by 谷歌翻译
DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https:// github.com/fundamentalvision/Deformable-DETR.
translated by 谷歌翻译
这项工作旨在使用带有动作查询的编码器框架(类似于DETR)来推进时间动作检测(TAD),该框架在对象检测中表现出了巨大的成功。但是,如果直接应用于TAD,该框架遇到了几个问题:解码器中争论之间关系的探索不足,由于培训样本数量有限,分类培训不足以及推断时不可靠的分类得分。为此,我们首先提出了解码器中的关系注意机制,该机制根据其关系来指导查询之间的注意力。此外,我们提出了两项​​损失,以促进和稳定行动分类的培训。最后,我们建议在推理时预测每个动作查询的本地化质量,以区分高质量的查询。所提出的命名React的方法在Thumos14上实现了最新性能,其计算成本比以前的方法低得多。此外,还进行了广泛的消融研究,以验证每个提出的组件的有效性。该代码可在https://github.com/sssste/reaeact上获得。
translated by 谷歌翻译
参照视频对象分割(R-VOS)是一个新兴的跨通道任务,其目的是分割目标对象中的所有的视频帧称为一个语言表达式。在这项工作中,我们提出了一个简单并在变压器建成统一的框架,称为ReferFormer。它认为在语言查询,并直接参加到视频帧中的最相关的区域。具体而言,我们引入一个小套空调的语言作为输入Transformer对象的查询。通过这种方式,所有的查询有义务仅发现指的对象。他们最终都转化为动态的内核,其捕捉的关键对象级信息,并发挥卷积过滤器的作用,生成特征地图分割口罩。对象跟踪通过连接在帧之间相应的查询自然实现。这种机制极大地简化了管道和终端到终端的框架是从以前的方法不同显著。在REF-YouTube的VOS,REF-DAVIS17大量的实验,A2D-句子和JHMDB-句显示ReferFormer的有效性。上REF-YouTube的VOS,参见-前达到55.6J&F与RESNET-50主链而不花哨,这超过了8.4点之前的状态的最先进的性能。此外,与强斯文 - 大型骨干,ReferFormer实现了所有现有的方法中最好的J&62.4 F。歼&F度量可以通过采用一个简单的后处理技术来进一步升压到63.3。此外,我们分别显示55.0地图和43.7地图上A2D-句andJHMDB-句令人印象深刻的结果,这显著优于大幅度以前的方法。代码是公开的,在https://github.com/wjn922/ReferFormer。
translated by 谷歌翻译
图像分割是关于使用不同语义的分组像素,例如类别或实例成员身份,其中每个语义选择定义任务。虽然只有每个任务的语义不同,但目前的研究侧重于为每项任务设计专业架构。我们提出了蒙面关注掩模变压器(Mask2Former),这是一种能够寻址任何图像分段任务(Panoptic,实例或语义)的新架构。其关键部件包括屏蔽注意,通过限制预测掩模区域内的横向提取局部特征。除了将研究工作减少三次之外,它还优于四个流行的数据集中的最佳专业架构。最值得注意的是,Mask2Former为Panoptic semonation(Coco 57.8 PQ)设置了新的最先进的,实例分段(Coco上50.1 AP)和语义分割(ADE20K上的57.7 miou)。
translated by 谷歌翻译
我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像,我们将它们分成非重叠补丁,并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌,我们估计它是否包含目标对象和相应的大小。该方法的优点是,该特征从匹配中学到,最终匹配。因此,功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能,然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外,该方法在一个GPU上实现了实时推理速度(约为40美元的FPS)。代码和模型将被释放。
translated by 谷歌翻译