人们在我们的日常互动中互相看待彼此或相互凝视是无处不在的,并且发现相互观察对于理解人类的社会场景具有重要意义。当前的相互视线检测方法集中在两阶段方法上,其推理速度受到两阶段管道的限制,第二阶段的性能受第一阶段的影响。在本文中,我们提出了一个新型的一阶段相互视线检测框架,称为相互视线变压器或MGTR,以端到端的方式执行相互视线检测。通过设计相互视线实例三元,MGTR可以检测每个人头边界框,并基于全局图像信息同时推断相互视线的关系,从而简化整个过程。两个相互视线数据集的实验结果表明,我们的方法能够加速相互视线检测过程而不会失去性能。消融研究表明,MGTR的不同组成部分可以捕获图像中不同级别的语义信息。代码可在https://github.com/gmbition/mgtr上找到
translated by 谷歌翻译
同一场景中的不同对象彼此之间或多或少相关,但是只有有限数量的这些关系值得注意。受到对象检测效果的DETR的启发,我们将场景图生成视为集合预测问题,并提出了具有编码器decoder架构的端到端场景图生成模型RELTR。关于视觉特征上下文的编码器原因是,解码器使用带有耦合主题和对象查询的不同类型的注意机制渗透了一组固定大小的三胞胎主题prodicate-object。我们设计了一套预测损失,以执行地面真相与预测三胞胎之间的匹配。与大多数现有场景图生成方法相反,Reltr是一种单阶段方法,它仅使用视觉外观直接预测一组关系,而无需结合实体并标记所有可能的谓词。视觉基因组和开放图像V6数据集的广泛实验证明了我们模型的出色性能和快速推断。
translated by 谷歌翻译
用于视觉数据的变压器模型的最新进程导致识别和检测任务的显着改进。特别是,使用学习查询代替区域建议,这已经引起了一种新的一类单级检测模型,由检测变压器(DETR)。这种单阶段方法的变化已经主导了人对象相互作用(HOI)检测。然而,这种单阶段Hoi探测器的成功可以很大程度上被归因于变压器的表示力。我们发现,当配备相同的变压器时,他们的两级同行可以更加性能和记忆力,同时取得一小部分训练。在这项工作中,我们提出了一对成对变压器,这是一个用于HOI的一元和成对表示的两级检测器。我们观察到我们的变压器网络的一对和成对部分专门化,前者优先增加积极示例的分数,后者降低了阴性实例的分数。我们评估我们在HiCO-DET和V-Coco数据集上的方法,并显着优于最先进的方法。在推理时间内,我们使用RESET50的模型在单个GPU上接近实时性能。
translated by 谷歌翻译
人群本地化(预测头部位置)是一项更实用,更高的任务,而不是仅仅计数。现有方法采用伪装框或预设计的本地化图,依靠复杂的后处理来获得头部位置。在本文中,我们提出了一个名为CLTR的优雅,端到端的人群本地化变压器,该变压器在基于回归的范式中解决了任务。所提出的方法将人群定位视为直接设置的预测问题,将提取的功能和可训练的嵌入作为变压器描述器的输入。为了减少模棱两可的点并产生更合理的匹配结果,我们引入了基于KMO的匈牙利匹配器,该匹配器采用附近的环境作为辅助匹配成本。在各种数据设置中在五个数据集上进行的广泛实验显示了我们方法的有效性。特别是,所提出的方法在NWPU-Crowd,UCF-QNRF和Shanghaitech a部分A部分上实现了最佳的本地化性能。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
我们提出了一种用于多实例姿态估计的端到端培训方法,称为诗人(姿势估计变压器)。将卷积神经网络与变压器编码器 - 解码器架构组合,我们将多个姿势估计从图像标记为直接设置预测问题。我们的模型能够使用双方匹配方案直接出现所有个人的姿势。诗人使用基于集的全局损失进行培训,该丢失包括关键点损耗,可见性损失和载重损失。诗歌的原因与多个检测到的个人与完整图像上下文之间的关系直接预测它们并行姿势。我们展示诗人在Coco Keypoint检测任务上实现了高精度,同时具有比其他自下而上和自上而下的方法更少的参数和更高推理速度。此外,在将诗人应用于动物姿势估计时,我们表现出了成功的转移学习。据我们所知,该模型是第一个端到端的培训多实例姿态估计方法,我们希望它将成为一种简单而有前途的替代方案。
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
在本文中,我们对检测变压器(DETR)感兴趣,这是一种基于变压器编码器编码器架构的端到端对象检测方法,而无需手工制作的后处理,例如NMS。受到有条件的Detr的启发,这是一种具有快速训练收敛性的改进的DETR,对内部解码器层提出了盒子查询(最初称为空间查询),我们将对象查询重新将对象查询重新布置为盒子查询的格式,该格式是参考参考嵌入的组成点和框相对于参考点的转换。该重新制定表明在更快地使用R-CNN中广泛研究的DETR中的对象查询与锚固框之间的联系。此外,我们从图像内容中学习了盒子查询,从而进一步提高了通过快速训练收敛的有条件DETR的检测质量。此外,我们采用轴向自我注意的想法来节省内存成本并加速编码器。所得的检测器(称为条件DETR V2)取得比条件DETR更好的结果,可节省内存成本并更有效地运行。例如,对于DC $ 5 $ -Resnet- $ 50 $骨干,我们的方法在可可$ Val $ set上获得了$ 44.8 $ ap,$ 16.4 $ fps和有条件的detr相比,它运行了$ 1.6 \ tims $ $ $ $ $,节省$ 74 $ \ \ \ \ \ \ \ \ \ \ \ \ \ $ 74美元总体内存成本的百分比,并提高$ 1.0 $ ap得分。
translated by 谷歌翻译
主要对象通常存在于图像或视频中,因为它们是摄影师想要突出的物体。人类观众可以轻松识别它们,但算法经常将它们与其他物体混为一组。检测主要受试者是帮助机器理解图像和视频内容的重要技术。我们展示了一个新的数据集,其目标是培训模型来了解对象的布局和图像的上下文,然后找到它们之间的主要拍摄对象。这是在三个方面实现的。通过通过专业射击技能创建的电影镜头收集图像,我们收集了具有强大多样性的数据集,具体而言,它包含107 \,700图像,从21 \,540电影拍摄。我们将其标记为两个类的边界框标签:主题和非主题前景对象。我们对数据集进行了详细分析,并将任务与显着性检测和对象检测进行比较。 imagesBject是第一个尝试在摄影师想要突出显示的图像中本地化主题的数据集。此外,我们发现基于变压器的检测模型提供了其他流行模型架构中的最佳结果。最后,我们讨论了潜在的应用并以数据集的重要性讨论。
translated by 谷歌翻译
人对象交互(HOI)检测作为对象检测任务的下游需要本地化人和对象,并从图像中提取人类和对象之间的语义关系。最近,由于其高效率,一步方法已成为这项任务的新趋势。然而,这些方法侧重于检测可能的交互点或过滤人对象对,忽略空间尺度处的不同物体的位置和大小的可变性。为了解决这个问题,我们提出了一种基于变压器的方法,Qahoi(用于人对象交互检测的查询锚点),它利用了多尺度架构来提取来自不同空间尺度的特征,并使用基于查询的锚来预测全部Hoi实例的元素。我们进一步调查了强大的骨干,显着提高了QAHOI的准确性,QAHOI与基于变压器的骨干优于最近的最近最先进的方法,通过HICO-DEC基准。源代码以$ \ href {https://github.com/cjw2021/qhoii} {\ text {this https url}} $。
translated by 谷歌翻译
在这项工作中,我们呈现SEQFormer,这是一个令人沮丧的视频实例分段模型。 SEQFormer遵循Vision变换器的原理,该方法模型视频帧之间的实例关系。然而,我们观察到一个独立的实例查询足以捕获视频中的时间序列,但应该独立地使用每个帧进行注意力机制。为此,SEQFormer在每个帧中定位一个实例,并聚合时间信息以学习视频级实例的强大表示,其用于动态地预测每个帧上的掩模序列。实例跟踪自然地实现而不进行跟踪分支或后处理。在YouTube-VIS数据集上,SEQFormer使用Reset-50个骨干和49.0 AP实现47.4个AP,其中Reset-101骨干,没有响铃和吹口哨。此类成果分别显着超过了以前的最先进的性能4.6和4.4。此外,与最近提出的Swin变压器集成,SEQFormer可以实现59.3的高得多。我们希望SEQFormer可能是一个强大的基线,促进了视频实例分段中的未来研究,同时使用更强大,准确,整洁的模型来实现该字段。代码和预先训练的型号在https://github.com/wjf5203/seqformer上公开使用。
translated by 谷歌翻译
在本文中,我们提出了简单的关注机制,我们称之为箱子。它可以实现网格特征之间的空间交互,从感兴趣的框中采样,并提高变压器的学习能力,以获得几个视觉任务。具体而言,我们呈现拳击手,短暂的框变压器,通过从输入特征映射上的参考窗口预测其转换来参加一组框。通过考虑其网格结构,拳击手通过考虑其网格结构来计算这些框的注意力。值得注意的是,Boxer-2D自然有关于其注意模块内容信息的框信息的原因,使其适用于端到端实例检测和分段任务。通过在盒注意模块中旋转的旋转的不变性,Boxer-3D能够从用于3D端到端对象检测的鸟瞰图平面产生识别信息。我们的实验表明,拟议的拳击手-2D在Coco检测中实现了更好的结果,并且在Coco实例分割上具有良好的和高度优化的掩模R-CNN可比性。 Boxer-3D已经为Waymo开放的车辆类别提供了令人信服的性能,而无需任何特定的类优化。代码将被释放。
translated by 谷歌翻译
Person Search aims to simultaneously localize and recognize a target person from realistic and uncropped gallery images. One major challenge of person search comes from the contradictory goals of the two sub-tasks, i.e., person detection focuses on finding the commonness of all persons so as to distinguish persons from the background, while person re-identification (re-ID) focuses on the differences among different persons. In this paper, we propose a novel Sequential Transformer (SeqTR) for end-to-end person search to deal with this challenge. Our SeqTR contains a detection transformer and a novel re-ID transformer that sequentially addresses detection and re-ID tasks. The re-ID transformer comprises the self-attention layer that utilizes contextual information and the cross-attention layer that learns local fine-grained discriminative features of the human body. Moreover, the re-ID transformer is shared and supervised by multi-scale features to improve the robustness of learned person representations. Extensive experiments on two widely-used person search benchmarks, CUHK-SYSU and PRW, show that our proposed SeqTR not only outperforms all existing person search methods with a 59.3% mAP on PRW but also achieves comparable performance to the state-of-the-art results with an mAP of 94.8% on CUHK-SYSU.
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
对于人类,使用视觉信号了解对象之间的关系是直观的。但是,对于人工智能,这项任务仍然具有挑战性。研究人员在研究语义关系检测方面取得了重大进展,例如人类对象的相互作用检测和视觉关系检测。我们将视觉关系的研究从语义到几何发展迈进了一步。在具体上,我们预测相对阻塞和相对距离关系。但是,从单个图像中检测这些关系具有挑战性。强制集中注意特定于任务的区域在成功检测这些关系方面起着关键作用。在这项工作中,(1)我们提出了一种新颖的三年级架构,作为集中注意力的基础架构。 2)我们使用广义交叉框预测任务有效地指导我们的模型专注于遮挡特定区域; 3)我们的模型在距离感知关系检测方面实现了新的最新性能。具体而言,我们的模型将F1分数从33.8%提高到38.6%,并将闭塞F1得分从34.4%提高到41.2%。我们的代码公开可用。
translated by 谷歌翻译
人类的姿势估计旨在弄清不同场景中所有人的关键。尽管结果有希望,但目前的方法仍然面临一些挑战。现有的自上而下的方法单独处理一个人,而没有不同的人与所在的场景之间的相互作用。因此,当发生严重闭塞时,人类检测的表现会降低。另一方面,现有的自下而上方法同时考虑所有人,并捕获整个图像的全局知识。但是,由于尺度变化,它们的准确性不如自上而下的方法。为了解决这些问题,我们通过整合自上而下和自下而上的管道来探索不同接受场的视觉线索并实现其互补性,提出了一种新颖的双皮线整合变压器(DPIT)。具体而言,DPIT由两个分支组成,自下而上的分支介绍了整个图像以捕获全局视觉信息,而自上而下的分支则从单人类边界框中提取本地视觉的特征表示。然后,从自下而上和自上而下的分支中提取的特征表示形式被馈入变压器编码器,以交互融合全局和本地知识。此外,我们定义了关键点查询,以探索全景和单人类姿势视觉线索,以实现两个管道的相互互补性。据我们所知,这是将自下而上和自上而下管道与变压器与人类姿势估计的变压器相结合的最早作品之一。关于可可和MPII数据集的广泛实验表明,我们的DPIT与最先进的方法相当。
translated by 谷歌翻译
扎根的情况识别(GSR)旨在生成图像的结构化语义摘要,以``类人''事件的理解。具体而言,GSR任务不仅检测出明显的活动动词(例如购买),而且还可以预测所有相应的语义角色(例如代理和商品)。受对象检测和图像字幕任务的启发,现有方法通常采用两个阶段框架:1)检测活动动词,然后2)基于检测到的动词来预测语义角色。显然,这个不合逻辑的框架构成了语义理解的巨大障碍。首先,仅没有语义角色的前检测动词不可避免地无法区分许多类似的日常活动(例如,提供和赠与,买卖)。其次,以封闭的自动回归方式预测语义角色几乎无法利用动词和角色之间的语义关系。为此,在本文中,我们提出了一个新颖的两阶段框架,该框架着重于在动词和角色中利用这种双向关系。在第一阶段,我们没有预测动词,而是推迟检测步骤并假设一个伪标记,其中每个相应的语义角色都从图像中学到了每个相应的语义角色的中间表示。在第二阶段,我们利用变压器层发掘动词和语义角色内的潜在语义关系。借助一组支持图像,替代学习方案旨在同时优化结果:使用与图像相对应的名词更新动词,并使用支持图像中的动词更新名词。关于挑战性SWIG基准测试的广泛实验结果表明,我们翻新的框架在各种指标下的表现优于其他最先进的方法。
translated by 谷歌翻译
Panoptic semonation涉及联合语义分割和实例分割的组合,其中图像内容分为两种类型:事物和东西。我们展示了Panoptic SegFormer,是与变压器的Panoptic Semonation的一般框架。它包含三个创新组件:高效的深度监督掩模解码器,查询解耦策略以及改进的后处理方法。我们还使用可变形的DETR来有效地处理多尺度功能,这是一种快速高效的DETR版本。具体而言,我们以层式方式监督掩模解码器中的注意模块。这种深度监督策略让注意模块快速关注有意义的语义区域。与可变形的DETR相比,它可以提高性能并将所需培训纪元的数量减少一半。我们的查询解耦策略对查询集的职责解耦并避免了事物和东西之间的相互干扰。此外,我们的后处理策略通过联合考虑分类和分割质量来解决突出的面具重叠而没有额外成本的情况。我们的方法会在基线DETR模型上增加6.2 \%PQ。 Panoptic SegFormer通过56.2 \%PQ实现最先进的结果。它还显示出对现有方法的更强大的零射鲁布利。代码释放\ url {https://github.com/zhiqi-li/panoptic-segformer}。
translated by 谷歌翻译
我们解决了一项新的任务,即计数和检测。给定目标对象类的一些示例边界框,我们试图计数和检测目标类的所有对象。该任务与几个弹出对象计数相同的监督,但另外还输出对象边界框以及总体计数。为了解决这个具有挑战性的问题,我们介绍了一种新颖的两阶段训练策略和一种新颖的不确定性 - 少数光对象探测器:计数 - 滴定。前者的目的是生成伪距离界限框来训练后者。后者利用了前者提供的伪基真实,但采取了必要的步骤来解释伪基真实的不完美。为了验证我们在新任务上的方法的性能,我们介绍了两个名为FSCD-147和FSCD-LVIS的新数据集。两个数据集都包含具有复杂场景,每个图像多个对象类的图像,并且对象形状,大小和外观的巨大变化。我们提出的方法优于非常强大的基线,该基线是根据数量计数和少量对象检测而适应的,并且在计数和检测指标中均具有很大的余量。代码和模型可在\ url {https://github.com/vinairesearch/counting-detr}中获得。
translated by 谷歌翻译
The DETR object detection approach applies the transformer encoder and decoder architecture to detect objects and achieves promising performance. In this paper, we present a simple approach to address the main problem of DETR, the slow convergence, by using representation learning technique. In this approach, we detect an object bounding box as a pair of keypoints, the top-left corner and the center, using two decoders. By detecting objects as paired keypoints, the model builds up a joint classification and pair association on the output queries from two decoders. For the pair association we propose utilizing contrastive self-supervised learning algorithm without requiring specialized architecture. Experimental results on MS COCO dataset show that Pair DETR can converge at least 10x faster than original DETR and 1.5x faster than Conditional DETR during training, while having consistently higher Average Precision scores.
translated by 谷歌翻译