智能论文笔记

Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework

Botao Ye , Hong Chang , Bingpeng Ma , Shiguang Shan , Xilin Chen

分类：计算机视觉

2022-03-22

The current popular two-stream, two-stage tracking framework extracts the template and the search region features separately and then performs relation modeling, thus the extracted features lack the awareness of the target and have limited target-background discriminability. To tackle the above issue, we propose a novel one-stream tracking (OSTrack) framework that unifies feature learning and relation modeling by bridging the template-search image pairs with bidirectional information flows. In this way, discriminative target-oriented features can be dynamically extracted by mutual guidance. Since no extra heavy relation modeling module is needed and the implementation is highly parallelized, the proposed tracker runs at a fast speed. To further improve the inference efficiency, an in-network candidate early elimination module is proposed based on the strong similarity prior calculated in the one-stream framework. As a unified framework, OSTrack achieves state-of-the-art performance on multiple benchmarks, in particular, it shows impressive results on the one-shot tracking benchmark GOT-10k, i.e., achieving 73.7% AO, improving the existing best result (SwinTrack) by 4.3\%. Besides, our method maintains a good performance-speed trade-off and shows faster convergence. The code and models are available at https://github.com/botaoye/OSTrack.

translated by 谷歌翻译

Learning Tracking Representations via Dual-Branch Fully Transformer Networks

Fei Xie , Chunyu Wang , Guangting Wang , Wankou Yang , Wenjun Zeng

分类：计算机视觉

2021-12-05

我们介绍了一个基于仅用于跟踪的变压器的暹罗样的双分支网络。给定模板和搜索映像，我们将它们分成非重叠补丁，并基于其在注意窗口中的其他人的匹配结果提取每个补丁的特征向量。对于每个令牌，我们估计它是否包含目标对象和相应的大小。该方法的优点是，该特征从匹配中学到，最终匹配。因此，功能与目标跟踪任务对齐。该方法实现更好或比较的结果作为首先使用CNN提取特征的最佳性能，然后使用变压器熔断它们。它优于GOT-10K和VOT2020基准上的最先进的方法。此外，该方法在一个GPU上实现了实时推理速度（约为40美元的FPS）。代码和模型将被释放。

translated by 谷歌翻译

SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Liting Lin , Heng Fan , Yong Xu , Haibin Ling

分类：计算机视觉

2021-12-02

变压器最近展示了改进视觉跟踪算法的明显潜力。尽管如此，基于变压器的跟踪器主要使用变压器熔断并增强由卷积神经网络（CNNS）产生的功能。相比之下，在本文中，我们提出了一个完全基于注意力的变压器跟踪算法，Swin-Cranstormer Tracker（SwintRack）。 SwintRack使用变压器进行特征提取和特征融合，允许目标对象和搜索区域之间的完全交互进行跟踪。为了进一步提高性能，我们调查了全面的不同策略，用于特征融合，位置编码和培训损失。所有这些努力都使SwintRack成为一个简单但坚实的基线。在我们的彻底实验中，SwintRack在leasot上设置了一个新的记录，在4.6 \％的情况下超过4.6 \％，同时仍然以45 fps运行。此外，它达到了最先进的表演，0.483 Suc，0.832 Suc和0.694 Ao，其他具有挑战性的leasot _ {ext} $，trackingnet和got-10k。我们的实施和培训型号可在HTTPS://github.com/litinglin/swintrack获得。

translated by 谷歌翻译

Learning Spatial-Frequency Transformer for Visual Object Tracking

Chuanming Tang , Xiao Wang , Yuanchao Bai , Zhe Wu , Jianlin Zhang , Yongmei Huang

分类：计算机视觉

2022-08-18

最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好，但是他们只是将2D功能弄平为序列，以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验，这可能仅导致次优结果。此外，许多作品表明，自我注意力实际上是一个低通滤波器，它与输入功能或键/查询无关。也就是说，它可能会抑制输入功能的高频组成部分，并保留甚至放大低频信息。为了解决这些问题，在本文中，我们提出了一个统一的空间频率变压器，该变压器同时建模高斯空间先验和高频强调（GPHA）。具体而言，高斯空间先验是使用双重多层感知器（MLP）生成的，并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层，然后分解为两个组件，即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通，因此，高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中，并提出一种新颖的跟踪算法，称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干，还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。

translated by 谷歌翻译

AiATrack: Attention in Attention for Transformer Visual Tracking

Shenyuan Gao , Chunluan Zhou , Chao Ma , Xinggang Wang , Junsong Yuan

分类：计算机视觉

2022-07-20

变压器跟踪器最近取得了令人印象深刻的进步，注意力机制起着重要作用。但是，注意机制的独立相关计算可能导致嘈杂和模棱两可的注意力重量，从而抑制了进一步的性能改善。为了解决这个问题，我们提出了注意力（AIA）模块，该模块通过在所有相关向量之间寻求共识来增强适当的相关性并抑制错误的相关性。我们的AIA模块可以很容易地应用于自我注意解区和交叉注意区块，以促进特征聚集和信息传播以进行视觉跟踪。此外，我们通过引入有效的功能重复使用和目标背景嵌入来充分利用时间参考，提出了一个流线型的变压器跟踪框架，称为AIATRACK。实验表明，我们的跟踪器以实时速度运行时在六个跟踪基准测试中实现最先进的性能。

translated by 谷歌翻译

Learning Target-aware Representation for Visual Tracking via Informative Interactions

Mingzhe Guo , Zhipeng Zhang , Heng Fan , Liping Jing , Yilin Lyu , Bing Li , Weiming Hu

分类：计算机视觉

2022-01-07

我们介绍了一种新颖的骨干架构，提高特征表示的目标感知能力。具体地，已经观察到事实上框架简单地使用来自骨干网的输出来执行特征匹配，从备份目标本地化，没有从匹配模块到骨干网的直接反馈，尤其是浅层。更具体地，只有匹配模块可以直接访问目标信息（在参考帧中），而候选帧的表示学习对参考目标是盲目的。结果，浅级中的目标 - 无关干扰的累积效果可能降低更深层的特征质量。在本文中，我们通过在暹罗类似的骨干网（inbn）内进行多个分支 - 方面交互来从不同角度接近问题。在INBN的核心是一个通用交互建模器（GIM），其将参考图像的先前知识注入骨干网络的不同阶段，导致候选特征表示的更好的目标感知和鲁棒的牵引力，其计算成本具有可忽略的计算成本。所提出的GIM模块和INBN机制是一般的，适用于不同的骨干类型，包括CNN和变压器，以改进，如我们在多个基准上的广泛实验所证明的那样。特别是，CNN版本（基于Siamcar），分别在Lasot / TNL2K上改善了3.2 / 6.9的Suc绝对收益。变压器版本获取Lasot / TNL2K的SUC 25.7 / 52.0，与最近的艺术态度相提并论。代码和模型将被释放。

translated by 谷歌翻译

Backbone is All Your Need: A Simplified Architecture for Visual Object Tracking

Boyu Chen , Peixia Li , Lei Bai , Lei Qiao , Qiuhong Shen , Bo Li , Weihao Gan , Wei Wu , Wanli Ouyang

分类：计算机视觉

2022-03-10

利用通用神经结构来替代手动设计或感应偏见，最近引起了广泛的兴趣。但是，现有的跟踪方法依赖于定制的子模块，需要进行架构选择的先验知识，从而阻碍了更通用系统中的跟踪开发。本文通过利用变压器主链进行关节特征提取和交互来提供简化的跟踪体系结构（SIMTRACK）。与现有的暹罗跟踪器不同，我们将输入图像序列化，并在单支骨架上直接串联。主链中的特征相互作用有助于删除精心设计的交互模块并产生更有效的框架。为了减少视觉变压器中的减速采样的信息丢失，我们进一步提出了动脉窗口策略，以可接受的计算成本提供更多多样化的输入补丁。我们的SimTrack在Lasot/TNL2K上以2.5％/2.6％的AUC增益提高了基线，并获得了与其他没有铃铛和哨声的其他专业跟踪算法竞争的结果。

translated by 谷歌翻译

FEAR: Fast, Efficient, Accurate and Robust Visual Tracker

Vasyl Borsuk , Roman Vei , Orest Kupyn , Tetiana Martyniuk , Igor Krashenyi , Jiři Matas

分类：计算机视觉

2021-12-15

我们呈现恐惧，新颖，快速，高效，准确，强大的暹罗视觉跟踪器。我们介绍了对象模型适配的架构块，称为双模板表示，以及像素 - 明智的融合块，以实现模型的额外灵活性和效率。双模板模块仅包含单个学习参数的时间信息，而像素-Wise融合块与标准相关模块相比，像素-Wise融合块对具有较少参数的判别特征进行了更多的辨别特征。通过用新型模块插入复杂的骨干，恐惧-M和恐惧-L跟踪器在既准确性和效率的几个学术基准上超过大多数暹粒例子。使用轻质骨干，优化的版本恐惧-XS提供了超过10倍的跟踪跟踪，而不是当前暹罗跟踪器，同时保持最先进的结果。 GEAF-XS跟踪器比LightTrack [62]更小2.4倍，比LightTrack [62]更高。此外，我们通过在能量消耗和执行速度上引入基准来扩展模型效率的定义。源代码，预先训练的模型和评估协议将根据要求提供

translated by 谷歌翻译

Transformer Tracking

Xin Chen , Bin Yan , Jiawen Zhu , Dong Wang , Xiaoyun Yang , Huchuan Lu

分类：

2021-03-29

Correlation acts as a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search re-

translated by 谷歌翻译

Siamese Object Tracking for Unmanned Aerial Vehicle: A Review and Comprehensive Analysis

Changhong Fu , Kunhan Lu , Guangze Zheng , Junjie Ye , Ziang Cao , Bowen Li , Geng Lu

分类：计算机视觉

2022-05-09

基于无人机（UAV）基于无人机的视觉对象跟踪已实现了广泛的应用，并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量，暹罗网络在基于无人机的对象跟踪中闪耀，其准确性，稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化，暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是，由于无人机在板载计算资源和复杂的现实情况下，暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署，这项工作对前沿暹罗跟踪器进行了全面的审查，以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后，进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外，为了更好地促进跟踪社区的发展，这项工作分析了现有的暹罗跟踪器的局限性，并进行了以低弹片评估表示的其他实验。最后，深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架，即代码库及其实验评估的结果，请访问https://github.com/vision4robotics/siamesetracking4uav。

translated by 谷歌翻译

PTTR: Relational 3D Point Cloud Object Tracking with Transformer

Changqing Zhou , Zhipeng Luo , Yueru Luo , Tianrui Liu , Liang Pan , Zhongang Cai , Haiyu Zhao , Shijian Lu

分类：计算机视觉

2021-12-06

在点云序列中，3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功，我们提出了点跟踪变压器（PTTR），其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1）除了随机抽样中，我们设计关系感知采样，以保护在子采样期间给定模板的相关点。 2）此外，我们提出了一种由自我关注和跨关注模块组成的点关系变压器（PRT）。全局自我关注操作捕获远程依赖性，以便分别增强搜索区域和模板的编码点特征。随后，我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3）基于粗略跟踪结果，我们采用了一种新颖的预测细化模块来获得最终精制预测。此外，我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明，PTTR以准确性和效率达到优越的点云跟踪。

translated by 谷歌翻译

Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding

Fengyuan Shi , Ruopeng Gao , Weilin Huang , Limin Wang

分类：计算机视觉

2022-09-28

多模式变压器表现出高容量和灵活性，可将图像和文本对齐以进行视觉接地。然而，由于自我发挥操作的二次时间复杂性，仅编码的接地框架（例如，transvg）遭受了沉重的计算。为了解决这个问题，我们通过将整个接地过程解散为编码和解码阶段，提出了一种新的多模式变压器体系结构，以动态MDETR形成。关键观察是，图像中存在很高的空间冗余。因此，我们通过在加快视觉接地过程之前利用这种稀疏性来设计一种新的动态多模式变压器解码器。具体而言，我们的动态解码器由2D自适应采样模块和文本引导的解码模块组成。采样模块旨在通过预测参考点的偏移来选择这些信息补丁，而解码模块则可以通过在图像功能和文本功能之间执行交叉注意来提取接地对象信息。这两个模块也被堆叠起来，以逐渐弥合模态间隙，并迭代地完善接地对象的参考点，最终实现了视觉接地的目的。对五个基准测试的广泛实验表明，我们提出的动态MDETR实现了计算和准确性之间的竞争权衡。值得注意的是，在解码器中仅使用9％的特征点，我们可以降低〜44％的多模式变压器的GLOP，但仍然比仅编码器的对应物更高的精度。此外，为了验证其概括能力并扩展我们的动态MDETR，我们构建了第一个单级剪辑授权的视觉接地框架，并在这些基准测试中实现最先进的性能。

translated by 谷歌翻译

A Discriminative Single-Shot Segmentation Network for Visual Object Tracking

Alan Lukežič , Jiří Matas , Matej Kristan

分类：计算机视觉

2021-12-22

基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性，但不限于边界框跟踪和有限的转换模型，这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2，其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型，一个不变的变换，包括非刚性变形，另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计，进一步提高了整体跟踪可靠性。没有每数据集FineTuning，并且仅用于分段作为主要输出，D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器，并非常接近GOT-10K上的最先进的跟踪器， TrackingNet，OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK，并与顶部视频对象分段算法进行操作。

translated by 谷歌翻译

Exploring Point-BEV Fusion for 3D Point Cloud Object Tracking with Transformer

Zhipeng Luo , Changqing Zhou , Liang Pan , Gongjie Zhang , Tianrui Liu , Yueru Luo , Haiyu Zhao , Ziwei Liu , Shijian Lu

分类：计算机视觉

2022-08-10

随着LIDAR传感器在自动驾驶中的流行率，3D对象跟踪受到了越来越多的关注。在点云序列中，3D对象跟踪旨在预测给定对象模板中连续帧中对象的位置和方向。在变压器成功的驱动下，我们提出了点跟踪变压器（PTTR），它有效地预测了高质量的3D跟踪，借助变压器操作，以粗到1的方式导致。 PTTR由三个新型设计组成。 1）我们设计的关系意识采样代替随机抽样，以在亚采样过程中保留与给定模板相关的点。 2）我们提出了一个点关系变压器，以进行有效的特征聚合和模板和搜索区域之间的特征匹配。 3）基于粗糙跟踪结果，我们采用了一个新颖的预测改进模块，通过局部特征池获得最终的完善预测。此外，以捕获对象运动的鸟眼视图（BEV）的有利特性（BEV）的良好属性，我们进一步设计了一个名为PTTR ++的更高级的框架，该框架既包含了点的视图和BEV表示）产生高质量跟踪结果的影响。 PTTR ++实质上提高了PTTR顶部的跟踪性能，并具有低计算开销。多个数据集的广泛实验表明，我们提出的方法达到了卓越的3D跟踪准确性和效率。

translated by 谷歌翻译

DQnet: Cross-Model Detail Querying for Camouflaged Object Detection

Wei Sun , Chengao Liu , Linyan Zhang , Yu Li , Pengxu Wei , Chang Liu , Jialing Zou , Jianbin Jiao , Qixiang Ye

分类：计算机视觉

2022-12-16

Camouflaged objects are seamlessly blended in with their surroundings, which brings a challenging detection task in computer vision. Optimizing a convolutional neural network (CNN) for camouflaged object detection (COD) tends to activate local discriminative regions while ignoring complete object extent, causing the partial activation issue which inevitably leads to missing or redundant regions of objects. In this paper, we argue that partial activation is caused by the intrinsic characteristics of CNN, where the convolution operations produce local receptive fields and experience difficulty to capture long-range feature dependency among image regions. In order to obtain feature maps that could activate full object extent, keeping the segmental results from being overwhelmed by noisy features, a novel framework termed Cross-Model Detail Querying network (DQnet) is proposed. It reasons the relations between long-range-aware representations and multi-scale local details to make the enhanced representation fully highlight the object regions and eliminate noise on non-object regions. Specifically, a vanilla ViT pretrained with self-supervised learning (SSL) is employed to model long-range dependencies among image regions. A ResNet is employed to enable learning fine-grained spatial local details in multiple scales. Then, to effectively retrieve object-related details, a Relation-Based Querying (RBQ) module is proposed to explore window-based interactions between the global representations and the multi-scale local details. Extensive experiments are conducted on the widely used COD datasets and show that our DQnet outperforms the current state-of-the-arts.

translated by 谷歌翻译

TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer

Jiajun Deng , Zhengyuan Yang , Daqing Liu , Tianlang Chen , Wengang Zhou , Yanyong Zhang , Houqiang Li , Wanli Ouyang

分类：计算机视觉

2022-06-14

在这项工作中，我们探索了用于视觉接地的整洁而有效的基于变压器的框架。先前的方法通常解决了视觉接地的核心问题，即具有手动设计的机制，即多模式融合和推理。这样的启发式设计不仅复杂化，而且使模型容易过度拟合特定的数据分布。为了避免这种情况，我们首先提出了TransVG，该TransVG通过变压器建立了多模式的对应关系，并通过直接回归框坐标来定位引用区域。我们从经验上表明，复杂的融合模块可以用具有更高性能的变压器编码层的简单堆栈代替。但是，TransVG中的核心融合变压器是针对Uni-Modal编码器的独立性，因此应在有限的视觉接地数据上从头开始训练，这使得很难优化并导致次优性能。为此，我们进一步介绍了TransVG ++以进行两倍的改进。一方面，我们通过利用Vision Transformer（VIT）进行视觉功能编码来将框架升级到一个纯粹的基于变压器的框架。对于另一个人来说，我们设计了语言有条件的视觉变压器，以去除外部融合模块，并重用Uni-Modal vit进行中间层的视觉融合。我们对五个普遍数据集进行了广泛的实验，并报告一系列最先进的记录。

translated by 谷歌翻译

Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook

Sajid Javed , Martin Danelljan , Fahad Shahbaz Khan , Muhammad Haris Khan , Michael Felsberg , Jiri Matas

分类：计算机视觉

2021-12-06

准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹，仅给出其初始位置和分段，或者在边界框的形式中粗略近似。判别相关滤波器（DCF）和深度暹罗网络（SNS）被出现为主导跟踪范式，这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后，该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查，基于九个跟踪基准。首先，我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后，我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外，我们彻底分析了DCF和暹罗跟踪器对九个基准的性能，涵盖了视觉跟踪的不同实验方面：数据集，评估度量，性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。

translated by 谷歌翻译

Beyond SOT: It's Time to Track Multiple Generic Objects at Once

Christoph Mayer , Martin Danelljan , Ming-Hsuan Yang , Vittorio Ferrari , Luc Van Gool , Alina Kuznetsova

分类：计算机视觉

2022-12-22

Generic Object Tracking (GOT) is the problem of tracking target objects, specified by bounding boxes in the first frame of a video. While the task has received much attention in the last decades, researchers have almost exclusively focused on the single object setting. Multi-object GOT benefits from a wider applicability, rendering it more attractive in real-world applications. We attribute the lack of research interest into this problem to the absence of suitable benchmarks. In this work, we introduce a new large-scale GOT benchmark, LaGOT, containing multiple annotated target objects per sequence. Our benchmark allows researchers to tackle key remaining challenges in GOT, aiming to increase robustness and reduce computation through joint tracking of multiple objects simultaneously. Furthermore, we propose a Transformer-based GOT tracker TaMOS capable of joint processing of multiple objects through shared computation. TaMOs achieves a 4x faster run-time in case of 10 concurrent objects compared to tracking each object independently and outperforms existing single object trackers on our new benchmark. Finally, TaMOs achieves highly competitive results on single-object GOT datasets, setting a new state-of-the-art on TrackingNet with a success rate AUC of 84.4%. Our benchmark, code, and trained models will be made publicly available.

translated by 谷歌翻译

A Survey of Visual Transformers

Yang Liu , Yao Zhang , Yixin Wang , Feng Hou , Jin Yuan , Jiang Tian , Yang Zhang , Zhongchao Shi , Jianping Fan , Zhiqiang He

分类：计算机视觉

2021-11-11

变压器是一种基于关注的编码器解码器架构，彻底改变了自然语言处理领域。灵感来自这一重大成就，最近在将变形式架构调整到计算机视觉（CV）领域的一些开创性作品，这已经证明了他们对各种简历任务的有效性。依靠竞争力的建模能力，与现代卷积神经网络相比在本文中，我们已经为三百不同的视觉变压器进行了全面的审查，用于三个基本的CV任务（分类，检测和分割），提出了根据其动机，结构和使用情况组织这些方法的分类。。由于培训设置和面向任务的差异，我们还在不同的配置上进行了评估了这些方法，以便于易于和直观的比较而不是各种基准。此外，我们已经揭示了一系列必不可少的，但可能使变压器能够从众多架构中脱颖而出，例如松弛的高级语义嵌入，以弥合视觉和顺序变压器之间的差距。最后，提出了三个未来的未来研究方向进行进一步投资。

translated by 谷歌翻译

TransVOD: End-to-end Video Object Detection with Spatial-Temporal Transformers

Qianyu Zhou , Xiangtai Li , Lu He , Yibo Yang , Guangliang Cheng , Yunhai Tong , Lizhuang Ma , Dacheng Tao

分类：计算机视觉

2022-01-13

Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.

translated by 谷歌翻译