视频对象检测一直是计算机视觉中一个重要但充满挑战的话题。传统方法主要集中于设计图像级或框级特征传播策略以利用时间信息。本文认为,通过更有效,更有效的功能传播框架,视频对象探测器可以在准确性和速度方面提高。为此,本文研究了对象级特征传播,并提出了一个针对高性能视频对象检测的对象查询传播(QueryProp)框架。所提出的查询Prop包含两个传播策略:1)查询传播是从稀疏的钥匙帧到密集的非钥匙框架执行的,以减少非钥匙帧的冗余计算; 2)查询传播是从以前的关键帧到当前关键框架进行的,以通过时间上下文建模来改善特征表示。为了进一步促进查询传播,自适应传播门旨在实现灵活的钥匙框架选择。我们在Imagenet VID数据集上进行了广泛的实验。 QueryProp通过最先进的方法实现了可比的精度,并实现了不错的精度/速度权衡。代码可在https://github.com/hf1995/queryprop上获得。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
视频对象检测(VID)是具有挑战性的,因为对象外观的较高变化以及某些帧中的不同变化。在正面,与静止图像相比,视频的某个框架中的检测可以吸引其他帧的支撑。因此,如何在不同框架上汇总特征对于VID问题至关重要。大多数现有的聚合算法都是针对两阶段探测器定制的。但是,由于两阶段的性质,该类别中的探测器通常在计算上很昂贵。这项工作提出了一种简单而有效的策略来解决上述问题,该策略花费了很高的准确性上的边缘开销。具体而言,我们与传统的两阶段管道不同,我们主张在单阶段检测之后放置区域级别的选择,以避免处理大量的低质量候选者。此外,还构建了一个新的模块来评估目标框架及其参考的关系,并指导聚合。进行了广泛的实验和消融研究,以验证我们的设计功效,并揭示其优于其他最先进的VID方法的优势。我们的基于YOLOX的模型可以实现有希望的性能(例如,在单个2080TI GPU上的Imagenet VID数据集上的30 fps的87.5%AP50)使其对大规模或实时应用程序有吸引力。实现很简单,演示代码和模型已在https://github.com/yuhengsss/yolov上提供。
translated by 谷歌翻译
表示像素位移的光流量广泛用于许多计算机视觉任务中以提供像素级运动信息。然而,随着卷积神经网络的显着进展,建议最近的最先进的方法直接在特征级别解决问题。由于特征向量的位移不与像素位移不一致,因此常用方法是:将光流向神经网络向前传递到任务数据集上的微调该网络。利用这种方法,他们期望微调网络来产生编码特征级运动信息的张量。在本文中,我们重新思考此事实上的范式并分析了视频对象检测任务中的缺点。为了缓解这些问题,我们提出了一种具有视频对象检测的\ textBF {i} n-network \ textbf {f} eature \ textbf {f} eature \ textbf {f}低估计模块(iff模块)的新型网络(iff-net)。在不借鉴任何其他数据集的预先训练,我们的IFF模块能够直接产生\ textBF {feature flow},表示特征位移。我们的IFF模块由一个浅模块组成,它与检测分支共享该功能。这种紧凑的设计使我们的IFF-Net能够准确地检测对象,同时保持快速推断速度。此外,我们提出了基于\ Textit {自我监督}的转换剩余损失(TRL),这进一步提高了IFF-Net的性能。我们的IFF-Net优于现有方法,并在Imagenet VID上设置最先进的性能。
translated by 谷歌翻译
Temporal action detection (TAD) is extensively studied in the video understanding community by generally following the object detection pipeline in images. However, complex designs are not uncommon in TAD, such as two-stream feature extraction, multi-stage training, complex temporal modeling, and global context fusion. In this paper, we do not aim to introduce any novel technique for TAD. Instead, we study a simple, straightforward, yet must-known baseline given the current status of complex design and low detection efficiency in TAD. In our simple baseline (termed BasicTAD), we decompose the TAD pipeline into several essential components: data sampling, backbone design, neck construction, and detection head. We extensively investigate the existing techniques in each component for this baseline, and more importantly, perform end-to-end training over the entire pipeline thanks to the simplicity of design. As a result, this simple BasicTAD yields an astounding and real-time RGB-Only baseline very close to the state-of-the-art methods with two-stream inputs. In addition, we further improve the BasicTAD by preserving more temporal and spatial information in network representation (termed as PlusTAD). Empirical results demonstrate that our PlusTAD is very efficient and significantly outperforms the previous methods on the datasets of THUMOS14 and FineAction. Meanwhile, we also perform in-depth visualization and error analysis on our proposed method and try to provide more insights on the TAD problem. Our approach can serve as a strong baseline for future TAD research. The code and model will be released at https://github.com/MCG-NJU/BasicTAD.
translated by 谷歌翻译
近年来,人们见证了应用上下文框架以提高对象检测作为视频对象检测的性能的趋势。现有方法通常一次汇总功能以增强功能。但是,这些方法通常缺少来自相邻帧的空间信息,并且缺乏功能聚合不足。为了解决这些问题,我们执行一种渐进式方式来引入时间信息和空间信息以进行集成增强。时间信息由时间特征聚合模型(TFAM)引入,通过在上下文框架和目标框架之间进行注意机制(即要检测到的框架)。同时,我们采用空间过渡意识模型(StAM)来传达每个上下文框架和目标框架之间的位置过渡信息。我们的PTSeformer建立在基于变压器的检测器DETR上,还遵循端到端的方式,以避免重大的后处理程序,同时在Imagenet VID数据集上获得88.1%的地图。代码可在https://github.com/hon-wong/ptseformer上找到。
translated by 谷歌翻译
基于LIDAR的3D对象检测的先前工作主要集中在单帧范式上。在本文中,我们建议通过利用多个帧的时间信息(即点云视频)来检测3D对象。我们从经验上将时间信息分为短期和长期模式。为了编码短期数据,我们提出了一个网格消息传递网络(GMPNET),该网络将每个网格(即分组点)视为节点,并用邻居网格构造K-NN图。为了更新网格的功能,gmpnet迭代从其邻居那里收集信息,从而从附近的框架中挖掘了运动提示。为了进一步汇总长期框架,我们提出了一个细心的时空变压器GRU(AST-GRU),其中包含空间变压器注意(STA)模块和颞变压器注意(TTA)模块。 STA和TTA增强了香草gru,以专注于小物体并更好地对齐运动对象。我们的整体框架支持点云中的在线和离线视频对象检测。我们基于普遍的基于锚和锚的探测器实现算法。关于挑战性的Nuscenes基准的评估结果显示了我们方法的出色表现,在提交论文时,在没有任何铃铛和哨声的情况下在排行榜上获得了第一个。
translated by 谷歌翻译
移动对象(DATMO)的检测和跟踪是自动驾驶环境感知的重要组成部分。虽然使用环绕视图摄像机的3D检测器只是蓬勃发展,但越来越多的趋势是使用不同的基于变压器的方法从透视图的2D特征图中学习3D空间中的查询。本文提出了稀疏的R-CNN 3D(SRCN3D),这是一种新颖的两阶段全横向卷积映射管道,用于环绕视图摄像机检测和跟踪。 SRCN3D采用了级联结构,具有固定数量的提案盒和提案潜在功能的双轨更新。预计提案框可以透视视图,以汇总感兴趣的区域(ROI)本地特征。基于此,提案功能通过动态实例交互式头部进行完善,然后生成分类,并应用于原始边界框。与先前的艺术相比,我们的稀疏功能采样模块仅利用本地2D功能来调整每个相应的3D提案盒,从而导致完整的稀疏范式。提案功能和外观特征均在数据关联过程中采用多刺激性3D多对象跟踪方法。 Nuscenes数据集的广泛实验证明了我们提出的SRCN3D检测器和跟踪器的有效性。代码可在https://github.com/synsin0/srcn3d上找到。
translated by 谷歌翻译
DETR方法中引入的查询机制正在改变对象检测的范例,最近有许多基于查询的方法获得了强对象检测性能。但是,当前基于查询的检测管道遇到了以下两个问题。首先,需要多阶段解码器来优化随机初始化的对象查询,从而产生较大的计算负担。其次,训练后的查询是固定的,导致不满意的概括能力。为了纠正上述问题,我们在较快的R-CNN框架中提出了通过查询生成网络预测的特征对象查询,并开发了一个功能性的查询R-CNN。可可数据集的广泛实验表明,我们的特征查询R-CNN获得了所有R-CNN探测器的最佳速度准确性权衡,包括最近的最新稀疏R-CNN检测器。该代码可在\ url {https://github.com/hustvl/featurized-queryrcnn}中获得。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译
Deep convolutional neutral networks have achieved great success on image recognition tasks. Yet, it is nontrivial to transfer the state-of-the-art image recognition networks to videos as per-frame evaluation is too slow and unaffordable. We present deep feature flow, a fast and accurate framework for video recognition. It runs the expensive convolutional sub-network only on sparse key frames and propagates their deep feature maps to other frames via a flow field. It achieves significant speedup as flow computation is relatively fast. The end-to-end training of the whole architecture significantly boosts the recognition accuracy. Deep feature flow is flexible and general. It is validated on two video datasets on object detection and semantic segmentation. It significantly advances the practice of video recognition tasks. Code is released at https:// github.com/msracver/Deep-Feature-Flow.
translated by 谷歌翻译
我们提出了streamDeq,这是一种以最小为每片计算的视频中框架表示的方法。与传统方法至少随着网络深度线性线性增长的常规方法相反,我们旨在以连续的方式更新表示形式。为此,我们利用最近出现的隐式层模型,该模型通过解决固定点问题来扩展图像的表示。我们的主要见解是利用视频的缓慢变化,并使用先前的框架表示作为每个帧的初始条件。该方案有效地回收了最近的推理计算,并大大减少了所需的处理时间。通过广泛的实验分析,我们表明StreamDeq能够在几个帧时间内恢复近乎最佳的表示形式,并在整个视频持续时间内保持最新的表示。我们在视频语义细分和视频对象检测方面进行的实验表明,StreamDeq以基线(标准MDEQ)的准确度达到了准确性,而$ 3 \ times $ $ abter $ abter的$ 3。项目页面可在以下网址获得:https://ufukertenli.github.io/streamdeq/
translated by 谷歌翻译
视频实例分割(VIS)是一个新的固有多任务问题,旨在在视频序列中检测,细分和跟踪每个实例。现有方法主要基于单帧功能或多个帧的单尺度功能,其中忽略了时间信息或多尺度信息。为了结合时间和比例信息,我们提出了一种时间金字塔路由(TPR)策略,以从两个相邻帧的特征金字塔对有条件地对齐和进行像素级聚集。具体而言,TPR包含两个新的组件,包括动态对齐细胞路由(DACR)和交叉金字塔路由(CPR),其中DACR设计用于跨时间维度对齐和门控金字塔特征,而CPR则在跨音阶范围内暂时汇总的特征。此外,我们的方法是轻巧和插件模块,可以轻松地应用于现有的实例分割方法。在包括YouTube-Vis(2019,2021)和CityScapes-VP在内的三个数据集上进行的广泛实验证明了拟议方法对几种最先进的视频实例和全盘细分方法的有效性和效率。代码将在\ url {https://github.com/lxtgh/temporalpyramidrouting}上公开获得。
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
DETR has been recently proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance. However, it suffers from slow convergence and limited feature spatial resolution, due to the limitation of Transformer attention modules in processing image feature maps. To mitigate these issues, we proposed Deformable DETR, whose attention modules only attend to a small set of key sampling points around a reference. Deformable DETR can achieve better performance than DETR (especially on small objects) with 10× less training epochs. Extensive experiments on the COCO benchmark demonstrate the effectiveness of our approach. Code is released at https:// github.com/fundamentalvision/Deformable-DETR.
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
对象的时间建模是多个对象跟踪(MOT)的关键挑战。现有方法通过通过基于运动和基于外观的相似性启发式方法关联检测来跟踪。关联的后处理性质阻止了视频序列中时间变化的端到端。在本文中,我们提出了MOTR,它扩展了DETR并介绍了轨道查询,以模拟整个视频中的跟踪实例。轨道查询被转移并逐帧更新,以随着时间的推移执行迭代预测。我们提出了曲目感知的标签分配,以训练轨道查询和新生儿对象查询。我们进一步提出了时间聚集网络和集体平均损失,以增强时间关系建模。 Dancetrack上的实验结果表明,MOTR在HOTA度量方面的表现明显优于最先进的方法,字节范围为6.5%。在MOT17上,MOTR在关联性能方面优于我们的并发作品,跟踪器和Transtrack。 MOTR可以作为对时间建模和基于变压器的跟踪器的未来研究的更强基线。代码可在https://github.com/megvii-research/motr上找到。
translated by 谷歌翻译
时间动作检测(TAD)旨在确定未修剪视频中每个动作实例的语义标签和边界。先前的方法通过复杂的管道来解决此任务。在本文中,我们提出了一个具有简单集的预测管道的端到端时间动作检测变压器(TADTR)。给定一组名为“动作查询”的可学习嵌入,Tadtr可以从每个查询的视频中自适应提取时间上下文,并直接预测动作实例。为了适应TAD的变压器,我们提出了三个改进,以提高其所在地意识。核心是一个时间可变形的注意模块,在视频中有选择地参加一组稀疏的密钥片段。片段的完善机制和动作回归头旨在完善预测实例的边界和信心。 TADTR需要比以前的检测器更低的计算成本,同时保留了出色的性能。作为一个独立的检测器,它在Thumos14(56.7%地图)和HACS段(32.09%地图)上实现了最先进的性能。结合一个额外的动作分类器,它在ActivityNet-1.3上获得了36.75%的地图。我们的代码可在\ url {https://github.com/xlliu7/tadtr}上获得。
translated by 谷歌翻译
数据冗余在深神经网络(DNN)的输入和中间结果中无处不在。它为提高DNN性能和效率提供了许多重要的机会,并在大量工作中探索了。这些研究在几年中都在许多场所散布。他们关注的目标范围从图像到视频和文本,以及他们用于检测和利用数据冗余的技术在许多方面也有所不同。尚无对许多努力进行系统的检查和摘要,使研究人员很难对先前的工作,最新技术,差异和共享原则以及尚未探索的领域和方向进行全面看法。本文试图填补空白。它调查了有关该主题的数百篇论文,引入了一种新颖的分类法,以将各种技术纳入一个单一的分类框架,对用于利用数据冗余的主要方法进行了全面描述,以改善数据的多种DNN,并指出一组未来探索的研究机会。
translated by 谷歌翻译