在体育视频中跟踪多个运动员是一项非常具有挑战性的多对象跟踪(MOT)任务,因为运动员通常具有相同的外观并且彼此密切相同,因此使常见的遮挡问题成为一个令人讨厌的重复检测。在本文中,重复检测是新的,精确地定义为闭塞,通过一帧在多个检测箱上在同一运动员上误会。为了解决这个问题,我们精心设计了一种基于变压器的新型副本检测器(d $^3 $),用于培训,以及一种特定的算法拉力赛 - 亨加利亚(RH)进行匹配。一旦发生重复检测,D $^3 $立即通过生成增强框损耗来修改过程。由团队运动替代规则触发的RH极为适合体育视频。此外,为了补充没有拍摄更改的跟踪数据集,我们根据名为RallyTrack的体育视频发布了一个新数据集。在RallyTrack上进行了广泛的实验表明,将D $^3 $和RH结合起来,可以通过MOTA中的9.2和4.5在Hota中大幅提高跟踪性能。同时,关于Mot系列和Dancetrack的实验发现,D $^3 $可以在训练过程中加速融合,尤其是在MOT17上节省多达80%的原始培训时间。最后,我们的模型只能通过排球视频进行培训,可以直接应用于MAT的篮球和足球视频,该视频显示了我们方法的优先级。我们的数据集可从https://github.com/heruihr/rallytrack获得。
translated by 谷歌翻译
对象运动和对象外观是多个对象跟踪(MOT)应用中的常用信息,用于将帧跨越帧的检测相关联,或用于联合检测和跟踪方法的直接跟踪预测。然而,不仅是这两种类型的信息通常是单独考虑的,而且它们也没有帮助直接从当前感兴趣帧中使用视觉信息的用法。在本文中,我们提出了PatchTrack,一种基于变压器的联合检测和跟踪系统,其使用当前感兴趣的帧帧的曲线预测曲目。我们使用卡尔曼滤波器从前一帧预测当前帧中的现有轨道的位置。从预测边界框裁剪的补丁被发送到变压器解码器以推断新曲目。通过利用在补丁中编码的对象运动和对象外观信息,所提出的方法将更多地关注新曲目更有可能发生的位置。我们展示了近期MOT基准的Patchtrack的有效性,包括MOT16(MOTA 73.71%,IDF1 65.77%)和MOT17(MOTA 73.59%,IDF1 65.23%)。结果在https://motchallenge.net/method/mot=4725&chl=10上发布。
translated by 谷歌翻译
多目标跟踪(MOT)的典型管道是使用探测器进行对象本地化,并在重新识别(RE-ID)之后进行对象关联。该管道通过对象检测和重新ID的最近进展部分而部分地激励,并且部分地通过现有的跟踪数据集中的偏差激励,其中大多数物体倾向于具有区分外观和RE-ID模型足以建立关联。为了响应这种偏见,我们希望重新强调多目标跟踪的方法也应该在对象外观不充分辨别时起作用。为此,我们提出了一个大型数据集,用于多人跟踪,人类具有相似的外观,多样化的运动和极端关节。由于数据集包含主要组跳舞视频,我们将其命名为“DanceTrack”。我们预计DanceTrack可以提供更好的平台,以开发更多的MOT算法,这些算法依赖于视觉识别并更依赖于运动分析。在我们的数据集上,我们在数据集上基准测试了几个最先进的追踪器,并在与现有基准测试中遵守DanceTrack的显着性能下降。 DataSet,项目代码和竞争服务器播放:\ url {https://github.com/danceTrack}。
translated by 谷歌翻译
由于卷积神经网络(CNN)在过去的十年中检测成功,多对象跟踪(MOT)通过检测方法的使用来控制。随着数据集和基础标记网站的发布,研究方向已转向在跟踪时在包括重新识别对象的通用场景(包括重新识别(REID))上的最佳准确性。在这项研究中,我们通过提供专用的行人数据集并专注于对性能良好的多对象跟踪器的深入分析来缩小监视的范围)现实世界应用的技术。为此,我们介绍SOMPT22数据集;一套新的,用于多人跟踪的新套装,带有带注释的简短视频,该视频从位于杆子上的静态摄像头捕获,高度为6-8米,用于城市监视。与公共MOT数据集相比,这提供了室外监视的MOT的更为集中和具体的基准。我们分析了该新数据集上检测和REID网络的使用方式,分析了将MOT跟踪器分类为单发和两阶段。我们新数据集的实验结果表明,SOTA远非高效率,而单一跟踪器是统一快速执行和准确性的良好候选者,并具有竞争性的性能。该数据集将在以下网址提供:sompt22.github.io
translated by 谷歌翻译
对象的时间建模是多个对象跟踪(MOT)的关键挑战。现有方法通过通过基于运动和基于外观的相似性启发式方法关联检测来跟踪。关联的后处理性质阻止了视频序列中时间变化的端到端。在本文中,我们提出了MOTR,它扩展了DETR并介绍了轨道查询,以模拟整个视频中的跟踪实例。轨道查询被转移并逐帧更新,以随着时间的推移执行迭代预测。我们提出了曲目感知的标签分配,以训练轨道查询和新生儿对象查询。我们进一步提出了时间聚集网络和集体平均损失,以增强时间关系建模。 Dancetrack上的实验结果表明,MOTR在HOTA度量方面的表现明显优于最先进的方法,字节范围为6.5%。在MOT17上,MOTR在关联性能方面优于我们的并发作品,跟踪器和Transtrack。 MOTR可以作为对时间建模和基于变压器的跟踪器的未来研究的更强基线。代码可在https://github.com/megvii-research/motr上找到。
translated by 谷歌翻译
多对象跟踪(MOT)的目标是检测和跟踪场景中的所有对象,同时为每个对象保留唯一的标识符。在本文中,我们提出了一种新的可靠的最新跟踪器,该跟踪器可以结合运动和外观信息的优势,以及摄像机运动补偿以及更准确的Kalman滤波器状态矢量。我们的新跟踪器在Mot17和Mot20测试集的Motchallenge [29,11]的数据集[29,11]中,Bot-Sort-Reid排名第一,就所有主要MOT指标而言:MOTA,IDF1和HOTA。对于Mot17:80.5 Mota,80.2 IDF1和65.0 HOTA。源代码和预培训模型可在https://github.com/niraharon/bot-sort上找到
translated by 谷歌翻译
3D多对象跟踪(MOT)确保在连续动态检测过程中保持一致性,有利于自动驾驶中随后的运动计划和导航任务。但是,基于摄像头的方法在闭塞情况下受到影响,准确跟踪基于激光雷达的方法的对象的不规则运动可能是具有挑战性的。某些融合方法效果很好,但不认为在遮挡下出现外观特征的不可信问题。同时,错误检测问题也显着影响跟踪。因此,我们根据组合的外观运动优化(Camo-Mot)提出了一种新颖的相机融合3D MOT框架,该框架使用相机和激光镜数据,并大大减少了由遮挡和错误检测引起的跟踪故障。对于遮挡问题,我们是第一个提出遮挡头来有效地选择最佳对象外观的人,从而减少了闭塞的影响。为了减少错误检测在跟踪中的影响,我们根据置信得分设计一个运动成本矩阵,从而提高了3D空间中的定位和对象预测准确性。由于现有的多目标跟踪方法仅考虑一个类别,因此我们还建议建立多类损失,以在多类别场景中实现多目标跟踪。在Kitti和Nuscenes跟踪基准测试上进行了一系列验证实验。我们提出的方法在KITTI测试数据集上的所有多模式MOT方法中实现了最先进的性能和最低的身份开关(IDS)值(CAR为23,行人为137)。并且我们提出的方法在Nuscenes测试数据集上以75.3%的AMOTA进行了所有算法中的最新性能。
translated by 谷歌翻译
近年来,多个对象跟踪引起了研究人员的极大兴趣,它已成为计算机视觉中的趋势问题之一,尤其是随着自动驾驶的最新发展。 MOT是针对不同问题的关键视觉任务之一,例如拥挤的场景中的闭塞,相似的外观,小物体检测难度,ID切换等,以应对这些挑战,因为研究人员试图利用变压器的注意力机制,与田径的相互关系,与田径的相互关系,图形卷积神经网络,与暹罗网络不同帧中对象的外观相似性,他们还尝试了基于IOU匹配的CNN网络,使用LSTM的运动预测。为了将这些零散的技术在雨伞下采用,我们研究了过去三年发表的一百多篇论文,并试图提取近代研究人员更关注的技术来解决MOT的问题。我们已经征集了许多应用,可能性以及MOT如何与现实生活有关。我们的评论试图展示研究人员使用过时的技术的不同观点,并为潜在的研究人员提供了一些未来的方向。此外,我们在这篇评论中包括了流行的基准数据集和指标。
translated by 谷歌翻译
Multi-animal tracking (MAT), a multi-object tracking (MOT) problem, is crucial for animal motion and behavior analysis and has many crucial applications such as biology, ecology and animal conservation. Despite its importance, MAT is largely under-explored compared to other MOT problems such as multi-human tracking due to the scarcity of dedicated benchmarks. To address this problem, we introduce AnimalTrack, a dedicated benchmark for multi-animal tracking in the wild. Specifically, AnimalTrack consists of 58 sequences from a diverse selection of 10 common animal categories. On average, each sequence comprises of 33 target objects for tracking. In order to ensure high quality, every frame in AnimalTrack is manually labeled with careful inspection and refinement. To our best knowledge, AnimalTrack is the first benchmark dedicated to multi-animal tracking. In addition, to understand how existing MOT algorithms perform on AnimalTrack and provide baselines for future comparison, we extensively evaluate 14 state-of-the-art representative trackers. The evaluation results demonstrate that, not surprisingly, most of these trackers become degenerated due to the differences between pedestrians and animals in various aspects (e.g., pose, motion, and appearance), and more efforts are desired to improve multi-animal tracking. We hope that AnimalTrack together with evaluation and analysis will foster further progress on multi-animal tracking. The dataset and evaluation as well as our analysis will be made available at https://hengfan2010.github.io/projects/AnimalTrack/.
translated by 谷歌翻译
作为计算机视觉的重要领域,对象跟踪形成了两个独立的社区,分别研究单个对象跟踪(SOT)和多个对象跟踪(MOT)。但是,由于两个任务的不同训练数据集和跟踪对象,因此在一个跟踪方案中的当前方法不容易适应另一种方法。尽管unitrack \ cite {wang2021Diverent}表明,具有多个头部的共享外观模型可用于处理单个跟踪任务,但它无法利用大规模跟踪数据集进行训练,并且在单个对象跟踪上执行良好的训练。在这项工作中,我们提出了统一的变压器跟踪器(UTT),以通过一个范式在不同方案中解决跟踪问题。在我们的UTT中开发了轨道变压器,以跟踪SOT和MOT中的目标。利用目标和跟踪框架功能之间的相关性以定位目标。我们证明SOT和MOT任务都可以在此框架内解决。该模型可以同时通过在单个任务数据集中优化SOT和MOT目标,同时端到端训练。广泛的实验是在几个基准测试基准上进行的,该基准具有在SOT和MOT数据集上训练的统一模型。代码将在https://github.com/flowerfan/trackron上找到。
translated by 谷歌翻译
Tracking has traditionally been the art of following interest points through space and time. This changed with the rise of powerful deep networks. Nowadays, tracking is dominated by pipelines that perform object detection followed by temporal association, also known as tracking-by-detection. We present a simultaneous detection and tracking algorithm that is simpler, faster, and more accurate than the state of the art. Our tracker, CenterTrack, applies a detection model to a pair of images and detections from the prior frame. Given this minimal input, CenterTrack localizes objects and predicts their associations with the previous frame. That's it. CenterTrack is simple, online (no peeking into the future), and real-time. It achieves 67.8% MOTA on the MOT17 challenge at 22 FPS and 89.4% MOTA on the KITTI tracking benchmark at 15 FPS, setting a new state of the art on both datasets. CenterTrack is easily extended to monocular 3D tracking by regressing additional 3D attributes. Using monocular video input, it achieves 28.3% AMOTA@0.2 on the newly released nuScenes 3D tracking benchmark, substantially outperforming the monocular baseline on this benchmark while running at 28 FPS.
translated by 谷歌翻译
为了克服多个对象跟踪任务中的挑战,最近的算法将交互线索与运动和外观特征一起使用。这些算法使用图形神经网络或变压器来提取导致高计算成本的交互功能。在本文中,提出了一种基于几何特征的新型交互提示,旨在检测遮挡和重新识别计算成本低的丢失目标。此外,在大多数算法中,摄像机运动被认为可以忽略不计,这是一个强有力的假设,并不总是正确的,并且导致目标转换或目标不匹配。在本文中,提出了一种测量相机运动和删除其效果的方法,可有效地降低相机运动对跟踪的影响。该算法在MOT17和MOT20数据集上进行了评估,并在MOT20上实现了MOT17的最先进性能和可比较的结果。该代码也可以公开使用。
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
The recent trend in multiple object tracking (MOT) is jointly solving detection and tracking, where object detection and appearance feature (or motion) are learned simultaneously. Despite competitive performance, in crowded scenes, joint detection and tracking usually fail to find accurate object associations due to missed or false detections. In this paper, we jointly model counting, detection and re-identification in an end-to-end framework, named CountingMOT, tailored for crowded scenes. By imposing mutual object-count constraints between detection and counting, the CountingMOT tries to find a balance between object detection and crowd density map estimation, which can help it to recover missed detections or reject false detections. Our approach is an attempt to bridge the gap of object detection, counting, and re-Identification. This is in contrast to prior MOT methods that either ignore the crowd density and thus are prone to failure in crowded scenes, or depend on local correlations to build a graphical relationship for matching targets. The proposed MOT tracker can perform online and real-time tracking, and achieves the state-of-the-art results on public benchmarks MOT16 (MOTA of 77.6), MOT17 (MOTA of 78.0%) and MOT20 (MOTA of 70.2%).
translated by 谷歌翻译
我们提出了一种称为独角兽的统一方法,可以使用相同的模型参数同时使用单个网络解决四个跟踪问题(SOT,MOT,VOS,MOTS)。由于对象跟踪问题本身的定义零散,因此开发了大多数现有的跟踪器来解决任务的单个或一部分,并过分地对特定任务的特征进行了专业化。相比之下,Unicorn提供了一个统一的解决方案,在所有跟踪任务中采用相同的输入,骨干,嵌入和头部。我们第一次完成了跟踪网络体系结构和学习范式的巨大统一。Unicorn在8个跟踪数据集中的特定于任务特定的对应物(包括Lasot,TrackingNet,Mot17,BDD100K,Davis16-17,MOTS20和BDD100K MOT)在PAR上或更好的对应物。我们认为,独角兽将是朝着一般视觉模型迈出的坚实一步。代码可从https://github.com/masterbin-iiau/unicorn获得。
translated by 谷歌翻译
不同对象之间的闭塞是多对象跟踪(MOT)中的典型挑战,这通常导致由于丢失的检测到的对象导致较差的跟踪结果。多对象跟踪中的常见做法是重新识别出现后的错过对象。虽然重新识别可以提高跟踪性能,但是需要培训型号的身份的注释。此外,这种重新识别的做法仍然不能在探测器错过时跟踪那些高度遮挡的物体。在本文中,我们专注于在线多目标跟踪和设计两种新颖的模块,无监督的重新识别学习模块和遮挡估计模块,处理这些问题。具体地,所提出的无监督重新识别学习模块不需要任何(伪)身份信息,也不需要缩放性问题。所提出的遮挡估计模块尝试预测闭塞发生的位置,其用于估计探测器错过对象的位置。我们的研究表明,当应用于最先进的MOT方法时,所提出的无监督的重新识别学习与监督重新识别学习相当,并且通过所提出的遮挡估计模块进一步改善了跟踪性能。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
The problem of tracking multiple objects in a video sequence poses several challenging tasks. For tracking-bydetection, these include object re-identification, motion prediction and dealing with occlusions. We present a tracker (without bells and whistles) that accomplishes tracking without specifically targeting any of these tasks, in particular, we perform no training or optimization on tracking data. To this end, we exploit the bounding box regression of an object detector to predict the position of an object in the next frame, thereby converting a detector into a Tracktor. We demonstrate the potential of Tracktor and provide a new state-of-the-art on three multi-object tracking benchmarks by extending it with a straightforward re-identification and camera motion compensation.We then perform an analysis on the performance and failure cases of several state-of-the-art tracking methods in comparison to our Tracktor. Surprisingly, none of the dedicated tracking methods are considerably better in dealing with complex tracking scenarios, namely, small and occluded objects or missing detections. However, our approach tackles most of the easy tracking scenarios. Therefore, we motivate our approach as a new tracking paradigm and point out promising future research directions. Overall, Tracktor yields superior tracking performance than any current tracking method and our analysis exposes remaining and unsolved tracking challenges to inspire future research directions.
translated by 谷歌翻译
3D多对象跟踪(MOT)近年来目睹了众多新颖的基准和方法,尤其是那些在“逐侦测”范式下的基准。尽管他们的进步和有用,但对他们的优势和劣势的深入分析尚不可用。在本文中,我们通过将它们分解为四个组成部分来总结当前的3D MOL方法:检测,关联,运动模型和生命周期管理的预处理。然后,我们将现有算法的故障情况归因于每个组件并详细研究它们。基于分析,我们提出了相应的改进,导致强大但简单的基线:简单进展。 Waymo Open DataSet和Nuscenes上的综合实验结果表明,我们的最终方法可以通过微小的修改来实现新的最先进的结果。此外,我们采取额外的步骤并重新思考当前的基准面是否真实地反映了真实挑战的算法能力。我们深入了解现有基准的细节,并找到一些有趣的事实。最后,我们分析了\ name \中剩余失败的分布和原因,并提出了3D MOT的未来方向。我们的代码可在https://github.com/tusimple/simpletrack获得。
translated by 谷歌翻译
视频中的多目标跟踪需要解决相邻帧中对象之间一对一分配的基本问题。大多数方法通过首先丢弃不可能的对距离大于阈值的不可能对解决问题,然后使用匈牙利算法将对象链接起来以最大程度地减少整体距离。但是,我们发现从重新ID特征计算出的距离的分布可能在不同的视频中有很大差异。因此,没有一个最佳阈值可以使我们安全丢弃不可能的对。为了解决该问题,我们提出了一种有效的方法来实时计算每对对象的边际概率。边际概率可以视为标准化距离,比原始特征距离明显稳定。结果,我们可以为所有视频使用一个阈值。该方法是一般的,可以应用于现有的跟踪器,以在IDF1度量方面获得大约一个点改进。它在MOT17和MOT20基准上取得了竞争成果。此外,计算的概率更容易解释,从而有助于后续后期处理操作。
translated by 谷歌翻译