The paper presents a multi-camera tracking method intended for tracking soccer players in long shot video recordings from multiple calibrated cameras installed around the playing field. The large distance to the camera makes it difficult to visually distinguish individual players, which adversely affects the performance of traditional solutions relying on the appearance of tracked objects. Our method focuses on individual player dynamics and interactions between neighborhood players to improve tracking performance. To overcome the difficulty of reliably merging detections from multiple cameras in the presence of calibration errors, we propose the novel tracking approach, where the tracker operates directly on raw detection heat maps from multiple cameras. Our model is trained on a large synthetic dataset generated using Google Research Football Environment and fine-tuned using real-world data to reduce costs involved with ground truth preparation.
translated by 谷歌翻译
跟踪和识别玩家是基于计算机视觉冰球分析的基本步骤。跟踪生成的数据用于许多其他下游任务,例如游戏事件检测和游戏策略分析。播放器跟踪和识别是一个具有挑战性的问题,因为与行人相比,曲棍球运动员的运动是快节奏和非线性的。还有显着的摄像头淘气和放大曲棍球广播视频。识别冰球中的玩家是挑战,因为同一团队的球员几乎相同,泽西号码是玩家之间唯一的鉴别因素。本文介绍了一种用于跟踪和识别广播NHL曲棍球视频中的玩家的自动化系统。该系统由三个组件(1)播放器跟踪组成,(2)团队识别和(3)播放器识别。由于没有公开可用的数据集,用于培训三个组件的数据集手动注释。利用艺术跟踪算法的状态来执行播放器跟踪,从而获得多目标跟踪精度(MOTA)得分为94.5%。对于团队识别,Away-Team Jerseys被分组为单一课程,并根据他们的泽西颜色在课堂上分组。然后在团队识别数据集上培训卷积神经网络。团队识别网络在测试集中获得97%的准确性。引入了一种新颖的播放器识别模型,其利用时间一维卷积网络来识别来自玩家边界框序列的玩家。播放器识别模型进一步利用了可用的NHL游戏名册数据,以获得83%的玩家识别精度。
translated by 谷歌翻译
近年来,多个对象跟踪引起了研究人员的极大兴趣,它已成为计算机视觉中的趋势问题之一,尤其是随着自动驾驶的最新发展。 MOT是针对不同问题的关键视觉任务之一,例如拥挤的场景中的闭塞,相似的外观,小物体检测难度,ID切换等,以应对这些挑战,因为研究人员试图利用变压器的注意力机制,与田径的相互关系,与田径的相互关系,图形卷积神经网络,与暹罗网络不同帧中对象的外观相似性,他们还尝试了基于IOU匹配的CNN网络,使用LSTM的运动预测。为了将这些零散的技术在雨伞下采用,我们研究了过去三年发表的一百多篇论文,并试图提取近代研究人员更关注的技术来解决MOT的问题。我们已经征集了许多应用,可能性以及MOT如何与现实生活有关。我们的评论试图展示研究人员使用过时的技术的不同观点,并为潜在的研究人员提供了一些未来的方向。此外,我们在这篇评论中包括了流行的基准数据集和指标。
translated by 谷歌翻译
图提供了一种自然的方式来制定多个对象跟踪(MOT)和多个对象跟踪和分割(MOTS),逐个检测范式中。但是,他们还引入了学习方法的主要挑战,因为定义可以在这种结构化领域运行的模型并不是微不足道的。在这项工作中,我们利用MOT的经典网络流程公式来定义基于消息传递网络(MPN)的完全微分框架。通过直接在图形域上操作,我们的方法可以在整个检测和利用上下文特征上全球推理。然后,它共同预测了数据关联问题的最终解决方案和场景中所有对象的分割掩码,同时利用这两个任务之间的协同作用。我们在几个公开可用的数据集中获得跟踪和细分的最新结果。我们的代码可在github.com/ocetintas/mpntrackseg上找到。
translated by 谷歌翻译
大多数(3D)多对象跟踪方法依赖于数据关联的外观提示。相比之下,我们研究了仅通过编码3D空间中对象之间的几何关系作为数据驱动数据关联的线索,我们才能达到多远。我们将3D检测编码为图中的节点,其中对象之间的空间和时间成对关系是通过图边缘上的局部极性坐标编码的。这种表示使我们的几何关系不变到全球变换和平滑的轨迹变化,尤其是在非全面运动下。这使我们的图形神经网络可以学会有效地编码时间和空间交互,并充分利用上下文和运动提示,以通过将数据关联作为边缘分类来获得最终场景解释。我们在Nuscenes数据集上建立了一个新的最先进的方法,更重要的是,我们的方法在不同位置(波士顿,新加坡,Karlsruhe)和数据集(Nuscenes和Kitti)中跨越了我们的方法。
translated by 谷歌翻译
多摄像机跟踪系统在需要高质量跟踪结果的应用中获得普及,例如摩擦结账,因为单眼多物体跟踪(MOT)系统由于闭塞而在杂乱和拥挤的环境中经常失败。通过恢复部分3D信息,多个高度重叠的相机可以显着减轻问题。但是,使用不同的相机设置和背景创建高质量多摄像头跟踪数据集的成本在该域中的数据集比例限制了数据集尺度。在本文中,我们在自动注释系统的帮助下提供了五种不同环境的大型密集标记的多摄像头跟踪数据集。该系统使用重叠和校准的深度和RGB相机来构建高性能3D跟踪器,可自动生成3D跟踪结果。使用摄像机参数将3D跟踪结果投影到每个RGB摄像头视图以创建2D跟踪结果。然后,我们手动检查并更正3D跟踪结果以确保标签质量,比完全手动注释便宜得多。我们使用两个实时多相机跟踪器和具有不同设置的人重新识别(REID)模型进行了广泛的实验。该数据集在杂乱和拥挤的环境中提供了更可靠的多摄像头,多目标跟踪系统的基准。此外,我们的结果表明,在此数据集中调整跟踪器和REID模型显着提高了它们的性能。我们的数据集将在接受这项工作后公开发布。
translated by 谷歌翻译
该技术报告描述了在Robocup SPL(Mario)中计算视觉统计的模块化且可扩展的体系结构,该结构在Robocup 2022的SPL Open Research Challenge期间提出,该挑战在曼谷(泰国)举行。马里奥(Mario)是一个开源的,可用的软件应用程序,其最终目标是为Robocup SPL社区的发展做出贡献。Mario带有一个GUI,该GUI集成了多个机器学习和基于计算机视觉的功能,包括自动摄像机校准,背景减法,同型计算,玩家 +球跟踪和本地化,NAO机器人姿势估计和跌落检测。马里奥(Mario)被排名第一。1在开放研究挑战中。
translated by 谷歌翻译
多摄像机多对象跟踪目前在计算机视野中引起了注意力,因为它在现实世界应用中的卓越性能,如具有拥挤场景或巨大空间的视频监控。在这项工作中,我们提出了一种基于空间升降的多乳制型配方的数学上优雅的多摄像多对象跟踪方法。我们的模型利用单摄像头跟踪器产生的最先进的TOOTWLET作为提案。由于这些Tracklet可能包含ID-Switch错误,因此我们通过从3D几何投影获得的新型预簇来完善它们。因此,我们派生了更好的跟踪图,没有ID交换机,更精确的数据关联阶段的亲和力成本。然后通过求解全局提升的多乳制型制剂,将轨迹与多摄像机轨迹匹配,该组件包含位于同一相机和相互相机间的Tracklet上的短路和远程时间交互。在Wildtrack DataSet的实验结果是近乎完美的结果,在校园上表现出最先进的追踪器,同时在PETS-09数据集上处于校准状态。我们将在接受纸质时进行我们的实施。
translated by 谷歌翻译
Existing Multiple Object Tracking (MOT) methods design complex architectures for better tracking performance. However, without a proper organization of input information, they still fail to perform tracking robustly and suffer from frequent identity switches. In this paper, we propose two novel methods together with a simple online Message Passing Network (MPN) to address these limitations. First, we explore different integration methods for the graph node and edge embeddings and put forward a new IoU (Intersection over Union) guided function, which improves long term tracking and handles identity switches. Second, we introduce a hierarchical sampling strategy to construct sparser graphs which allows to focus the training on more difficult samples. Experimental results demonstrate that a simple online MPN with these two contributions can perform better than many state-of-the-art methods. In addition, our association method generalizes well and can also improve the results of private detection based methods.
translated by 谷歌翻译
Tracking has traditionally been the art of following interest points through space and time. This changed with the rise of powerful deep networks. Nowadays, tracking is dominated by pipelines that perform object detection followed by temporal association, also known as tracking-by-detection. We present a simultaneous detection and tracking algorithm that is simpler, faster, and more accurate than the state of the art. Our tracker, CenterTrack, applies a detection model to a pair of images and detections from the prior frame. Given this minimal input, CenterTrack localizes objects and predicts their associations with the previous frame. That's it. CenterTrack is simple, online (no peeking into the future), and real-time. It achieves 67.8% MOTA on the MOT17 challenge at 22 FPS and 89.4% MOTA on the KITTI tracking benchmark at 15 FPS, setting a new state of the art on both datasets. CenterTrack is easily extended to monocular 3D tracking by regressing additional 3D attributes. Using monocular video input, it achieves 28.3% AMOTA@0.2 on the newly released nuScenes 3D tracking benchmark, substantially outperforming the monocular baseline on this benchmark while running at 28 FPS.
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
基于LIDAR的3D对象检测的先前工作主要集中在单帧范式上。在本文中,我们建议通过利用多个帧的时间信息(即点云视频)来检测3D对象。我们从经验上将时间信息分为短期和长期模式。为了编码短期数据,我们提出了一个网格消息传递网络(GMPNET),该网络将每个网格(即分组点)视为节点,并用邻居网格构造K-NN图。为了更新网格的功能,gmpnet迭代从其邻居那里收集信息,从而从附近的框架中挖掘了运动提示。为了进一步汇总长期框架,我们提出了一个细心的时空变压器GRU(AST-GRU),其中包含空间变压器注意(STA)模块和颞变压器注意(TTA)模块。 STA和TTA增强了香草gru,以专注于小物体并更好地对齐运动对象。我们的整体框架支持点云中的在线和离线视频对象检测。我们基于普遍的基于锚和锚的探测器实现算法。关于挑战性的Nuscenes基准的评估结果显示了我们方法的出色表现,在提交论文时,在没有任何铃铛和哨声的情况下在排行榜上获得了第一个。
translated by 谷歌翻译
随着对象检测和重新识别的发展,对人类的多对象跟踪已迅速改善。但是,即使对于最先进的跟踪算法,对具有相似外观和非线性运动的人类的多演员跟踪仍然非常具有挑战性。当前基于运动的跟踪算法通常使用Kalman滤波器来预测对象的运动,但是,当目标不线性移动时,其线性运动假设可能会导致跟踪失败。对于在运动场上跟踪的多玩家来说,因为同一团队中的球员通常穿着相同的球衣,因此在短期和长期跟踪过程中,重新识别甚至更加困难。在这项工作中,我们提出了一种基于运动的跟踪算法和三个针对三项运动在内的后处理管道,包括篮球,足球和排球,我们成功地处理了运动场上球员非线性运动的跟踪。实验导致ECCV DeeperAction挑战的测试集SportsMot数据集证明了我们的方法的有效性,该方法的有效性为73.968,在2022年2022年SportsMot Workshop最终排行榜上排名第三。
translated by 谷歌翻译
We introduce a novel framework to track multiple objects in overhead camera videos for airport checkpoint security scenarios where targets correspond to passengers and their baggage items. We propose a Self-Supervised Learning (SSL) technique to provide the model information about instance segmentation uncertainty from overhead images. Our SSL approach improves object detection by employing a test-time data augmentation and a regression-based, rotation-invariant pseudo-label refinement technique. Our pseudo-label generation method provides multiple geometrically-transformed images as inputs to a Convolutional Neural Network (CNN), regresses the augmented detections generated by the network to reduce localization errors, and then clusters them using the mean-shift algorithm. The self-supervised detector model is used in a single-camera tracking algorithm to generate temporal identifiers for the targets. Our method also incorporates a multi-view trajectory association mechanism to maintain consistent temporal identifiers as passengers travel across camera views. An evaluation of detection, tracking, and association performances on videos obtained from multiple overhead cameras in a realistic airport checkpoint environment demonstrates the effectiveness of the proposed approach. Our results show that self-supervision improves object detection accuracy by up to $42\%$ without increasing the inference time of the model. Our multi-camera association method achieves up to $89\%$ multi-object tracking accuracy with an average computation time of less than $15$ ms.
translated by 谷歌翻译
在本文中,我们通过预测其未来的3D表示,提出了一种追踪单眼视频中的人员的方法。为实现这一目标,我们首先以强大的方式从一个框架举起人们3D。这一提升包括关于人的3D姿势的信息,他或她在3D空间中的位置,以及3D外观。当我们跟踪一个人时,我们在托管表示中收集3D观察。鉴于我们观察的3D性质,我们为以前的每个属性建立了时间模型。我们使用这些模型来预测Tracklet的未来状态,包括3D位置,3D外观和3D姿势。对于未来的帧,我们以概率的方式计算轨迹的预测状态与单帧观测之间的相似性。使用简单的匈牙利匹配解决了关联,并且匹配用于更新相应的Tracklet。我们评估我们在各种基准和报告最先进的结果上的方法。
translated by 谷歌翻译
改进的多视图聚合是多视图行人检测不可或缺的一部分,该检测旨在从通过一组校准摄像机捕获的图像中获得鸟类视图的行人占用图。受到深度神经网络的关注模块成功的启发,我们首先提出了一个同构型注意模块(HAM),该模块通过利用新颖的通道门和空间门来提高现有端到端多视图检测方法的性能。此外,我们提出了Booster-Shot,这是一种端到端的卷积方法,用于纳入我们所提出的HAM以及先前方法的元素,例如视图增强或堆叠的固有变换。在Wildtrack和Multiviewx上,Moda的助推器射击分别达到92.9%和94.2%,在Wildtrack上的表现优于最先进的1.4%,在Multiviewx上,胜过0.5%多视图行人检测中使用的指标。
translated by 谷歌翻译
Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models will be made available.
translated by 谷歌翻译
我们提出了一种新型的图形神经网络(GNN)方法,用于高通量显微镜视频中的细胞跟踪。通过将整个延时序列建模为直接图,其中细胞实例由其节点及其边缘表示,我们通过查找图中的最大路径来提取整个细胞轨迹。这是由纳入端到端深度学习框架中的几个关键贡献来完成的。我们利用深度度量学习算法来提取细胞特征向量,以区分不同生物细胞的实例并组装相同的细胞实例。我们引入了一种新的GNN块类型,该类型可以对节点和边缘特征向量进行相互更新,从而促进基础消息传递过程。消息传递概念的范围由GNN块的数量确定,这是至关重要的,因为它可以在连续的框架中实现节点和边缘之间的“节点和边缘”之间的“流动”。最后,我们解决了边缘分类问题,并使用已确定的活动边缘来构建单元格的轨道和谱系树。我们通过将其应用于不同细胞类型,成像设置和实验条件的2D和3D数据集,来证明所提出的细胞跟踪方法的强度。我们表明,我们的框架在大多数评估的数据集上都优于当前最新方法。该代码可在我们的存储库中获得:https://github.com/talbenha/cell-tracker-gnn。
translated by 谷歌翻译
本文提出了一个自我监督的目标,用于学习表征,将对象定位在遮挡下 - 一种被称为对象永久的属性。一个中心问题是在全部阻塞的情况下选择学习信号。我们没有直接监督看不见的对象的位置,而是提出一个自制的目标,该目标既不需要人类注释,也不需要对对象动态的假设。我们表明,对象永久性可以通过优化内存的时间连贯性来出现:我们沿着马尔可夫沿着记忆的时空图,每个时间步骤中的状态都是序列编码器中的非马克维亚特征。这导致了存储器表示,该内存表示存储遮挡的对象并预测其运动,以更好地本地化。最终的模型在数个复杂性和现实主义的数据集上的现有方法优于现有方法,尽管需要最少的监督,从而广泛适用。
translated by 谷歌翻译
The problem of tracking multiple objects in a video sequence poses several challenging tasks. For tracking-bydetection, these include object re-identification, motion prediction and dealing with occlusions. We present a tracker (without bells and whistles) that accomplishes tracking without specifically targeting any of these tasks, in particular, we perform no training or optimization on tracking data. To this end, we exploit the bounding box regression of an object detector to predict the position of an object in the next frame, thereby converting a detector into a Tracktor. We demonstrate the potential of Tracktor and provide a new state-of-the-art on three multi-object tracking benchmarks by extending it with a straightforward re-identification and camera motion compensation.We then perform an analysis on the performance and failure cases of several state-of-the-art tracking methods in comparison to our Tracktor. Surprisingly, none of the dedicated tracking methods are considerably better in dealing with complex tracking scenarios, namely, small and occluded objects or missing detections. However, our approach tackles most of the easy tracking scenarios. Therefore, we motivate our approach as a new tracking paradigm and point out promising future research directions. Overall, Tracktor yields superior tracking performance than any current tracking method and our analysis exposes remaining and unsolved tracking challenges to inspire future research directions.
translated by 谷歌翻译