随着对象检测和重新识别的发展,对人类的多对象跟踪已迅速改善。但是,即使对于最先进的跟踪算法,对具有相似外观和非线性运动的人类的多演员跟踪仍然非常具有挑战性。当前基于运动的跟踪算法通常使用Kalman滤波器来预测对象的运动,但是,当目标不线性移动时,其线性运动假设可能会导致跟踪失败。对于在运动场上跟踪的多玩家来说,因为同一团队中的球员通常穿着相同的球衣,因此在短期和长期跟踪过程中,重新识别甚至更加困难。在这项工作中,我们提出了一种基于运动的跟踪算法和三个针对三项运动在内的后处理管道,包括篮球,足球和排球,我们成功地处理了运动场上球员非线性运动的跟踪。实验导致ECCV DeeperAction挑战的测试集SportsMot数据集证明了我们的方法的有效性,该方法的有效性为73.968,在2022年2022年SportsMot Workshop最终排行榜上排名第三。
translated by 谷歌翻译
多对象跟踪(MOT)的目标是检测和跟踪场景中的所有对象,同时为每个对象保留唯一的标识符。在本文中,我们提出了一种新的可靠的最新跟踪器,该跟踪器可以结合运动和外观信息的优势,以及摄像机运动补偿以及更准确的Kalman滤波器状态矢量。我们的新跟踪器在Mot17和Mot20测试集的Motchallenge [29,11]的数据集[29,11]中,Bot-Sort-Reid排名第一,就所有主要MOT指标而言:MOTA,IDF1和HOTA。对于Mot17:80.5 Mota,80.2 IDF1和65.0 HOTA。源代码和预培训模型可在https://github.com/niraharon/bot-sort上找到
translated by 谷歌翻译
跟踪和识别玩家是基于计算机视觉冰球分析的基本步骤。跟踪生成的数据用于许多其他下游任务,例如游戏事件检测和游戏策略分析。播放器跟踪和识别是一个具有挑战性的问题,因为与行人相比,曲棍球运动员的运动是快节奏和非线性的。还有显着的摄像头淘气和放大曲棍球广播视频。识别冰球中的玩家是挑战,因为同一团队的球员几乎相同,泽西号码是玩家之间唯一的鉴别因素。本文介绍了一种用于跟踪和识别广播NHL曲棍球视频中的玩家的自动化系统。该系统由三个组件(1)播放器跟踪组成,(2)团队识别和(3)播放器识别。由于没有公开可用的数据集,用于培训三个组件的数据集手动注释。利用艺术跟踪算法的状态来执行播放器跟踪,从而获得多目标跟踪精度(MOTA)得分为94.5%。对于团队识别,Away-Team Jerseys被分组为单一课程,并根据他们的泽西颜色在课堂上分组。然后在团队识别数据集上培训卷积神经网络。团队识别网络在测试集中获得97%的准确性。引入了一种新颖的播放器识别模型,其利用时间一维卷积网络来识别来自玩家边界框序列的玩家。播放器识别模型进一步利用了可用的NHL游戏名册数据,以获得83%的玩家识别精度。
translated by 谷歌翻译
我们的目标是使用多个摄像机和计算机愿望来检测和识别多个对象,以及用于灾难响应无人机的计算机视觉。主要挑战是驯服检测错误,解决ID切换和碎片,适应多尺度特征和具有全局摄像机运动的多种视图。提出了两种简单的方法来解决这些问题。一个是一个快速的多摄像机系统,该系统添加了katchlet关联,另一个是结合高性能检测器和跟踪器来解决限制。 (...)与验证数据集中的基线(85.44%)相比,我们的第一种方法(85.71%)的准确性略有改善。在基于L2-NOR误差计算的最终结果中,基线为48.1,而拟议的模型组合为34.9,其误差减少为27.4%。在第二种方法中,虽然Deepsort仅通过硬件和时间限制来处理四分之一的帧,但我们的模型与Deepsort(42.9%)以召回的召回方式优于Fairmot(71.4%)。我们的两种模型分别在2020年和2021年的韩国科学和ICT组织的“AI Grand Challenge”中排名第二和第三位。源代码在这些URL上公开可用(Github.com/mlvlab/drone_ai_challenge,github.com/mlvlab/drone_task1,github.com/mlvlab/rony2_task3,github.com/mlvlab/drone_task4)。
translated by 谷歌翻译
Simple Online and Realtime Tracking (SORT) is a pragmatic approach to multiple object tracking with a focus on simple, effective algorithms. In this paper, we integrate appearance information to improve the performance of SORT. Due to this extension we are able to track objects through longer periods of occlusions, effectively reducing the number of identity switches. In spirit of the original framework we place much of the computational complexity into an offline pre-training stage where we learn a deep association metric on a largescale person re-identification dataset. During online application, we establish measurement-to-track associations using nearest neighbor queries in visual appearance space. Experimental evaluation shows that our extensions reduce the number of identity switches by 45%, achieving overall competitive performance at high frame rates.
translated by 谷歌翻译
视频中的多目标跟踪需要解决相邻帧中对象之间一对一分配的基本问题。大多数方法通过首先丢弃不可能的对距离大于阈值的不可能对解决问题,然后使用匈牙利算法将对象链接起来以最大程度地减少整体距离。但是,我们发现从重新ID特征计算出的距离的分布可能在不同的视频中有很大差异。因此,没有一个最佳阈值可以使我们安全丢弃不可能的对。为了解决该问题,我们提出了一种有效的方法来实时计算每对对象的边际概率。边际概率可以视为标准化距离,比原始特征距离明显稳定。结果,我们可以为所有视频使用一个阈值。该方法是一般的,可以应用于现有的跟踪器,以在IDF1度量方面获得大约一个点改进。它在MOT17和MOT20基准上取得了竞争成果。此外,计算的概率更容易解释,从而有助于后续后期处理操作。
translated by 谷歌翻译
近年来,多个对象跟踪引起了研究人员的极大兴趣,它已成为计算机视觉中的趋势问题之一,尤其是随着自动驾驶的最新发展。 MOT是针对不同问题的关键视觉任务之一,例如拥挤的场景中的闭塞,相似的外观,小物体检测难度,ID切换等,以应对这些挑战,因为研究人员试图利用变压器的注意力机制,与田径的相互关系,与田径的相互关系,图形卷积神经网络,与暹罗网络不同帧中对象的外观相似性,他们还尝试了基于IOU匹配的CNN网络,使用LSTM的运动预测。为了将这些零散的技术在雨伞下采用,我们研究了过去三年发表的一百多篇论文,并试图提取近代研究人员更关注的技术来解决MOT的问题。我们已经征集了许多应用,可能性以及MOT如何与现实生活有关。我们的评论试图展示研究人员使用过时的技术的不同观点,并为潜在的研究人员提供了一些未来的方向。此外,我们在这篇评论中包括了流行的基准数据集和指标。
translated by 谷歌翻译
多目标跟踪(MOT)的典型管道是使用探测器进行对象本地化,并在重新识别(RE-ID)之后进行对象关联。该管道通过对象检测和重新ID的最近进展部分而部分地激励,并且部分地通过现有的跟踪数据集中的偏差激励,其中大多数物体倾向于具有区分外观和RE-ID模型足以建立关联。为了响应这种偏见,我们希望重新强调多目标跟踪的方法也应该在对象外观不充分辨别时起作用。为此,我们提出了一个大型数据集,用于多人跟踪,人类具有相似的外观,多样化的运动和极端关节。由于数据集包含主要组跳舞视频,我们将其命名为“DanceTrack”。我们预计DanceTrack可以提供更好的平台,以开发更多的MOT算法,这些算法依赖于视觉识别并更依赖于运动分析。在我们的数据集上,我们在数据集上基准测试了几个最先进的追踪器,并在与现有基准测试中遵守DanceTrack的显着性能下降。 DataSet,项目代码和竞争服务器播放:\ url {https://github.com/danceTrack}。
translated by 谷歌翻译
多对象跟踪(MOT)是最基本的计算机视觉任务之一,它有助于各种视频分析应用程序。尽管最近取得了有希望的进展,但当前的MOT研究仍仅限于输入流的固定采样帧速率。实际上,我们从经验上发现,当输入帧速率变化时,所有最新最新跟踪器的准确性都会急剧下降。对于更智能的跟踪解决方案,我们将研究工作的注意力转移到了帧速率不可知MOT(FRAMOT)的问题上。在本文中,我们建议使用定期培训计划(FAPS)的帧速率不可知的MOT框架,以首次解决FRAMOT问题。具体而言,我们提出了一个帧速率不可知协会模块(FAAM),该模块(FAAM)渗透并编码帧速率信息,以帮助跨多帧速率输入的身份匹配,从而提高了学习模型在处理FRAMOT中复杂的运动体验关系方面的能力。此外,FRAMOT中训练和推理之间的关联差距扩大,因为训练中未包含的那些后处理步骤在较低的帧速率方案中产生了更大的影响。为了解决这个问题,我们建议定期培训计划(PTS),以通过跟踪模式匹配和融合来反映培训中的所有后处理步骤。除了提出的方法外,我们首次尝试以两种不同的模式(即已知的帧速率和未知帧速率)建立这项新任务的评估方法,旨在处理更复杂的情况。在具有挑战性的MOT数据集(FRAMOT版本)上进行的定量实验清楚地表明,所提出的方法可以更好地处理不同的帧速率,从而改善对复杂情况的鲁棒性。
translated by 谷歌翻译
This paper explores a pragmatic approach to multiple object tracking where the main focus is to associate objects efficiently for online and realtime applications. To this end, detection quality is identified as a key factor influencing tracking performance, where changing the detector can improve tracking by up to 18.9%. Despite only using a rudimentary combination of familiar techniques such as the Kalman Filter and Hungarian algorithm for the tracking components, this approach achieves an accuracy comparable to state-of-the-art online trackers. Furthermore, due to the simplicity of our tracking method, the tracker updates at a rate of 260 Hz which is over 20x faster than other state-of-the-art trackers.
translated by 谷歌翻译
The paper presents a multi-camera tracking method intended for tracking soccer players in long shot video recordings from multiple calibrated cameras installed around the playing field. The large distance to the camera makes it difficult to visually distinguish individual players, which adversely affects the performance of traditional solutions relying on the appearance of tracked objects. Our method focuses on individual player dynamics and interactions between neighborhood players to improve tracking performance. To overcome the difficulty of reliably merging detections from multiple cameras in the presence of calibration errors, we propose the novel tracking approach, where the tracker operates directly on raw detection heat maps from multiple cameras. Our model is trained on a large synthetic dataset generated using Google Research Football Environment and fine-tuned using real-world data to reduce costs involved with ground truth preparation.
translated by 谷歌翻译
该技术报告描述了在Robocup SPL(Mario)中计算视觉统计的模块化且可扩展的体系结构,该结构在Robocup 2022的SPL Open Research Challenge期间提出,该挑战在曼谷(泰国)举行。马里奥(Mario)是一个开源的,可用的软件应用程序,其最终目标是为Robocup SPL社区的发展做出贡献。Mario带有一个GUI,该GUI集成了多个机器学习和基于计算机视觉的功能,包括自动摄像机校准,背景减法,同型计算,玩家 +球跟踪和本地化,NAO机器人姿势估计和跌落检测。马里奥(Mario)被排名第一。1在开放研究挑战中。
translated by 谷歌翻译
在本文中,我们通过预测其未来的3D表示,提出了一种追踪单眼视频中的人员的方法。为实现这一目标,我们首先以强大的方式从一个框架举起人们3D。这一提升包括关于人的3D姿势的信息,他或她在3D空间中的位置,以及3D外观。当我们跟踪一个人时,我们在托管表示中收集3D观察。鉴于我们观察的3D性质,我们为以前的每个属性建立了时间模型。我们使用这些模型来预测Tracklet的未来状态,包括3D位置,3D外观和3D姿势。对于未来的帧,我们以概率的方式计算轨迹的预测状态与单帧观测之间的相似性。使用简单的匈牙利匹配解决了关联,并且匹配用于更新相应的Tracklet。我们评估我们在各种基准和报告最先进的结果上的方法。
translated by 谷歌翻译
由于卷积神经网络(CNN)在过去的十年中检测成功,多对象跟踪(MOT)通过检测方法的使用来控制。随着数据集和基础标记网站的发布,研究方向已转向在跟踪时在包括重新识别对象的通用场景(包括重新识别(REID))上的最佳准确性。在这项研究中,我们通过提供专用的行人数据集并专注于对性能良好的多对象跟踪器的深入分析来缩小监视的范围)现实世界应用的技术。为此,我们介绍SOMPT22数据集;一套新的,用于多人跟踪的新套装,带有带注释的简短视频,该视频从位于杆子上的静态摄像头捕获,高度为6-8米,用于城市监视。与公共MOT数据集相比,这提供了室外监视的MOT的更为集中和具体的基准。我们分析了该新数据集上检测和REID网络的使用方式,分析了将MOT跟踪器分类为单发和两阶段。我们新数据集的实验结果表明,SOTA远非高效率,而单一跟踪器是统一快速执行和准确性的良好候选者,并具有竞争性的性能。该数据集将在以下网址提供:sompt22.github.io
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译
The problem of tracking multiple objects in a video sequence poses several challenging tasks. For tracking-bydetection, these include object re-identification, motion prediction and dealing with occlusions. We present a tracker (without bells and whistles) that accomplishes tracking without specifically targeting any of these tasks, in particular, we perform no training or optimization on tracking data. To this end, we exploit the bounding box regression of an object detector to predict the position of an object in the next frame, thereby converting a detector into a Tracktor. We demonstrate the potential of Tracktor and provide a new state-of-the-art on three multi-object tracking benchmarks by extending it with a straightforward re-identification and camera motion compensation.We then perform an analysis on the performance and failure cases of several state-of-the-art tracking methods in comparison to our Tracktor. Surprisingly, none of the dedicated tracking methods are considerably better in dealing with complex tracking scenarios, namely, small and occluded objects or missing detections. However, our approach tackles most of the easy tracking scenarios. Therefore, we motivate our approach as a new tracking paradigm and point out promising future research directions. Overall, Tracktor yields superior tracking performance than any current tracking method and our analysis exposes remaining and unsolved tracking challenges to inspire future research directions.
translated by 谷歌翻译
为了克服多个对象跟踪任务中的挑战,最近的算法将交互线索与运动和外观特征一起使用。这些算法使用图形神经网络或变压器来提取导致高计算成本的交互功能。在本文中,提出了一种基于几何特征的新型交互提示,旨在检测遮挡和重新识别计算成本低的丢失目标。此外,在大多数算法中,摄像机运动被认为可以忽略不计,这是一个强有力的假设,并不总是正确的,并且导致目标转换或目标不匹配。在本文中,提出了一种测量相机运动和删除其效果的方法,可有效地降低相机运动对跟踪的影响。该算法在MOT17和MOT20数据集上进行了评估,并在MOT20上实现了MOT17的最先进性能和可比较的结果。该代码也可以公开使用。
translated by 谷歌翻译
To track the 3D locations and trajectories of the other traffic participants at any given time, modern autonomous vehicles are equipped with multiple cameras that cover the vehicle's full surroundings. Yet, camera-based 3D object tracking methods prioritize optimizing the single-camera setup and resort to post-hoc fusion in a multi-camera setup. In this paper, we propose a method for panoramic 3D object tracking, called CC-3DT, that associates and models object trajectories both temporally and across views, and improves the overall tracking consistency. In particular, our method fuses 3D detections from multiple cameras before association, reducing identity switches significantly and improving motion modeling. Our experiments on large-scale driving datasets show that fusion before association leads to a large margin of improvement over post-hoc fusion. We set a new state-of-the-art with 12.6% improvement in average multi-object tracking accuracy (AMOTA) among all camera-based methods on the competitive NuScenes 3D tracking benchmark, outperforming previously published methods by 6.5% in AMOTA with the same 3D detector.
translated by 谷歌翻译
Existing Multiple Object Tracking (MOT) methods design complex architectures for better tracking performance. However, without a proper organization of input information, they still fail to perform tracking robustly and suffer from frequent identity switches. In this paper, we propose two novel methods together with a simple online Message Passing Network (MPN) to address these limitations. First, we explore different integration methods for the graph node and edge embeddings and put forward a new IoU (Intersection over Union) guided function, which improves long term tracking and handles identity switches. Second, we introduce a hierarchical sampling strategy to construct sparser graphs which allows to focus the training on more difficult samples. Experimental results demonstrate that a simple online MPN with these two contributions can perform better than many state-of-the-art methods. In addition, our association method generalizes well and can also improve the results of private detection based methods.
translated by 谷歌翻译
服务机器人安全有礼貌的机器人需要坚强地跟踪周围人,尤其是对于旅游指南机器人(TGR)。但是,由于以下原因,现有的多对象跟踪(MOT)或多人跟踪(MPT)方法不适用于TGR:1。缺乏相关的大型数据集;2.缺少适用的指标来评估跟踪器。在这项工作中,我们针对TGR的视觉感知任务,并介绍TGRDB数据集,TGRDB数据集是一种新颖的大型多人跟踪数据集,其中包含大约5.6小时的带注释视频和超过450个长期轨迹。此外,我们提出了一个更适合使用数据集评估跟踪器的指标。作为我们工作的一部分,我们提出了TGRMPT,这是一种新型的MPT系统,它结合了头部肩膀和全身的信息,并实现了最先进的性能。我们已经在https://github.com/wenwenzju/tgrmpt中发布了代码和数据集。
translated by 谷歌翻译