无人驾驶飞机(UAV)跟踪对于诸如交货和农业等广泛应用具有重要意义。该领域的先前基准分析主要集中在小规模的跟踪问题上,同时忽略了数据模式的类型,目标类别和方案的多样性以及所涉及的评估协议的数量,从而极大地隐藏了深度无人机跟踪的巨大功能。在这项工作中,我们提出了迄今为止最大的公共无人机跟踪基准Webuav-3M,以促进深度无人机跟踪器的开发和评估。 Webuav-3M在4,500个视频中包含超过330万帧,并提供223个高度多样化的目标类别。每个视频都通过有效且可扩展的半自动目标注释(SATA)管道密集注释。重要的是,要利用语言和音频的互补优势,我们通过提供自然语言规格和音频描述来丰富Webuav-3M。我们认为,这种增加将大大促进未来的研究,以探索语言功能和音频提示,用于多模式无人机跟踪。此外,构建了scenario约束(UTUSC)评估协议和七个具有挑战性的场景子测验集,以使社区能够开发,适应和评估各种类型的高级跟踪器。我们提供了43个代表性跟踪器的广泛评估和详细分析,并设想了深度无人机跟踪及其他领域的未来研究方向。数据集,工具包和基线结果可在\ url {https://github.com/983632847/webuav-3m}中获得。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
Despite the numerous developments in object tracking, further development of current tracking algorithms is limited by small and mostly saturated datasets. As a matter of fact, data-hungry trackers based on deep-learning currently rely on object detection datasets due to the scarcity of dedicated large-scale tracking datasets. In this work, we present TrackingNet, the first large-scale dataset and benchmark for object tracking in the wild. We provide more than 30K videos with more than 14 million dense bounding box annotations. Our dataset covers a wide selection of object classes in broad and diverse context. By releasing such a large-scale dataset, we expect deep trackers to further improve and generalize. In addition, we introduce a new benchmark composed of 500 novel videos, modeled with a distribution similar to our training dataset. By sequestering the annotation of the test set and providing an online evaluation server, we provide a fair benchmark for future development of object trackers. Deep trackers fine-tuned on a fraction of our dataset improve their performance by up to 1.6% on OTB100 and up to 1.7% on TrackingNet Test. We provide an extensive benchmark on TrackingNet by evaluating more than 20 trackers. Our results suggest that object tracking in the wild is far from being solved.
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
随着视觉跟踪的快速进展,由于样品的冗余和当前跟踪器之间的缺点,现有的基准变得不那么富有信息,并对所有数据集进行评估非常耗时。因此,一个小型和信息的基准,涵盖了所有典型的具有挑战性的场景,以方便评估跟踪器性能,这是非常兴趣的。在这项工作中,我们开发了一个原则的方法来构建一个小型和信息的跟踪基准(ITB),其中7%的现有和新收集的数据集中的7%,这使得能够有效地评估,同时确保有效性。具体而言,我们首先设计了一种质量评估机制,以选择来自现有基准的最佳信息序列,以考虑到1)挑战水平,2)歧视强度,3)和外观变化的密度。此外,我们收集额外的序列,以确保跟踪方案的多样性和平衡,导致每个场景共20个序列。通过分析15次训练在同一数据的最先进的跟踪器的结果,我们确定每种情况下的稳健跟踪的有效方法,并对该领域的未来研究方向表现出新的挑战。
translated by 谷歌翻译
RGBT跟踪在计算机视觉社区中获得了兴趣激增,但该研究领域缺乏大型和高度多样性的基准数据集,这对于深度RGBT跟踪器的培训以及RGBT跟踪方法的综合评价至关重要。为此,我们在这项工作中为RGBT跟踪(Lasher)提出了大规模的高多样性基准。 Lasher由1224个可见和热红外视频配对组成,总共超过730K框架对。每个帧对在空间上对齐并用边界框手动注释,使数据集良好并密度注释。 Lasher从广泛的物品类别,相机观点,场景复杂性和环境因素,季节,天气,日夜的环境因素高度多样化。我们对Lasher DataSet的12 RGBT跟踪算法进行了全面的绩效评估,并对RGBT跟踪澄清研究室进行了详细分析。此外,我们释放了解放的Lasher版本,以吸引对对齐的RGBT跟踪的研究兴趣,这是现​​实世界应用中更实用的任务。数据集和评估协议可用于:https://github.com/bugpleaseout/lasher。
translated by 谷歌翻译
随着越来越多的大规模数据集可用于培训,近年来,视觉跟踪取得了长足的进步。但是,该领域的当前研究主要集中在跟踪通用对象上。在本文中,我们介绍了tsfmo,这是\ textbf {t} racking \ textbf {s} mall和\ textbf {f} ast \ textbf {m} oving \ textbf {o textbf {o} bignts的基准。该基准旨在鼓励研究为这项具有挑战性的任务开发新颖和准确的方法。 TSFMO由250个序列组成,总共约有50k帧。这些序列中的每个帧都用边界框仔细和手动注释。据我们所知,TSFMO是第一个致力于跟踪小型和快速移动物体的基准,尤其是与运动相关的对象。为了了解现有方法的性能并为TSFMO的未来研究提供比较,我们广泛评估了基准上的20个最先进的跟踪器。评估结果表明,需要更多的精力来改善跟踪小型和快速移动的物体。此外,为了鼓励未来的研究,我们提出了一种新颖的跟踪器S-keptrack,它超过了所有20种评估的方法。通过释放TSFMO,我们希望促进未来的研究和应用小型和快速移动对象的应用。 \ url {https://github.com/codeofgithub/s-keeptrack}可用TSFMO和评估结果以及S-KeepTrack。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
卫星摄像机可以为大型区域提供连续观察,这对于许多遥感应用很重要。然而,由于对象的外观信息不足和缺乏高质量数据集,在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中,我们首先构建一个具有丰富注释的大型卫星视频数据集,用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集,并由47个高质量视频组成,对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后,我们引入运动建模基线,以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后,我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准,并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。
translated by 谷歌翻译
由于其前所未有的优势,在规模,移动,部署和隐蔽观察能力方面,空中平台和成像传感器的快速出现是实现新的空中监测形式。本文从计算机视觉和模式识别的角度来看,全面概述了以人为本的空中监控任务。它旨在为读者提供使用无人机,无人机和其他空中平台的空中监测任务当前状态的深入系统审查和技术分析。感兴趣的主要对象是人类,其中要检测单个或多个受试者,识别,跟踪,重新识别并进行其行为。更具体地,对于这四项任务中的每一个,我们首先讨论与基于地面的设置相比在空中环境中执行这些任务的独特挑战。然后,我们审查和分析公共可用于每项任务的航空数据集,并深入了解航空文学中的方法,并调查他们目前如何应对鸟瞰挑战。我们在讨论缺失差距和开放研究问题的讨论中得出结论,告知未来的研究途径。
translated by 谷歌翻译
Multi-animal tracking (MAT), a multi-object tracking (MOT) problem, is crucial for animal motion and behavior analysis and has many crucial applications such as biology, ecology and animal conservation. Despite its importance, MAT is largely under-explored compared to other MOT problems such as multi-human tracking due to the scarcity of dedicated benchmarks. To address this problem, we introduce AnimalTrack, a dedicated benchmark for multi-animal tracking in the wild. Specifically, AnimalTrack consists of 58 sequences from a diverse selection of 10 common animal categories. On average, each sequence comprises of 33 target objects for tracking. In order to ensure high quality, every frame in AnimalTrack is manually labeled with careful inspection and refinement. To our best knowledge, AnimalTrack is the first benchmark dedicated to multi-animal tracking. In addition, to understand how existing MOT algorithms perform on AnimalTrack and provide baselines for future comparison, we extensively evaluate 14 state-of-the-art representative trackers. The evaluation results demonstrate that, not surprisingly, most of these trackers become degenerated due to the differences between pedestrians and animals in various aspects (e.g., pose, motion, and appearance), and more efforts are desired to improve multi-animal tracking. We hope that AnimalTrack together with evaluation and analysis will foster further progress on multi-animal tracking. The dataset and evaluation as well as our analysis will be made available at https://hengfan2010.github.io/projects/AnimalTrack/.
translated by 谷歌翻译
最近在视觉跟踪中成功的关键因素之一是专用基准的可用性。尽管对跟踪研究有很大的受益,但现有的基准并没有与以前相同的难度,而最近的跟踪器的性能则主要是由于(i)引入了更复杂的基于变形金刚的方法,并且(ii)缺乏各种情况,因此缺乏各种情况。不良的可见性,例如恶劣的天气条件,伪装和成像效应。我们介绍了Avist,这是一个专门的基准,用于在具有不良可见性的不同情况下进行视觉跟踪。 Avist包括120个具有80k注释框架的具有挑战性的序列,涵盖了18种不同的方案,这些场景大致分为五个具有42个对象类别的属性。远景的主要贡献是涵盖恶劣天气条件的多样化和挑战性的情况,例如浓雾,大雨和沙尘暴;阻塞效应,包括火,阳光和溅水;不利成像效应,例如,低光;目标效应,包括小目标和干扰物对象以及伪装。我们进一步基准了17个关于Avist的流行和最新跟踪器,对它们跨属性的跟踪性能进行了详细分析,这表明了性能改善的巨大空间。我们认为,远景可以通过补充现有的基准,开发新的创意跟踪解决方案,以继续推动最先进的界限,从而极大地使跟踪社区受益。我们的数据集以及完整的跟踪性能评估可在以下网址提供:https://github.com/visionml/pytracking
translated by 谷歌翻译
This paper presents a new large scale multi-person tracking dataset -- \texttt{PersonPath22}, which is over an order of magnitude larger than currently available high quality multi-object tracking datasets such as MOT17, HiEve, and MOT20 datasets. The lack of large scale training and test data for this task has limited the community's ability to understand the performance of their tracking systems on a wide range of scenarios and conditions such as variations in person density, actions being performed, weather, and time of day. \texttt{PersonPath22} dataset was specifically sourced to provide a wide variety of these conditions and our annotations include rich meta-data such that the performance of a tracker can be evaluated along these different dimensions. The lack of training data has also limited the ability to perform end-to-end training of tracking systems. As such, the highest performing tracking systems all rely on strong detectors trained on external image datasets. We hope that the release of this dataset will enable new lines of research that take advantage of large scale video based training data.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
与可见的摄像机不同的是逐帧记录强度图像的可见摄像机,生物学启发的事件摄像头会产生一系列的异步和稀疏事件,并且延迟较低。在实践中,可见的摄像机可以更好地感知纹理细节和慢动作,而事件摄像机可以没有运动模糊并具有更大的动态范围,从而使它们能够在快速运动和低照明下良好地工作。因此,两个传感器可以相互合作以实现更可靠的对象跟踪。在这项工作中,我们提出了一个大规模可见事件基准(称为Visevent),因为缺乏针对此任务的现实和缩放数据集。我们的数据集由在低照明,高速和背景混乱场景下捕获的820个视频对组成,并将其分为训练和测试子集,每个培训和测试子集分别包含500和320个视频。基于Visevent,我们通过将当前的单模式跟踪器扩展到双模式版本,将事件流转换为事件图像,并构建30多种基线方法。更重要的是,我们通过提出跨模式变压器来进一步构建一种简单但有效的跟踪算法,以在可见光和事件数据之间实现更有效的功能融合。对拟议的Visevent数据集(FE108)和两个模拟数据集(即OTB-DVS和fot-DVS)进行了广泛的实验,验证了我们模型的有效性。数据集和源代码已在我们的项目页面上发布:\ url {https://sites.google.com/view/viseventtrack/}。
translated by 谷歌翻译
RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
视频分割,即将视频帧分组到多个段或对象中,在广泛的实际应用中扮演关键作用,例如电影中的视觉效果辅助,自主驾驶中的现场理解,以及视频会议中的虚拟背景创建,名称一些。最近,由于计算机愿景中的联系复兴,一直存在众多深度学习的方法,这一直专用于视频分割并提供引人注目的性能。在这项调查中,通过引入各自的任务设置,背景概念,感知需要,开发历史,以及开发历史,综合审查这一领域的两种基本研究,即在视频和视频语义分割中,即视频和视频语义分割中的通用对象分段(未知类别)。主要挑战。我们还提供关于两种方法和数据集的代表文学的详细概述。此外,我们在基准数据集中呈现了审查方法的定量性能比较。最后,我们指出了这一领域的一套未解决的开放问题,并提出了进一步研究的可能机会。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
周等人提出了一个无人监督,轻质和高性能的单一对象追踪器,称为UHP-SOT。最近。作为一个扩展,我们在这项工作中介绍了一个增强版本并将其命名为UHP-SOT ++。基于基于鉴别相关滤波器的(基于DCF的)跟踪器的基础,在UHP-SOT和UHP-SOT ++中引入了两种新成分:1)背景运动建模和2)对象盒轨迹建模。 UHP-SOT和UHP-SOT ++之间的主要区别是来自三种模型的提案的融合策略(即DCF,背景运动和对象盒轨迹模型)。 UHP-SOT ++采用了一种改进的融合策略,可针对大规模跟踪数据集更加强大的跟踪性能。我们的第二件贡献在于通过在四个SOT基准数据集 - OTB2015,TC128,UAV123和LASOT上进行测试,对最先进的监督和无监督方法进行了广泛的评估。实验表明,UHP-SOT ++优于所有先前的无监督方法和几种深度学习(DL)方法,以跟踪准确性。由于UHP-SOT ++具有极小的模型大小,高跟踪性能和低计算复杂性(即使在I5 CPU上以20 fps运行,即使没有代码优化),则是资源实时对象跟踪中的理想解决方案 - 有限平台。基于实验结果,我们比较监督和无监督者的优缺点,并提供了一种新的视角,了解监督和无监督方法之间的性能差距,这是这项工作的第三次贡献。
translated by 谷歌翻译
尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译