RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
RGBT跟踪在计算机视觉社区中获得了兴趣激增,但该研究领域缺乏大型和高度多样性的基准数据集,这对于深度RGBT跟踪器的培训以及RGBT跟踪方法的综合评价至关重要。为此,我们在这项工作中为RGBT跟踪(Lasher)提出了大规模的高多样性基准。 Lasher由1224个可见和热红外视频配对组成,总共超过730K框架对。每个帧对在空间上对齐并用边界框手动注释,使数据集良好并密度注释。 Lasher从广泛的物品类别,相机观点,场景复杂性和环境因素,季节,天气,日夜的环境因素高度多样化。我们对Lasher DataSet的12 RGBT跟踪算法进行了全面的绩效评估,并对RGBT跟踪澄清研究室进行了详细分析。此外,我们释放了解放的Lasher版本,以吸引对对齐的RGBT跟踪的研究兴趣,这是现​​实世界应用中更实用的任务。数据集和评估协议可用于:https://github.com/bugpleaseout/lasher。
translated by 谷歌翻译
With the development of depth sensors in recent years, RGBD object tracking has received significant attention. Compared with the traditional RGB object tracking, the addition of the depth modality can effectively solve the target and background interference. However, some existing RGBD trackers use the two modalities separately and thus some particularly useful shared information between them is ignored. On the other hand, some methods attempt to fuse the two modalities by treating them equally, resulting in the missing of modality-specific features. To tackle these limitations, we propose a novel Dual-fused Modality-aware Tracker (termed DMTracker) which aims to learn informative and discriminative representations of the target objects for robust RGBD tracking. The first fusion module focuses on extracting the shared information between modalities based on cross-modal attention. The second aims at integrating the RGB-specific and depth-specific information to enhance the fused features. By fusing both the modality-shared and modality-specific information in a modality-aware scheme, our DMTracker can learn discriminative representations in complex tracking scenes. Experiments show that our proposed tracker achieves very promising results on challenging RGBD benchmarks. Code is available at \url{https://github.com/ShangGaoG/DMTracker}.
translated by 谷歌翻译
在许多可视化系统中,视觉跟踪通常基于RGB图像序列,其中一些目标在低光条件下无效,因此追踪性能显着影响。介绍深度和红外数据等其他模态是处理单个来源的成像限制的有效方法,但多模态成像平台通常需要详细设计,并且目前不能应用于许多现实世界应用。近红外(NIR)成像成为许多监视摄像机的重要组成部分,其成像基于光强度在RGB和NIR之间切换。这两种方式具有异质性,视觉特性非常不同,因此为视觉跟踪带来了大量挑战。但是,现有的作品没有研究过这个具有挑战性的问题。在这项工作中,我们解决了跨模型对象跟踪问题并贡献新的视频数据集,包括总共具有超过481K帧的654个跨模型图像序列,并且平均视频长度超过735帧。为促进跨模型对象跟踪的研究和开发,我们提出了一种新的算法,它学习模态感知目标表示,以减轻跟踪过程中RGB和NIR模式之间的外观差距。它是即插即用,因此可以灵活地嵌入到不同的跟踪框架中。对数据集进行广泛的实验,我们展示了两个代表性跟踪框架中提出的算法的有效性,其针对17个最先进的跟踪方法。我们将发布数据集进行免费学术用法,数据集下载链接和代码即将发布。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
与可见的摄像机不同的是逐帧记录强度图像的可见摄像机,生物学启发的事件摄像头会产生一系列的异步和稀疏事件,并且延迟较低。在实践中,可见的摄像机可以更好地感知纹理细节和慢动作,而事件摄像机可以没有运动模糊并具有更大的动态范围,从而使它们能够在快速运动和低照明下良好地工作。因此,两个传感器可以相互合作以实现更可靠的对象跟踪。在这项工作中,我们提出了一个大规模可见事件基准(称为Visevent),因为缺乏针对此任务的现实和缩放数据集。我们的数据集由在低照明,高速和背景混乱场景下捕获的820个视频对组成,并将其分为训练和测试子集,每个培训和测试子集分别包含500和320个视频。基于Visevent,我们通过将当前的单模式跟踪器扩展到双模式版本,将事件流转换为事件图像,并构建30多种基线方法。更重要的是,我们通过提出跨模式变压器来进一步构建一种简单但有效的跟踪算法,以在可见光和事件数据之间实现更有效的功能融合。对拟议的Visevent数据集(FE108)和两个模拟数据集(即OTB-DVS和fot-DVS)进行了广泛的实验,验证了我们模型的有效性。数据集和源代码已在我们的项目页面上发布:\ url {https://sites.google.com/view/viseventtrack/}。
translated by 谷歌翻译
无人驾驶飞机(UAV)跟踪对于诸如交货和农业等广泛应用具有重要意义。该领域的先前基准分析主要集中在小规模的跟踪问题上,同时忽略了数据模式的类型,目标类别和方案的多样性以及所涉及的评估协议的数量,从而极大地隐藏了深度无人机跟踪的巨大功能。在这项工作中,我们提出了迄今为止最大的公共无人机跟踪基准Webuav-3M,以促进深度无人机跟踪器的开发和评估。 Webuav-3M在4,500个视频中包含超过330万帧,并提供223个高度多样化的目标类别。每个视频都通过有效且可扩展的半自动目标注释(SATA)管道密集注释。重要的是,要利用语言和音频的互补优势,我们通过提供自然语言规格和音频描述来丰富Webuav-3M。我们认为,这种增加将大大促进未来的研究,以探索语言功能和音频提示,用于多模式无人机跟踪。此外,构建了scenario约束(UTUSC)评估协议和七个具有挑战性的场景子测验集,以使社区能够开发,适应和评估各种类型的高级跟踪器。我们提供了43个代表性跟踪器的广泛评估和详细分析,并设想了深度无人机跟踪及其他领域的未来研究方向。数据集,工具包和基线结果可在\ url {https://github.com/983632847/webuav-3m}中获得。
translated by 谷歌翻译
基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性,但不限于边界框跟踪和有限的转换模型,这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2,其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型,一个不变的变换,包括非刚性变形,另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计,进一步提高了整体跟踪可靠性。没有每数据集FineTuning,并且仅用于分段作为主要输出,D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器,并非常接近GOT-10K上的最先进的跟踪器, TrackingNet,OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK,并与顶部视频对象分段算法进行操作。
translated by 谷歌翻译
估计目标范围在视觉对象跟踪中构成了基本挑战。通常,跟踪器以箱子为中心,并且完全依靠边界框来定义场景中的目标。实际上,对象通常具有复杂的形状,并且与图像轴不符。在这些情况下,边界框不能提供对目标的准确描述,并且通常包含大多数背景像素。我们提出了一个以细分为中心的跟踪管道,该管道不仅会产生高度准确的分割掩码,而且还可以使用分割掩码而不是边界框来使用内部。因此,我们的跟踪器能够更好地学习目标表示形式,该目标表示明确将场景中的目标与背景内容区分开来。为了实现具有挑战性的跟踪方案的必要鲁棒性,我们提出了一个单独的实例本地化组件,该组件用于在产生输出掩码时用于调节分割解码器。我们从分段掩码中推断出一个边界框,验证我们的跟踪器在挑战跟踪数据集方面,并在LASOT上实现新的最新状态,并以69.7%的速度获得了AUC得分。由于大多数跟踪数据集不包含掩码注释,因此我们无法使用它们来评估预测的分割掩码。相反,我们在两个流行的视频对象细分数据集上验证了分割质量。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
随着越来越多的大规模数据集可用于培训,近年来,视觉跟踪取得了长足的进步。但是,该领域的当前研究主要集中在跟踪通用对象上。在本文中,我们介绍了tsfmo,这是\ textbf {t} racking \ textbf {s} mall和\ textbf {f} ast \ textbf {m} oving \ textbf {o textbf {o} bignts的基准。该基准旨在鼓励研究为这项具有挑战性的任务开发新颖和准确的方法。 TSFMO由250个序列组成,总共约有50k帧。这些序列中的每个帧都用边界框仔细和手动注释。据我们所知,TSFMO是第一个致力于跟踪小型和快速移动物体的基准,尤其是与运动相关的对象。为了了解现有方法的性能并为TSFMO的未来研究提供比较,我们广泛评估了基准上的20个最先进的跟踪器。评估结果表明,需要更多的精力来改善跟踪小型和快速移动的物体。此外,为了鼓励未来的研究,我们提出了一种新颖的跟踪器S-keptrack,它超过了所有20种评估的方法。通过释放TSFMO,我们希望促进未来的研究和应用小型和快速移动对象的应用。 \ url {https://github.com/codeofgithub/s-keeptrack}可用TSFMO和评估结果以及S-KeepTrack。
translated by 谷歌翻译
Despite the numerous developments in object tracking, further development of current tracking algorithms is limited by small and mostly saturated datasets. As a matter of fact, data-hungry trackers based on deep-learning currently rely on object detection datasets due to the scarcity of dedicated large-scale tracking datasets. In this work, we present TrackingNet, the first large-scale dataset and benchmark for object tracking in the wild. We provide more than 30K videos with more than 14 million dense bounding box annotations. Our dataset covers a wide selection of object classes in broad and diverse context. By releasing such a large-scale dataset, we expect deep trackers to further improve and generalize. In addition, we introduce a new benchmark composed of 500 novel videos, modeled with a distribution similar to our training dataset. By sequestering the annotation of the test set and providing an online evaluation server, we provide a fair benchmark for future development of object trackers. Deep trackers fine-tuned on a fraction of our dataset improve their performance by up to 1.6% on OTB100 and up to 1.7% on TrackingNet Test. We provide an extensive benchmark on TrackingNet by evaluating more than 20 trackers. Our results suggest that object tracking in the wild is far from being solved.
translated by 谷歌翻译
卫星摄像机可以为大型区域提供连续观察,这对于许多遥感应用很重要。然而,由于对象的外观信息不足和缺乏高质量数据集,在卫星视频中实现移动对象检测和跟踪仍然具有挑战性。在本文中,我们首先构建一个具有丰富注释的大型卫星视频数据集,用于移动对象检测和跟踪的任务。该数据集由Jilin-1卫星星座收集,并由47个高质量视频组成,对象检测有1,646,038兴趣的情况和用于对象跟踪的3,711个轨迹。然后,我们引入运动建模基线,以提高检测速率并基于累积多帧差异和鲁棒矩阵完成来减少误报。最后,我们建立了第一个用于在卫星视频中移动对象检测和跟踪的公共基准,并广泛地评估在我们数据集上几种代表方法的性能。还提供了综合实验分析和富有魅力的结论。数据集可在https://github.com/qingyonghu/viso提供。
translated by 谷歌翻译
最近的跟踪器采用变压器来组合或替换广泛使用的重新NET作为其新的骨干网络。尽管他们的跟踪器在常规场景中运行良好,但是他们只是将2D功能弄平为序列,以更好地匹配变压器。我们认为这些操作忽略了目标对象的空间先验,这可能仅导致次优结果。此外,许多作品表明,自我注意力实际上是一个低通滤波器,它与输入功能或键/查询无关。也就是说,它可能会抑制输入功能的高频组成部分,并保留甚至放大低频信息。为了解决这些问题,在本文中,我们提出了一个统一的空间频率变压器,该变压器同时建模高斯空间先验和高频强调(GPHA)。具体而言,高斯空间先验是使用双重多层感知器(MLP)生成的,并注入了通过将查询和自我注意的关键特征乘产生的相似性矩阵。输出将被馈入软磁层,然后分解为两个组件,即直接信号和高频信号。低通和高通的分支被重新缩放并组合以实现全通,因此,高频特征将在堆叠的自发层中得到很好的保护。我们进一步将空间频率变压器整合到暹罗跟踪框架中,并提出一种新颖的跟踪算法,称为SFTRANST。基于跨级融合的SwintransFormer被用作骨干,还使用多头交叉意见模块来增强搜索和模板功能之间的相互作用。输出将被馈入跟踪头以进行目标定位。短期和长期跟踪基准的广泛实验都证明了我们提出的框架的有效性。
translated by 谷歌翻译
尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译
随着视觉跟踪的快速进展,由于样品的冗余和当前跟踪器之间的缺点,现有的基准变得不那么富有信息,并对所有数据集进行评估非常耗时。因此,一个小型和信息的基准,涵盖了所有典型的具有挑战性的场景,以方便评估跟踪器性能,这是非常兴趣的。在这项工作中,我们开发了一个原则的方法来构建一个小型和信息的跟踪基准(ITB),其中7%的现有和新收集的数据集中的7%,这使得能够有效地评估,同时确保有效性。具体而言,我们首先设计了一种质量评估机制,以选择来自现有基准的最佳信息序列,以考虑到1)挑战水平,2)歧视强度,3)和外观变化的密度。此外,我们收集额外的序列,以确保跟踪方案的多样性和平衡,导致每个场景共20个序列。通过分析15次训练在同一数据的最先进的跟踪器的结果,我们确定每种情况下的稳健跟踪的有效方法,并对该领域的未来研究方向表现出新的挑战。
translated by 谷歌翻译
变压器跟踪器最近取得了令人印象深刻的进步,注意力机制起着重要作用。但是,注意机制的独立相关计算可能导致嘈杂和模棱两可的注意力重量,从而抑制了进一步的性能改善。为了解决这个问题,我们提出了注意力(AIA)模块,该模块通过在所有相关向量之间寻求共识来增强适当的相关性并抑制错误的相关性。我们的AIA模块可以很容易地应用于自我注意解区和交叉注意区块,以促进特征聚集和信息传播以进行视觉跟踪。此外,我们通过引入有效的功能重复使用和目标背景嵌入来充分利用时间参考,提出了一个流线型的变压器跟踪框架,称为AIATRACK。实验表明,我们的跟踪器以实时速度运行时在六个跟踪基准测试中实现最先进的性能。
translated by 谷歌翻译
最近在视觉跟踪中成功的关键因素之一是专用基准的可用性。尽管对跟踪研究有很大的受益,但现有的基准并没有与以前相同的难度,而最近的跟踪器的性能则主要是由于(i)引入了更复杂的基于变形金刚的方法,并且(ii)缺乏各种情况,因此缺乏各种情况。不良的可见性,例如恶劣的天气条件,伪装和成像效应。我们介绍了Avist,这是一个专门的基准,用于在具有不良可见性的不同情况下进行视觉跟踪。 Avist包括120个具有80k注释框架的具有挑战性的序列,涵盖了18种不同的方案,这些场景大致分为五个具有42个对象类别的属性。远景的主要贡献是涵盖恶劣天气条件的多样化和挑战性的情况,例如浓雾,大雨和沙尘暴;阻塞效应,包括火,阳光和溅水;不利成像效应,例如,低光;目标效应,包括小目标和干扰物对象以及伪装。我们进一步基准了17个关于Avist的流行和最新跟踪器,对它们跨属性的跟踪性能进行了详细分析,这表明了性能改善的巨大空间。我们认为,远景可以通过补充现有的基准,开发新的创意跟踪解决方案,以继续推动最先进的界限,从而极大地使跟踪社区受益。我们的数据集以及完整的跟踪性能评估可在以下网址提供:https://github.com/visionml/pytracking
translated by 谷歌翻译
Multi-animal tracking (MAT), a multi-object tracking (MOT) problem, is crucial for animal motion and behavior analysis and has many crucial applications such as biology, ecology and animal conservation. Despite its importance, MAT is largely under-explored compared to other MOT problems such as multi-human tracking due to the scarcity of dedicated benchmarks. To address this problem, we introduce AnimalTrack, a dedicated benchmark for multi-animal tracking in the wild. Specifically, AnimalTrack consists of 58 sequences from a diverse selection of 10 common animal categories. On average, each sequence comprises of 33 target objects for tracking. In order to ensure high quality, every frame in AnimalTrack is manually labeled with careful inspection and refinement. To our best knowledge, AnimalTrack is the first benchmark dedicated to multi-animal tracking. In addition, to understand how existing MOT algorithms perform on AnimalTrack and provide baselines for future comparison, we extensively evaluate 14 state-of-the-art representative trackers. The evaluation results demonstrate that, not surprisingly, most of these trackers become degenerated due to the differences between pedestrians and animals in various aspects (e.g., pose, motion, and appearance), and more efforts are desired to improve multi-animal tracking. We hope that AnimalTrack together with evaluation and analysis will foster further progress on multi-animal tracking. The dataset and evaluation as well as our analysis will be made available at https://hengfan2010.github.io/projects/AnimalTrack/.
translated by 谷歌翻译
周等人提出了一个无人监督,轻质和高性能的单一对象追踪器,称为UHP-SOT。最近。作为一个扩展,我们在这项工作中介绍了一个增强版本并将其命名为UHP-SOT ++。基于基于鉴别相关滤波器的(基于DCF的)跟踪器的基础,在UHP-SOT和UHP-SOT ++中引入了两种新成分:1)背景运动建模和2)对象盒轨迹建模。 UHP-SOT和UHP-SOT ++之间的主要区别是来自三种模型的提案的融合策略(即DCF,背景运动和对象盒轨迹模型)。 UHP-SOT ++采用了一种改进的融合策略,可针对大规模跟踪数据集更加强大的跟踪性能。我们的第二件贡献在于通过在四个SOT基准数据集 - OTB2015,TC128,UAV123和LASOT上进行测试,对最先进的监督和无监督方法进行了广泛的评估。实验表明,UHP-SOT ++优于所有先前的无监督方法和几种深度学习(DL)方法,以跟踪准确性。由于UHP-SOT ++具有极小的模型大小,高跟踪性能和低计算复杂性(即使在I5 CPU上以20 fps运行,即使没有代码优化),则是资源实时对象跟踪中的理想解决方案 - 有限平台。基于实验结果,我们比较监督和无监督者的优缺点,并提供了一种新的视角,了解监督和无监督方法之间的性能差距,这是这项工作的第三次贡献。
translated by 谷歌翻译