全身追踪器用于监视和安全目的,例如人跟踪机器人。在中东,统一的人群环境是挑战最新跟踪器的常态。尽管过去文献中记录的跟踪器技术有了很大的改进,但这些跟踪器尚未使用捕获这些环境的数据集进行了培训。在这项工作中,我们在统一的人群环境中开发了一个带有一个特定目标的注释数据集。该数据集是在四种不同的情况下生成的,在四种不同的情况下,目标主要是与人群一起移动,有时会与它们阻塞,而其他时候,相机的目标视图在短时间内被人群阻止。注释后,它用于评估和微调最新的跟踪器。我们的结果表明,与初始预训练的跟踪器相比,基于两个定量评估指标的微调跟踪器在评估数据集上的性能更好。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
对人类对象相互作用的理解在第一人称愿景(FPV)中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息,以有效地建模此类相互作用。在过去的几年中,计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器,但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题,即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能,包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面,引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150(由150个密集注释的视频序列组成的新型基准数据集)来实现的。我们的结果表明,FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素,并指出了可能的研究方向。尽管遇到了困难,但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计,随着新的和FPV特定的方法学会得到研究,通用对象跟踪将在FPV中受欢迎。
translated by 谷歌翻译
尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译
最近,我们看到了基于深神经网络(DNN)的视觉跟踪解决方案的快速发展。一些跟踪器将基于DNN的解决方案与判别相关滤波器(DCF)相结合,以提取语义特征并成功地提供最新的跟踪准确性。但是,这些解决方案是高度计算密集型的,需要长时间处理时间,从而导致无抵押的实时性能。为了提供高精度和可靠的实时性能,我们提出了一个名为Siamvgg的新颖跟踪器。它结合了卷积神经网络(CNN)主链和互相关操作员,并利用示例图像中的功能以进行更准确的对象跟踪。 Siamvgg的体系结构是根据VGG-16自定义的,其参数由示例性图像和所需的输入视频帧共享。我们在OTB-2013/50/100和Dot 2015/2016/2017数据集中证明了拟议的暹罗,具有STATE-ORT-TEA-ART精度,同时保持在GTX 1080TI上运行的50 FPS的体面实时性能。与Dot2017挑战中的ECO和C-COT相比,我们的设计可以实现预期平均重叠(EAO)的预期平均重叠(EAO)。
translated by 谷歌翻译
基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性,但不限于边界框跟踪和有限的转换模型,这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2,其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型,一个不变的变换,包括非刚性变形,另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计,进一步提高了整体跟踪可靠性。没有每数据集FineTuning,并且仅用于分段作为主要输出,D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器,并非常接近GOT-10K上的最先进的跟踪器, TrackingNet,OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK,并与顶部视频对象分段算法进行操作。
translated by 谷歌翻译
Person re-identification (Re-ID) aims at retrieving a person of interest across multiple non-overlapping cameras. With the advancement of deep neural networks and increasing demand of intelligent video surveillance, it has gained significantly increased interest in the computer vision community. By dissecting the involved components in developing a person Re-ID system, we categorize it into the closed-world and open-world settings. The widely studied closed-world setting is usually applied under various research-oriented assumptions, and has achieved inspiring success using deep learning techniques on a number of datasets. We first conduct a comprehensive overview with in-depth analysis for closed-world person Re-ID from three different perspectives, including deep feature representation learning, deep metric learning and ranking optimization. With the performance saturation under closed-world setting, the research focus for person Re-ID has recently shifted to the open-world setting, facing more challenging issues. This setting is closer to practical applications under specific scenarios. We summarize the open-world Re-ID in terms of five different aspects. By analyzing the advantages of existing methods, we design a powerful AGW baseline, achieving state-of-the-art or at least comparable performance on twelve datasets for FOUR different Re-ID tasks. Meanwhile, we introduce a new evaluation metric (mINP) for person Re-ID, indicating the cost for finding all the correct matches, which provides an additional criteria to evaluate the Re-ID system for real applications. Finally, some important yet under-investigated open issues are discussed.
translated by 谷歌翻译
跟踪牲畜的行为能够早期发现,从而预防现代动物农场的传染病。除了经济增益之外,这将减少畜牧业养殖的抗生素量,否则进入人类饮食恼怒的抗生素抗性的流行病 - 死亡的主要原因。我们可以使用标准的摄像机,在大多数现代农场提供,以监控牲畜。然而,大多数计算机视觉算法在这项任务上表现不佳,主要是因为(i)农场繁殖的动物看起来相同,缺乏任何明显的空间签名,(ii)没有现有的跟踪器对于长期保持稳健,并且(iii)真实 - 改变照明,频繁遮挡,不同的相机角度和动物尺寸的诸如变化的条件使得模型概括为概括。鉴于这些挑战,我们开发了针对小组母猪的端到端行为监测系统,以执行同时实例级分段,跟踪,动作识别和重新识别(星)任务。我们呈现StarFormer,这是第一个端到端的多目标牲畜监测框架,通过使用变压器架构了解分组猪的实例级嵌入式。对于基准测试,我们展示了一种仔细的策划数据集,包括视频序列,其中具有实例级界限框,实际室内养殖环境中的猪的分段,跟踪和活动分类。在明星任务上使用同步优化,我们展示了星际器优于培训的流行基线模型,为个人任务培训。
translated by 谷歌翻译
估计目标范围在视觉对象跟踪中构成了基本挑战。通常,跟踪器以箱子为中心,并且完全依靠边界框来定义场景中的目标。实际上,对象通常具有复杂的形状,并且与图像轴不符。在这些情况下,边界框不能提供对目标的准确描述,并且通常包含大多数背景像素。我们提出了一个以细分为中心的跟踪管道,该管道不仅会产生高度准确的分割掩码,而且还可以使用分割掩码而不是边界框来使用内部。因此,我们的跟踪器能够更好地学习目标表示形式,该目标表示明确将场景中的目标与背景内容区分开来。为了实现具有挑战性的跟踪方案的必要鲁棒性,我们提出了一个单独的实例本地化组件,该组件用于在产生输出掩码时用于调节分割解码器。我们从分段掩码中推断出一个边界框,验证我们的跟踪器在挑战跟踪数据集方面,并在LASOT上实现新的最新状态,并以69.7%的速度获得了AUC得分。由于大多数跟踪数据集不包含掩码注释,因此我们无法使用它们来评估预测的分割掩码。相反,我们在两个流行的视频对象细分数据集上验证了分割质量。
translated by 谷歌翻译
最近在视觉跟踪中成功的关键因素之一是专用基准的可用性。尽管对跟踪研究有很大的受益,但现有的基准并没有与以前相同的难度,而最近的跟踪器的性能则主要是由于(i)引入了更复杂的基于变形金刚的方法,并且(ii)缺乏各种情况,因此缺乏各种情况。不良的可见性,例如恶劣的天气条件,伪装和成像效应。我们介绍了Avist,这是一个专门的基准,用于在具有不良可见性的不同情况下进行视觉跟踪。 Avist包括120个具有80k注释框架的具有挑战性的序列,涵盖了18种不同的方案,这些场景大致分为五个具有42个对象类别的属性。远景的主要贡献是涵盖恶劣天气条件的多样化和挑战性的情况,例如浓雾,大雨和沙尘暴;阻塞效应,包括火,阳光和溅水;不利成像效应,例如,低光;目标效应,包括小目标和干扰物对象以及伪装。我们进一步基准了17个关于Avist的流行和最新跟踪器,对它们跨属性的跟踪性能进行了详细分析,这表明了性能改善的巨大空间。我们认为,远景可以通过补充现有的基准,开发新的创意跟踪解决方案,以继续推动最先进的界限,从而极大地使跟踪社区受益。我们的数据集以及完整的跟踪性能评估可在以下网址提供:https://github.com/visionml/pytracking
translated by 谷歌翻译
This paper presents a new large scale multi-person tracking dataset -- \texttt{PersonPath22}, which is over an order of magnitude larger than currently available high quality multi-object tracking datasets such as MOT17, HiEve, and MOT20 datasets. The lack of large scale training and test data for this task has limited the community's ability to understand the performance of their tracking systems on a wide range of scenarios and conditions such as variations in person density, actions being performed, weather, and time of day. \texttt{PersonPath22} dataset was specifically sourced to provide a wide variety of these conditions and our annotations include rich meta-data such that the performance of a tracker can be evaluated along these different dimensions. The lack of training data has also limited the ability to perform end-to-end training of tracking systems. As such, the highest performing tracking systems all rely on strong detectors trained on external image datasets. We hope that the release of this dataset will enable new lines of research that take advantage of large scale video based training data.
translated by 谷歌翻译
Siamese network based trackers formulate tracking as convolutional feature cross-correlation between a target template and a search region. However, Siamese trackers still have an accuracy gap compared with state-of-theart algorithms and they cannot take advantage of features from deep networks, such as ResNet-50 or deeper. In this work we prove the core reason comes from the lack of strict translation invariance. By comprehensive theoretical analysis and experimental validations, we break this restriction through a simple yet effective spatial aware sampling strategy and successfully train a ResNet-driven Siamese tracker with significant performance gain. Moreover, we propose a new model architecture to perform layer-wise and depthwise aggregations, which not only further improves the accuracy but also reduces the model size. We conduct extensive ablation studies to demonstrate the effectiveness of the proposed tracker, which obtains currently the best results on five large tracking benchmarks, including OTB2015, VOT2018, UAV123, LaSOT, and TrackingNet. Our model will be released to facilitate further researches.
translated by 谷歌翻译
While recent years have witnessed astonishing improvements in visual tracking robustness, the advancements in tracking accuracy have been limited. As the focus has been directed towards the development of powerful classifiers, the problem of accurate target state estimation has been largely overlooked. In fact, most trackers resort to a simple multi-scale search in order to estimate the target bounding box. We argue that this approach is fundamentally limited since target estimation is a complex task, requiring highlevel knowledge about the object.We address this problem by proposing a novel tracking architecture, consisting of dedicated target estimation and classification components. High level knowledge is incorporated into the target estimation through extensive offline learning. Our target estimation component is trained to predict the overlap between the target object and an estimated bounding box. By carefully integrating target-specific information, our approach achieves previously unseen bounding box accuracy. We further introduce a classification component that is trained online to guarantee high discriminative power in the presence of distractors. Our final tracking framework sets a new state-of-the-art on five challenging benchmarks. On the new large-scale Track-ingNet dataset, our tracker ATOM achieves a relative gain of 15% over the previous best approach, while running at over 30 FPS. Code and models are available at https: //github.com/visionml/pytracking.
translated by 谷歌翻译
RGB-D对象跟踪最近引起了广泛的关注,这得益于视觉和深度通道之间的共生能力。但是,鉴于有限的注释RGB-D跟踪数据,大多数最先进的RGB-D跟踪器是高性能RGB的简单扩展程序,而无需完全利用深度通道中深度通道的潜在潜力离线训练阶段。为了解决数据集缺乏问题,本文发布了一个名为RGBD1K的新的RGB-D数据集。 RGBD1K包含1,050个序列,总计约250万帧。为了证明对较大的RGB-D数据集的培训的好处,尤其是RGBD1K,我们开发了一个基于变压器的RGB-D跟踪器,名为SPT,是使用新数据集的未来视觉对象跟踪研究的基线。使用SPT跟踪器进行的广泛实验的结果表明,RGBD1K数据集的潜力可以提高RGB-D跟踪的性能,从而激发了有效跟踪器设计的未来发展。数据集和代码将在项目主页上提供:https://will.be.available.at.at.this.website。
translated by 谷歌翻译
我们呈现恐惧,新颖,快速,高效,准确,强大的暹罗视觉跟踪器。我们介绍了对象模型适配的架构块,称为双模板表示,以及像素 - 明智的融合块,以实现模型的额外灵活性和效率。双模板模块仅包含单个学习参数的时间信息,而像素-Wise融合块与标准相关模块相比,像素-Wise融合块对具有较少参数的判别特征进行了更多的辨别特征。通过用新型模块插入复杂的骨干,恐惧-M和恐惧-L跟踪器在既准确性和效率的几个学术基准上超过大多数暹粒例子。使用轻质骨干,优化的版本恐惧-XS提供了超过10倍的跟踪跟踪,而不是当前暹罗跟踪器,同时保持最先进的结果。 GEAF-XS跟踪器比LightTrack [62]更小2.4倍,比LightTrack [62]更高。此外,我们通过在能量消耗和执行速度上引入基准来扩展模型效率的定义。源代码,预先训练的模型和评估协议将根据要求提供
translated by 谷歌翻译
视频人群本地化是一项至关重要但又具有挑战性的任务,旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性,我们提出了多焦点高斯邻里注意力(GNA),可以有效利用远程对应关系,同时保持输入视频的空间拓扑结构。特别是,我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA,我们开发了一个名为GNANET的统一神经网络,以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外,为了促进该领域的未来研究,我们介绍了一个名为VScrowd的大规模人群视频基准,该视频由60k+框架组成,这些框架在各种监视场景和2M+头部注释中捕获。最后,我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验,实验结果表明,所提出的方法能够实现视频人群本地化和计数的最新性能。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
Correlation acts as a critical role in the tracking field, especially in recent popular Siamese-based trackers. The correlation operation is a simple fusion manner to consider the similarity between the template and the search re-
translated by 谷歌翻译
人群的理解由于其重要的实际意义引起了人们对视觉领域的普遍兴趣。不幸的是,没有努力探索桥接自然语言和计算机视觉的多模式领域中的人群理解。参考表达理解(REF)是一项代表性的多模式任务。当前的REF研究更多地集中在一般情况下从多个独特类别中扎根目标对象。很难应用于复杂的现实世界人群的理解。为了填补这一空白,我们提出了一个新的挑战性数据集,称为Refcrowd,该数据集旨在通过参考表达方式寻找人群中的目标人。它不仅需要充分挖掘自然语言信息,而且还需要仔细地专注于目标与具有相似外观的人群之间的细微差异,以实现从语言到视觉的细粒度映射。此外,我们提出了一个细粒度的多模式属性对比网络(FMAC),以在人群的理解中处理参考。它首先将复杂的视觉和语言特征分解为属性感知的多模式特征,然后捕获歧视性但健壮性的细粒属性特征,以有效地区分相似人之间的这些细微差异。所提出的方法优于我们的档案数据集和现有参考数据集中的现有最新方法(SOTA)方法。此外,我们为多模式域中的更深入研究实施了端到端的REF工具箱。我们的数据集和代码可以在:\ url {https://qiuheqian.github.io/datasets/refcrowd/}中可用。
translated by 谷歌翻译