智能论文笔记

Unsupervised Complementary-aware Multi-process Fusion for Visual Place Recognition

Stephen Hausler , Tobias Fischer , Michael Milford

分类：计算机视觉

2021-12-09

最近对视觉地位识别（VPR）问题的方法已经同时熔化多个互补VPR技术的地点识别估计。但是，选择在特定部署环境中使用的最佳技术集A-Priori是一个困难而未解决的挑战。此外，据我们所知，不存在任何方法，其可以响应于图像到图像变化来在逐帧基础上选择一组技术。在这项工作中，我们提出了一种无监督算法，该算法在逐帧基础上找到了在当前部署环境中使用的最强大的VPR技术。通过对当前查询图像与数据库图像集合之间的相似性分数的分析来确定技术的选择，并且不需要地面真实信息。我们在各种数据集和VPR技术上展示了我们的方法，并表明，与各种具有挑战性的竞争方法相比，所提出的动态多过程融合（DYN-MPF）具有优越的VPR性能，其中一些具有不公平的优势访问地面真理信息。

translated by 谷歌翻译

Improving Worst Case Visual Localization Coverage via Place-specific Sub-selection in Multi-camera Systems

Stephen Hausler , Ming Xu , Sourav Garg , Punarjay Chakravarty , Shubham Shrivastava , Ankit Vora , Michael Milford

分类：机器人 | 人工智能 | 计算机视觉

2022-06-28

6-DOF的视觉定位系统利用植根于3D几何形状的原则方法来对图像进行准确的摄像头姿势估计图。当前的技术使用层次管道并学到了2D功能提取器来提高可扩展性并提高性能。但是，尽管典型召回@0.25m类型的指标获得了，但由于其“最差”性能领域，这些系统仍然对实际应用（如自动驾驶汽车）的实用性有限 - 在某种程度上提供不足的召回率的位置。在这里，我们研究了使用“位置特定配置”的实用性，其中将地图分割为多个位置，每个位置都有自己的配置，用于调节姿势估计步骤，在这种情况下，在多摄像机系统中选择摄像机。在福特AV基准数据集上，我们证明了与使用现成管道相比，我们证明了最大的最差案例定位性能 - 最小化数据集的百分比，该数据集的百分比降低了一定的误差耐受性，并提高了整体定位性能。我们提出的方法尤其适用于自动驾驶汽车部署的众群体模型，在该模型中，AV机队定期穿越已知的路线。

translated by 谷歌翻译

How Many Events do You Need? Event-based Visual Place Recognition Using Sparse But Varying Pixels

Tobias Fischer , Michael Milford

分类：计算机视觉 | 人工智能 | 机器人

2022-06-28

事件摄像机由于理想的特征，例如高动态范围，低延迟，几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中，必须将查询观测值与数据库中的相应参考位置匹配。在这封信中，我们探讨了一小部分像素（在数十个或数百个）中的事件流的独特性。我们证明，当使用在参考集中显示大变化的像素时，积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏（图像坐标），但是（对于每个像素位置的事件数量）有变化，可以使位置估计值的频繁和计算廉价更新。此外，当事件帧包含恒定事件的数量时，我们的方法充分利用了感官流的事件驱动性质，并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法，以及新贡献的室内QCR-Event-VPR数据集，该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明，与这些数据集上的几种基线方法相比，我们的方法可实现竞争性能，并且特别适合于计算和能源约束的平台，例如星际漫游者。

translated by 谷歌翻译

Where is your place, Visual Place Recognition?

Sourav Garg , Tobias Fischer , Michael Milford

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2021-03-11

尽管外观和观点的显着变化，视觉地点识别（VPR）通常是能够识别相同的地方。 VPR是空间人工智能的关键组成部分，使机器人平台和智能增强平台，例如增强现实设备，以察觉和理解物理世界。在本文中，我们观察到有三个“驱动程序”，它对空间智能代理有所要求，因此vpr系统：1）特定代理包括其传感器和计算资源，2）该代理的操作环境，以及3）人造工具执行的具体任务。在本文中，考虑到这些驱动因素，包括他们的位置代表和匹配选择，在VPR区域中表征和调查关键作品。我们还基于视觉重叠的VPR提供了一种新的VPR - 类似于大脑中的空间视图单元格 - 这使我们能够找到对机器人和计算机视觉领域的其他研究领域的相似之处和差异。我们确定了许多开放的挑战，并建议未来工作需要更深入的关注的领域。

translated by 谷歌翻译

ORB-SLAM: a Versatile and Accurate Monocular SLAM System

Raul Mur-Artal , J. M. M. Montiel , Juan D. Tardos

分类：

2015-02-03

This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.

translated by 谷歌翻译

4Seasons: Benchmarking Visual SLAM and Long-Term Localization for Autonomous Driving in Challenging Conditions

Patrick Wenzel , Nan Yang , Rui Wang , Niclas Zeller , Daniel Cremers

分类：计算机视觉

2022-12-31

In this paper, we present a novel visual SLAM and long-term localization benchmark for autonomous driving in challenging conditions based on the large-scale 4Seasons dataset. The proposed benchmark provides drastic appearance variations caused by seasonal changes and diverse weather and illumination conditions. While significant progress has been made in advancing visual SLAM on small-scale datasets with similar conditions, there is still a lack of unified benchmarks representative of real-world scenarios for autonomous driving. We introduce a new unified benchmark for jointly evaluating visual odometry, global place recognition, and map-based visual localization performance which is crucial to successfully enable autonomous driving in any condition. The data has been collected for more than one year, resulting in more than 300 km of recordings in nine different environments ranging from a multi-level parking garage to urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up to centimeter-level accuracy obtained from the fusion of direct stereo-inertial odometry with RTK GNSS. We evaluate the performance of several state-of-the-art visual odometry and visual localization baseline approaches on the benchmark and analyze their properties. The experimental results provide new insights into current approaches and show promising potential for future research. Our benchmark and evaluation protocols will be available at https://www.4seasons-dataset.com/.

translated by 谷歌翻译

Deep Learning on Multimodal Sensor Data at the Wireless Edge for Vehicular Network

Batool Salehi , Guillem Reus-Muns , Debashri Roy , Zifeng Wang , Tong Jian , Jennifer Dy , Stratis Ioannidis , Kaushik Chowdhury

分类：机器学习

2022-01-12

在车辆场景中的毫米波链路的光束选择是一个具有挑战性的问题，因为所有候选光束对之间的详尽搜索都不能在短接触时间内被确认完成。我们通过利用像LIDAR，相机图像和GPS等传感器收集的多模级数据来解决这一问题。我们提出了可以在本地以及移动边缘计算中心（MEC）本地执行的个人方式和分布式融合的深度学习（F-DL）架构，并研究相关权衡。我们还制定和解决优化问题，以考虑实际的光束搜索，MEC处理和传感器到MEC数据传送延迟开销，用于确定上述F-DL架构的输出尺寸。在公开的合成和本土现实世界数据集上进行的广泛评估结果分别在古典RF光束上释放出95％和96％的束选择速度提高。在预测前10个最佳光束对中，F-DL还优于最先进的技术20-22％。

translated by 谷歌翻译

Data Efficient Visual Place Recognition Using Extremely JPEG-Compressed Images

Mihnea-Alexandru Tomita , Bruno Ferrarini , Michael Milford , Klaus McDonald-Maier , Shoaib Ehsan

分类：计算机视觉

2022-09-17

Visual Place识别（VPR）是机器人平台从其车载摄像机中正确解释视觉刺激的能力，以确定其当前是否位于先前访问的位置，尽管有不同的视点，照明和外观变化。 JPEG是一种广泛使用的图像压缩标准，能够以图像清晰度为代价显着降低图像的大小。对于同时部署多个机器人平台的应用程序，必须在每个机器人之间远程传输收集的视觉数据。因此，可以采用JPEG压缩来大大减少通信渠道传输的数据量，因为可以证明使用有限的带宽为有限的带宽是一项具有挑战性的任务。然而，以前尚未研究JPEG压缩对当前VPR技术性能的影响。因此，本文对与VPR相关方案中的JPEG压缩进行了深入研究。我们在8个数据集上使用一系列已建立的VPR技术，并应用了各种压缩。我们表明，通过引入压缩，VPR性能大大降低，尤其是在较高的压缩频谱中。为了克服JPEG压缩对VPR性能的负面影响，我们提出了一个微调的CNN，该CNN针对JPEG压缩数据进行了优化，并表明其在极度压缩的JPEG图像中检测到的图像转换更加一致。

translated by 谷歌翻译

Visual and Object Geo-localization: A Comprehensive Survey

Daniel Wilson , Xiaohan Zhang , Waqas Sultani , Safwan Wshah

分类：计算机视觉

2021-12-30

地理定位的概念是指确定地球上的某些“实体”的位置的过程，通常使用全球定位系统（GPS）坐标。感兴趣的实体可以是图像，图像序列，视频，卫星图像，甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用，而深入学习已经上升以提高机器学习模型的性能能力，因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用，如增强现实，机器人，自驾驶车辆，道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查，其涉及从捕获图像（图像地理定位）或图像内的地理定位对象（对象地理定位）的地理定位的综合调查。我们将提供深入的研究，包括流行算法的摘要，对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。

translated by 谷歌翻译

Fast and Incremental Loop Closure Detection with Deep Features and Proximity Graphs

Shan An , Haogang Zhu , Dong Wei , Konstantinos A. Tsintotas , Antonios Gasteratos

分类：计算机视觉 | 机器人

2020-09-29

近年来，机器人社区已经广泛检查了关于同时定位和映射应用范围内的地点识别任务的方法。这篇文章提出了一种基于外观的循环闭合检测管道，命名为“fild ++”（快速和增量环闭合检测） .First，系统由连续图像馈送，并且通过通过单个卷积神经网络通过两次，通过单个卷积神经网络来提取全局和局部深度特征。灵活，分级导航的小世界图逐步构建表示机器人遍历路径的可视数据库基于计算的全局特征。最后，每个时间步骤抓取查询映像，被设置为在遍历的路线上检索类似的位置。遵循的图像到图像配对，它利用本地特征来评估空间信息。因此，在拟议的文章中，我们向全球和本地特征提取提出了一个网络与我们之前的一个网络工作（FILD），而在生成的深度本地特征上采用了彻底搜索验证过程，避免利用哈希代码。关于11个公共数据集的详尽实验表现出系统的高性能（实现其中八个的最高召回得分）和低执行时间（在新学院平均22.05毫秒，这是与其他国家相比包含52480图像的最大版本） - 最艺术方法。

translated by 谷歌翻译

Incremental Semantic Localization using Hierarchical Clustering of Object Association Sets

Lan Hu , Zhongwei Luo , Runze Yuan , Yuchen Cao , Jiaxin Wei , Kai Wangand Laurent Kneip

分类：机器人

2022-08-28

我们提出了一种新颖的方法来重新定位或放置识别，这是许多机器人技术，自动化和AR应用中要解决的基本问题。我们不依靠通常不稳定的外观信息，而是考虑以局部对象形式给出参考图的情况。我们的本地化框架依赖于3D语义对象检测，然后与地图中的对象关联。可能的配对关联集是基于评估空间兼容性的合并度量的层次聚类而生长的。后者特别使用有关相对对象配置的信息，该信息相对于全局转换是不变的。随着相机逐步探索环境并检测更多对象，关联集将进行更新和扩展。我们在几种具有挑战性的情况下测试我们的算法，包括动态场景，大型视图变化以及具有重复实例的场景。我们的实验表明，我们的方法在鲁棒性和准确性方面都优于先前的艺术。

translated by 谷歌翻译

HTML版本

Self-Supervised Domain Calibration and Uncertainty Estimation for Place Recognition

Pierre-Yves Lajoie , Giovanni Beltrame

分类：计算机视觉 | 机器人

2022-03-08

基于深度学习的视觉位置识别技术近年来将自己作为最先进的技术，并不能很好地概括与训练集在视觉上不同的环境。因此，为了达到最佳性能，有时有必要将网络调整到目标环境中。为此，我们根据同时定位和映射（SLAM）作为监督信号而不需要GPS或手动标记，提出了一个基于强大的姿势图优化的自我监督域校准程序。此外，我们利用该程序来改善在安全关键应用中很重要的位置识别匹配的不确定性估计。我们表明，我们的方法可以改善目标环境与训练集不同的最先进技术的性能，并且我们可以获得不确定性估计。我们认为，这种方法将帮助从业者在现实世界应用中部署健壮的位置识别解决方案。我们的代码公开可用：https：//github.com/mistlab/vpr-calibration-and-uncrightity

translated by 谷歌翻译

Spatio-Visual Fusion-Based Person Re-Identification for Overhead Fisheye Images

Mertcan Cokbas , Prakash Ishwar , Janusz Konrad

分类：计算机视觉

2022-12-22

Reliable and cost-effective counting of people in large indoor spaces is a significant challenge with many applications. An emerging approach is to deploy multiple fisheye cameras mounted overhead to monitor the whole space. However, due to the overlapping fields of view, person re-identificaiton (PRID) is critical for the accuracy of counting. While PRID has been thoroughly researched for traditional rectilinear cameras, few methods have been proposed for fisheye cameras and their performance is comparatively lower. To close this performance gap, we propose a multi-feature framework for fisheye PRID where we combine deep-learning, color-based and location-based features by means of novel feature fusion. We evaluate the performance of our framework for various feature combinations on FRIDA, a public fisheye PRID dataset. The results demonstrate that our multi-feature approach outperforms recent appearance-based deep-learning methods by almost 18% points and location-based methods by almost 3% points in accuracy.

translated by 谷歌翻译

General Place Recognition Survey: Towards the Real-world Autonomy Age

Peng Yin , Shiqi Zhao , Ivan Cisneros , Abulikemu Abuduweili , Guoquan Huang , Micheal Milford , Changliu Liu , Howie Choset , Sebastian Scherer

分类：机器人 | 计算机视觉

2022-09-09

位置识别是可以协助同时定位和映射（SLAM）进行循环闭合检测和重新定位以进行长期导航的基本模块。在过去的20美元中，该地点认可社区取得了惊人的进步，这吸引了在计算机视觉和机器人技术等多个领域的广泛研究兴趣和应用。但是，在复杂的现实世界情景中，很少有方法显示出有希望的位置识别性能，在复杂的现实世界中，长期和大规模的外观变化通常会导致故障。此外，在最先进的方法之间缺乏集成框架，可以应对所有挑战，包括外观变化，观点差异，对未知区域的稳健性以及现实世界中的效率申请。在这项工作中，我们调查针对长期本地化并讨论未来方向和机会的最先进方法。首先，我们研究了长期自主权中的位置识别以及在现实环境中面临的主要挑战。然后，我们回顾了最新的作品，以应对各种位置识别挑战的不同传感器方式和当前的策略的认可。最后，我们回顾了现有的数据集以进行长期本地化，并为不同的方法介绍了我们的数据集和评估API。本文可以成为该地点识别界新手的研究人员以及关心长期机器人自主权的研究人员。我们还对机器人技术中的常见问题提供了意见：机器人是否需要准确的本地化来实现长期自治？这项工作以及我们的数据集和评估API的摘要可向机器人社区公开，网址为：https：//github.com/metaslam/gprs。

translated by 谷歌翻译

EchoVPR: Echo State Networks for Visual Place Recognition

Anil Ozdemir , Mark Scerri , Andrew B. Barron , Andrew Philippides , Michael Mangan , Eleni Vasilaki , Luca Manneschi

分类：计算机视觉 | 机器学习 | 机器人

2021-10-11

识别以前访问的位置是自主导航中的一个重要而未解决的任务。当前视觉放置识别（VPR）基准通常挑战模型以从包括空间和时间分量的顺序数据集恢复查询图像（或图像）的位置。最近，回声状态网络（ESN）品种在解决需要时空建模的机器学习任务中被证明特别强大。这些网络是简单的，但功能强大的神经架构 - 在多个时间量表和非线性高维表示上展示内存 - 可以发现数据中的时间关系，同时仍然保持学习的线性。在本文中，我们提出了一系列ESN并分析了他们对VPR问题的适用性。我们报告说，与预处理的卷积神经网络一起添加ESNS导致了与六个标准基准（GardensPoints，Spedtest，Essex3in1，牛津机Robotcar和Nordland）中的五个中的非经常性网络的性能剧烈提升ESN能够捕获VPR问题中固有的时间结构。此外，我们表明包括ESN的模型可以胜过类领先的VPR模型，该模型也利用数据的顺序动态。最后，我们的结果表明ESN还提高了泛化能力，稳健性和准确性，进一步支持其对VPR应用的适用性。

translated by 谷歌翻译

Siamese Object Tracking for Unmanned Aerial Vehicle: A Review and Comprehensive Analysis

Changhong Fu , Kunhan Lu , Guangze Zheng , Junjie Ye , Ziang Cao , Bowen Li , Geng Lu

分类：计算机视觉

2022-05-09

基于无人机（UAV）基于无人机的视觉对象跟踪已实现了广泛的应用，并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量，暹罗网络在基于无人机的对象跟踪中闪耀，其准确性，稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化，暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是，由于无人机在板载计算资源和复杂的现实情况下，暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署，这项工作对前沿暹罗跟踪器进行了全面的审查，以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后，进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外，为了更好地促进跟踪社区的发展，这项工作分析了现有的暹罗跟踪器的局限性，并进行了以低弹片评估表示的其他实验。最后，深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架，即代码库及其实验评估的结果，请访问https://github.com/vision4robotics/siamesetracking4uav。

translated by 谷歌翻译

A Faster, Lighter and Stronger Deep Learning-Based Approach for Place Recognition

Rui Huang , Ze Huang , Songzhi Su

分类：计算机视觉 | 机器人

2022-11-27

Visual Place Recognition is an essential component of systems for camera localization and loop closure detection, and it has attracted widespread interest in multiple domains such as computer vision, robotics and AR/VR. In this work, we propose a faster, lighter and stronger approach that can generate models with fewer parameters and can spend less time in the inference stage. We designed RepVGG-lite as the backbone network in our architecture, it is more discriminative than other general networks in the Place Recognition task. RepVGG-lite has more speed advantages while achieving higher performance. We extract only one scale patch-level descriptors from global descriptors in the feature extraction stage. Then we design a trainable feature matcher to exploit both spatial relationships of the features and their visual appearance, which is based on the attention mechanism. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent other state-of-the-art learned approaches, and achieving even higher inference speed. Our system has 14 times less params than Patch-NetVLAD, 6.8 times lower theoretical FLOPs, and run faster 21 and 33 times in feature extraction and feature matching. Moreover, the performance of our approach is 0.5\% better than Patch-NetVLAD in Recall@1. We used subsets of Mapillary Street Level Sequences dataset to conduct experiments for all other challenging conditions.

translated by 谷歌翻译

UNav: An Infrastructure-Independent Vision-Based Navigation System for People with Blindness and Low vision

Anbang Yang , Mahya Beheshti , Todd E Hudson , Rajesh Vedanthan , Wachara Riewpaiboon , Pattanasak Mongkolwat , Chen Feng , John-Ross Rizzo

分类：计算机视觉

2022-09-22

现在，基于视觉的本地化方法为来自机器人技术到辅助技术的无数用例提供了新出现的导航管道。与基于传感器的解决方案相比，基于视觉的定位不需要预安装的传感器基础架构，这是昂贵，耗时和/或通常不可行的。本文中，我们为特定用例提出了一个基于视觉的本地化管道：针对失明和低视力的最终用户的导航支持。给定最终用户在移动应用程序上拍摄的查询图像，该管道利用视觉位置识别（VPR）算法在目标空间的参考图像数据库中找到相似的图像。这些相似图像的地理位置用于采用加权平均方法来估计最终用户的位置和透视N点（PNP）算法的下游任务中，以估计最终用户的方向。此外，该系统实现了Dijkstra的算法，以根据包括Trip Origin和目的地的可通航地图计算最短路径。用于本地化和导航的层压映射是使用定制的图形用户界面构建的，该图形用户界面投影了3D重建的稀疏映射，从一系列图像构建到相应的先验2D楼平面图。用于地图构造的顺序图像可以在预映射步骤中收集，也可以通过公共数据库/公民科学清除。端到端系统可以使用带有自定义移动应用程序的相机安装在任何可互联网的设备上。出于评估目的，在复杂的医院环境中测试了映射和定位。评估结果表明，我们的系统可以以少于1米的平均误差来实现本地化，而无需了解摄像机的固有参数，例如焦距。

translated by 谷歌翻译

Ensembles of Compact, Region-specific & Regularized Spiking Neural Networks for Scalable Place Recognition

Somayeh Hussaini , Michael Milford , Tobias Fischer

分类：计算机视觉

2022-09-19

尖峰神经网络由于其在专门硬件上的高能源效率而在机器人技术中具有巨大的潜在效用，但是概念验证的实现通常尚未通过常规方法实现竞争性能或能力。在本文中，我们通过引入一种新型的模块化整体网络方法来应对可扩展性的关键实践挑战之一，在这种方法中，紧凑的，本地化的尖峰网络每个人都学习，并且仅负责仅在环境的局部地区识别位置。这种模块化方法创建了一个高度可扩展的系统。但是，它带来了高性能的成本，在部署时间缺乏全球正规化会导致过度活跃的神经元，这些神经元错误地对其博学地区以外的地方做出了错误的反应。我们的第二个贡献介绍了一种正则化方法，该方法在初始环境学习阶段检测并消除了这些有问题的多动神经元。我们在基准定位数据集Nordland和Oxford Robotcar上评估了这种新的可扩展模块化系统，并与标准技术Netvlad和SAD进行了比较，以及先前的尖峰神经网络系统。我们的系统在其小数据集上大大优于先前的SNN系统，但在27倍的基准数据集上保持了性能，在该数据集上，以前系统的操作在计算上是不可行的，并且与常规定位系统竞争性能。

translated by 谷歌翻译

Visual Object Tracking in First Person Vision

Matteo Dunnhofer , Antonino Furnari , Giovanni Maria Farinella , Christian Micheloni

分类：计算机视觉

2022-09-27

对人类对象相互作用的理解在第一人称愿景（FPV）中至关重要。遵循相机佩戴者操纵的对象的视觉跟踪算法可以提供有效的信息，以有效地建模此类相互作用。在过去的几年中，计算机视觉社区已大大提高了各种目标对象和场景的跟踪算法的性能。尽管以前有几次尝试在FPV域中利用跟踪器，但仍缺少对最先进跟踪器的性能的有条理分析。这项研究差距提出了一个问题，即应使用当前的解决方案``现成''还是应进行更多特定领域的研究。本文旨在为此类问题提供答案。我们介绍了FPV中单个对象跟踪的首次系统研究。我们的研究广泛分析了42个算法的性能，包括通用对象跟踪器和基线FPV特定跟踪器。分析是通过关注FPV设置的不同方面，引入新的绩效指标以及与FPV特定任务有关的。这项研究是通过引入Trek-150（由150个密集注释的视频序列组成的新型基准数据集）来实现的。我们的结果表明，FPV中的对象跟踪对当前的视觉跟踪器构成了新的挑战。我们强调了导致这种行为的因素，并指出了可能的研究方向。尽管遇到了困难，但我们证明了跟踪器为需要短期对象跟踪的FPV下游任务带来好处。我们预计，随着新的和FPV特定的方法学会得到研究，通用对象跟踪将在FPV中受欢迎。

translated by 谷歌翻译