活动相机是一种与传统摄像机不同的新型传感器。每个像素通过事件异步触发。触发事件是在像素上照射的亮度的变化。如果亮度的增量或衰减高于某个阈值,则输出事件。与传统相机相比,活动相机具有高动态范围和运动模糊的优点。将事件累积到帧和使用传统的SLAM算法是一种基于事件的SLAM的直接和有效的方法。不同的事件累加器设置,例如事件流的切片方法,没有动作的处理方法,使用极性,衰减功能和事件贡献,可能导致相当不同的累积结果。我们对如何累积事件帧进行研究以实现更好的基于事件的SLAM性能。对于实验验证,累积的事件帧被馈送到传统的SLAM系统以构建基于事件的SLAM系统。我们的设置事件累加器的策略已在公共数据集上进行评估。实验结果表明,与基于最先进的事件帧的SLAM算法相比,我们的方法可以在大多数序列中实现更好的性能。此外,所提出的方法已经在四轮车UAV上进行了测试,以显示实际方案中的应用程序。代码和结果是开放的,以使事件摄像机的研究界受益
translated by 谷歌翻译
事件摄像机是运动激活的传感器,可捕获像素级照明的变化,而不是具有固定帧速率的强度图像。与标准摄像机相比,它可以在高速运动和高动态范围场景中提供可靠的视觉感知。但是,当相机和场景之间的相对运动受到限制时,例如在静态状态下,事件摄像机仅输出一点信息甚至噪音。尽管标准相机可以在大多数情况下,尤其是在良好的照明条件下提供丰富的感知信息。这两个相机完全是互补的。在本文中,我们提出了一种具有鲁棒性,高智能和实时优化的基于事件的视觉惯性镜(VIO)方法,具有事件角度,基于线的事件功能和基于点的图像功能。提出的方法旨在利用人为场景中的自然场景和基于线路的功能中的基于点的功能,以通过设计良好设计的功能管理提供更多其他结构或约束信息。公共基准数据集中的实验表明,与基于图像或基于事件的VIO相比,我们的方法可以实现卓越的性能。最后,我们使用我们的方法演示了机上闭环自动驾驶四极管飞行和大规模室外实验。评估的视频在我们的项目网站上介绍:https://b23.tv/oe3qm6j
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
Event cameras that asynchronously output low-latency event streams provide great opportunities for state estimation under challenging situations. Despite event-based visual odometry having been extensively studied in recent years, most of them are based on monocular and few research on stereo event vision. In this paper, we present ESVIO, the first event-based stereo visual-inertial odometry, which leverages the complementary advantages of event streams, standard images and inertial measurements. Our proposed pipeline achieves temporal tracking and instantaneous matching between consecutive stereo event streams, thereby obtaining robust state estimation. In addition, the motion compensation method is designed to emphasize the edge of scenes by warping each event to reference moments with IMU and ESVIO back-end. We validate that both ESIO (purely event-based) and ESVIO (event with image-aided) have superior performance compared with other image-based and event-based baseline methods on public and self-collected datasets. Furthermore, we use our pipeline to perform onboard quadrotor flights under low-light environments. A real-world large-scale experiment is also conducted to demonstrate long-term effectiveness. We highlight that this work is a real-time, accurate system that is aimed at robust state estimation under challenging environments.
translated by 谷歌翻译
由于它们对运动模糊和在弱光和高动态范围条件下的高度鲁棒性的韧性,事件摄像机有望成为对未来火星直升机任务的基于视觉探索的传感器。但是,现有的基于事件的视觉惯性进程(VIO)算法要么患有高跟踪误差,要么是脆弱的,因为它们无法应对由于无法预料的跟踪损失或其他效果而导致的显着深度不确定性。在这项工作中,我们介绍了EKLT-VIO,该工作通过将基于事件的最新前端与基于过滤器的后端相结合来解决这两种限制。这使得不确定性的准确和强大,超过了基于事件和基于框架的VIO算法在挑战性基准上的算法32%。此外,我们在悬停的条件(胜过现有事件的方法)以及新近收集的类似火星和高动态范围的新序列中表现出准确的性能,而现有的基于框架的方法失败了。在此过程中,我们表明基于事件的VIO是基于视觉的火星探索的前进道路。
translated by 谷歌翻译
事件摄像机是一种新型的生物启发的视觉传感器,可输出事件流。在本文中,我们提出了一种称为EAS的新型数据融合算法,将常规强度图像与事件流融合。融合结果应用于某些自我运动估计框架,并在DIM场景中获得的公共数据集上进行评估。在我们的3-DOF旋转估计框架中,EAS在强度图像和包括事件切片,TS和坐标在内的事件的表示之间达到了最高的估计精度。与原始图像相比,EAS将平均猿类降低了69%,从而受益于更多的跟踪功能。结果表明,我们的算法有效地利用了事件摄像机的高动态范围,以在困难照明条件下基于光流跟踪基于光流跟踪的自我运动估计框架的性能。
translated by 谷歌翻译
事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力,因此摄影机最近变得越来越受欢迎。通过同时定位和映射(SLAM)给出了可能受益于事件摄像机的重要问题。但是,为了确保在包含事件的多传感器大满贯上进展,需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机,常规立体声摄像机,多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的,并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备(例如运动捕获系统)捕获的地面真相数据。各个序列都包括小型和大型环境,并涵盖动态视觉传感器针对的特定挑战。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
Visual object tracking under challenging conditions of motion and light can be hindered by the capabilities of conventional cameras, prone to producing images with motion blur. Event cameras are novel sensors suited to robustly perform vision tasks under these conditions. However, due to the nature of their output, applying them to object detection and tracking is non-trivial. In this work, we propose a framework to take advantage of both event cameras and off-the-shelf deep learning for object tracking. We show that reconstructing event data into intensity frames improves the tracking performance in conditions under which conventional cameras fail to provide acceptable results.
translated by 谷歌翻译
高保真大满贯系统的开发过程取决于它们对可靠数据集的验证。为了实现这一目标,我们提出了IBiscape,这是一种模拟基准,其中包括来自异质传感器的数据同步和获取API:立体声 - RGB/DVS,深度,IMU和GPS,以及地面真相场景场景细分和车辆自我摄入量。我们的基准是建立在卡拉模拟器上的,后端是虚幻的引擎,呈现出模拟现实世界的高动态风景。此外,我们提供34个适用于自动驾驶汽车导航的多模式数据集,包括用于场景理解等情况,例如事故等,以及基于与API集成的动态天气模拟类别的广泛框架质量。我们还将第一个校准目标引入了Carla图,以解决CARLA模拟DVS和RGB摄像机的未知失真参数问题。最后,使用IBISCAPE序列,我们评估了四个ORB-SLAM 3系统(单眼RGB,立体RGB,立体声视觉惯性(SVI)和RGB-D)的性能和玄武岩视觉惯性轴测计(VIO)系统,这些系统在模拟的大型大型序列上收集的各种序列 - 规模动态环境。关键字:基准,多模式,数据集,探针,校准,DVS,SLAM
translated by 谷歌翻译
有源深度传感器,如结构化光,激光雷达和飞行时间系统以固定扫描速率均匀地样本整个场景的深度。这导致了有限的时空分辨率,其中冗余静态信息是过度采样的,并且可能会被采样珍贵运动信息。在本文中,我们提出了一种有效的生物启发事件 - 摄像机驱动深度估计算法。在我们的方法中,我们密集地动态地照亮感兴趣的领域,这取决于事件摄像机检测到的场景活动,并在没有动作的视野中稀疏地照亮区域。深度估计是通过基于事件的结构化光系统来实现,该光点投影仪组成,该激光点投影仪与调谐的第二事件的传感器耦合,以检测来自场景的激光器的反射。我们在模拟自主驾驶场景和真实室内序列中展示了我们方法的可行性,使用我们的原型。我们表明,在自动驾驶和室内环境的自然场景中,移动边缘平均对应于场景的不到10%。因此,我们的设置要求传感器仅扫描10%的场景,这可能会导致照明源的功耗较低的差价较低。虽然我们为基于事件的结构光系统提供了评估和验证,但这里提出的思想适用于Lidar,飞行时间和标准立体声等广泛的深度感测模式。视频可用于\ url {https://youtu.be/rvv9iqlyjcq}。
translated by 谷歌翻译
A monocular visual-inertial system (VINS), consisting of a camera and a low-cost inertial measurement unit (IMU), forms the minimum sensor suite for metric six degreesof-freedom (DOF) state estimation. However, the lack of direct distance measurement poses significant challenges in terms of IMU processing, estimator initialization, extrinsic calibration, and nonlinear optimization. In this work, we present VINS-Mono: a robust and versatile monocular visual-inertial state estimator. Our approach starts with a robust procedure for estimator initialization and failure recovery. A tightly-coupled, nonlinear optimization-based method is used to obtain high accuracy visual-inertial odometry by fusing pre-integrated IMU measurements and feature observations. A loop detection module, in combination with our tightly-coupled formulation, enables relocalization with minimum computation overhead. We additionally perform four degrees-of-freedom pose graph optimization to enforce global consistency. We validate the performance of our system on public datasets and real-world experiments and compare against other state-of-the-art algorithms. We also perform onboard closed-loop autonomous flight on the MAV platform and port the algorithm to an iOS-based demonstration. We highlight that the proposed work is a reliable, complete, and versatile system that is applicable for different applications that require high accuracy localization. We open source our implementations for both PCs 1 and iOS mobile devices 2 .
translated by 谷歌翻译
组合多个传感器使机器人能够最大程度地提高其对环境的感知意识,并增强其对外部干扰的鲁棒性,对机器人导航至关重要。本文提出了可融合的基准测试,这是一个完整的多传感器数据集,具有多种移动机器人序列。本文提出了三项贡献。我们首先推进便携式和通用的多传感器套件,可提供丰富的感官测量值:10Hz激光镜点云,20Hz立体声框架图像,来自立体声事件相机的高速率和异步事件,来自IMU的200Hz惯性读数以及10Hz GPS信号。传感器已经在硬件中暂时同步。该设备轻巧,独立,并为移动机器人提供插件支持。其次,我们通过收集17个序列来构建数据集,该序列通过利用多个机器人平台进行数据收集来涵盖校园上各种环境。一些序列对现有的SLAM算法具有挑战性。第三,我们为将本地化和映射绩效评估提供了基础真理。我们还评估最新的大满贯方法并确定其局限性。该数据集将发布由原始传感器的设置,地面真相,校准数据和评估算法组成:https://ram-lab.com/file/site/site/multi-sensor-dataset。
translated by 谷歌翻译
视觉惯性化学测定法吸引了自主驾驶和机器人技术领域的广泛关注。视场(FOV)的大小在视觉播音(VO)和视觉惯性二次测量法(VO)中起着重要作用,作为大型FOV,可以感知各种周围的场景元素和特征。但是,当摄像机的字段到达负半平面时,就不能简单地使用[u,v,1]^t来表示图像特征点。为了解决这个问题,我们建议LF-VIO,这是一个具有极大FOV的相机的实时VIO框架。我们利用具有单位长度的三维矢量来表示特征点,并设计一系列算法来克服这一挑战。为了解决带有地位的位置和姿势的全景视觉探针数据集的稀缺性,我们介绍了Palvio数据集,该数据集用具有360 {\ deg} x的整个FOV的全景环形镜头(PAL)系统收集(40 {\ deg}) -120 {\ deg})和IMU传感器。有了全面的实验,在已建立的Palvio基准和公共Fisheye摄像机数据集上验证了建议的LF-VIO,其FOV为360 {\ deg} x(0 {\ deg} -93.5 {\ deg})。 LF-VIO优于最先进的视觉惯性 - 调节法。我们的数据集和代码可在https://github.com/flysoaryun/lf-vio上公开提供。
translated by 谷歌翻译
在过去的几年中,同时定位和映射(SLAM)的研究取得了出色的进步。如今,SLAM系统正在从学术到现实世界的应用过渡。但是,这种过渡在准确性和鲁棒性方面提出了新的挑战。为了开发可以解决这些挑战的新的SLAM系统,需要新的包含尖端硬件和现实情况的数据集。我们提出了HILTI SLAM挑战数据集。我们的数据集包含室内序列,实验室,建筑环境以及建筑工地和停车区的室外序列。所有这些序列的特征是无特征区域和不同的照明条件,这些条件在现实世界中典型,并对在密封实验室环境中开发的算法构成了巨大的挑战。每个序列都提供了准确的稀疏地面真相,以毫米水平为毫米。用于记录数据的传感器平台包括许多视觉,激光雷达和惯性传感器,它们在空间和时间上进行了校准。该数据集的目的是促进传感器融合的研究,以开发可以在需要高准确性和鲁棒性(例如在施工环境中)部署的SLAM算法。许多学术和工业团体在HILTI SLAM挑战中的拟议数据集上测试了他们的SLAM系统。本文总结的挑战结果表明,拟议的数据集是准备在现实世界中部署的新SLAM算法开发的重要资产。
translated by 谷歌翻译
事件摄像机由于理想的特征,例如高动态范围,低延迟,几乎没有运动模糊和高能量效率而继续引起兴趣。事件摄像机研究的潜在应用之一是在机器人本地化的视觉场所识别中,必须将查询观测值与数据库中的相应参考位置匹配。在这封信中,我们探讨了一小部分像素(在数十个或数百个)中的事件流的独特性。我们证明,当使用在参考集中显示大变化的像素时,积累到事件框架的那些像素位置的事件数量的绝对差异就足以足以进行位置识别任务。使用如此稀疏(图像坐标),但是(对于每个像素位置的事件数量)有变化,可以使位置估计值的频繁和计算廉价更新。此外,当事件帧包含恒定事件的数量时,我们的方法充分利用了感官流的事件驱动性质,并显示出对速度变化的有希望的鲁棒性。我们在户外驾驶场景中评估了布里斯班 - 事件-VPR数据集的建议方法,以及新贡献的室内QCR-Event-VPR数据集,该数据集用安装在移动机器人平台上的Davis346相机捕获。我们的结果表明,与这些数据集上的几种基线方法相比,我们的方法可实现竞争性能,并且特别适合于计算和能源约束的平台,例如星际漫游者。
translated by 谷歌翻译
我们提出EV-NERF,这是一个从事件数据得出的神经辐射场。虽然事件摄像机可以测量高框架速率的细微亮度变化,但低照明或极端运动的测量却遭受了显着的域差异,并具有复杂的噪声。结果,基于事件的视觉任务的性能不会转移到具有挑战性的环境中,在这种环境中,事件摄像机预计会在普通摄像机上蓬勃发展。我们发现,NERF的多视图一致性提供了强大的自我实施信号,以消除虚假测量结果并提取一致的基础结构,尽管输入高度嘈杂。 EV-NERF的输入不是原始NERF的图像,而是事件测量值,并伴随着传感器的运动。使用反映传感器测量模型的损耗函数,EV-NERF创建了一个集成的神经体积,该量总结了捕获约2-4秒的非结构化和稀疏数据点。生成的神经体积还可以从具有合理深度估计的新型视图中产生强度图像,这可以作为各种基于视觉任务的高质量输入。我们的结果表明,EV-NERF在极端噪声条件和高动力范围成像下实现了强度图像重建的竞争性能。
translated by 谷歌翻译
这项工作介绍了使用常规摄像头和事件摄像机的多动画视觉数据获取的共同捕获系统。事件摄像机比基于框架的相机具有多个优势,例如高时间分辨率和时间冗余抑制,这使我们能够有效捕获鱼类的快速和不稳定的运动。此外,我们提出了一种基于事件的多动物跟踪算法,该算法证明了该方法的可行性,并为进一步探索事件摄像机和传统摄像机的多动物跟踪的优势提供了基础。
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译