智能论文笔记

Long-Range Thermal 3D Perception in Low Contrast Environments

Andrey Filippov , Olga Filippova

分类：计算机视觉

2021-12-10

本报告讨论了SBIR阶段的结果，我努力证明了基于微速度计的长波红外（LWIR）探测器灵敏度的显着改善的可行性，特别是对于3D测量。由此产生的低Swap-C热深度感测系统将实现自主空气车辆的态势认识，用于高级空气移动性（AAM）。它将提供周围环境的鲁棒3D信息，包括低对比度静态和移动物体，远距离降低的视觉条件和GPS拒绝区域。我们的多传感器3D感知通过COTS未冷却热传感器启用了LWIR传感器的主要弱点 - 通过增加系统敏感度，对比度为低对比度。没有适用于评估这项技术的可用热图像集，使数据集采集我们的第一个目标。我们讨论了具有十六件640pix x 512pix lwir探测器的原型系统的设计和构造，对子像素分辨率，捕获和处理同步图像的相机校准。结果表明，仅用于胃桶肥无速数据的3.84倍对比度和额外的5.5倍 - 含有三角细胞积累，达到40 mk传感器的系统噪声等效温差（NETD）。

translated by 谷歌翻译

Autonomous Driving in Adverse Weather Conditions: A Survey

Yuxiao Zhang , Alexander Carballo , Hanting Yang , Kazuya Takeda

分类：机器人

2021-12-16

自动化驾驶系统（广告）开辟了汽车行业的新领域，为未来的运输提供了更高的效率和舒适体验的新可能性。然而，在恶劣天气条件下的自主驾驶已经存在，使自动车辆（AVS）长时间保持自主车辆（AVS）或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战，并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术，当前可用的数据集，模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题，自主驾驶场目前正在面临，近年来审查硬件和计算机科学解决方案，这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。

translated by 谷歌翻译

Vision-Based Environmental Perception for Autonomous Driving

Fei Liu , Zihao Lu , Xianke Lin

分类：计算机视觉

2022-12-22

Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.

translated by 谷歌翻译

VECtor: A Versatile Event-Centric Benchmark for Multi-Sensor SLAM

Ling Gao , Yuxuan Liang , Jiaqi Yang , Shaoxun Wu , Chenyu Wang , Jiaben Chen , Laurent Kneip

分类：机器人 | 计算机视觉

2022-07-04

事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力，因此摄影机最近变得越来越受欢迎。通过同时定位和映射（SLAM）给出了可能受益于事件摄像机的重要问题。但是，为了确保在包含事件的多传感器大满贯上进展，需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机，常规立体声摄像机，多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的，并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备（例如运动捕获系统）捕获的地面真相数据。各个序列都包括小型和大型环境，并涵盖动态视觉传感器针对的特定挑战。

translated by 谷歌翻译

Deep Sea Bubble Stream Characterization Using Wide-Baseline Stereo Photogrammetry

Mengkun She , Yifan Song , Tim Weiß , Jens Greinert , Kevin Köser

分类：计算机视觉

2021-12-14

可靠地定量自然和人为气体释放（例如，从海底进入海洋的自然和人为气体释放（例如，Co $ _2 $，甲烷），最终是大气，是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气，但是即使从较大的距离中，精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的，即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中，我们介绍了一种完整的仪器和评估方法，用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统，可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性，然后将仪器迁移到其他位置，或者以自主间隔模式迁移到几天内，以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边，我们仔细评估了可达准确性并提出了一种新颖的校准程序，因为由于缺乏点对应，仅使用气泡的剪影。该系统已成功运营，在太平洋高达1000万水深，以评估甲烷通量。除了样品结果外，我们还会报告在开发期间汲取的故障案例和经验教训。

translated by 谷歌翻译

Neural Camera Models

Igor Vasiljevic

分类：计算机视觉

2022-08-27

现代计算机视觉已超越了互联网照片集的领域，并进入了物理世界，通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用，相机越来越多地用作深度传感器，重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步，但仍然存在重大挑战：（1）地面真相深度标签很难大规模收集，（2）通常认为相机信息是已知的，但通常是不可靠的，并且（3）限制性摄像机假设很常见，即使在实践中使用了各种各样的相机类型和镜头。在本论文中，我们专注于放松这些假设，并描述将相机变成真正通用深度传感器的最终目标的贡献。

translated by 谷歌翻译

Sensors for Mobile Robots

Henrik Andreasson , Giorgio Grisetti , Todor Stoyanov , Alberto Pretto

分类：机器人

2022-06-07

传感器是将物理参数或环境特征（例如温度，距离，速度等）转换为可以通过数字测量和处理以执行特定任务的信号的设备。移动机器人需要传感器来测量其环境的属性，从而允许安全导航，复杂的感知和相应的动作以及与填充环境的其他代理的有效相互作用。移动机器人使用的传感器范围从简单的触觉传感器（例如保险杠）到复杂的基于视觉的传感器，例如结构化灯相机。所有这些都提供了可以由机器人计算机处理的数字输出（例如，字符串，一组值，矩阵等）。通常通过使用传感器中包含的数字转换器（ADC）的类似物来离散一个或多个模拟电信号来获得此类输出。在本章中，我们介绍了移动机器人技术中最常见的传感器，并提供了其分类法，基本特征和规格的介绍。对功能和应用程序类型的描述遵循一种自下而上的方法：在描述现实世界传感器之前，介绍了传感器所基于的基本原理和组件，这些传感器通常基于多种技术和基本设备。

translated by 谷歌翻译

FaSS-MVS -- Fast Multi-View Stereo with Surface-Aware Semi-Global Matching from UAV-borne Monocular Imagery

Boitumelo Ruf , Martin Weinmann , Stefan Hinz

分类：计算机视觉

2021-12-01

使用FASS-MVS，我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法，其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来，由FASS-MVS估计的数据促进在线3D映射，这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成，其中深度和正常数据以及相应的置信度分数以粗略的方式估计，允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法，以产生深度假设，通过表面感知半全局优化来提取实际深度图，从而减少了SGM的正平行偏压。给定估计的深度图，然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中，我们表明，由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法，误差甚至没有一个幅度而不是科麦。然而，同时，FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14％，允许在1-中执行全高清图像的在线和增量处理2 Hz。

translated by 谷歌翻译

Leveraging blur information for plenoptic camera calibration

Mathieu Labussière , Céline Teulière , Frédéric Bernardin , Omar Ait-Aider

分类：计算机视觉

2021-11-09

本文提出了一种新型电镀摄像机的校准算法，尤其是多焦距配置，其中使用了几种类型的微透镜，仅使用原始图像。电流校准方法依赖于简化投影模型，使用重建图像的功能，或者需要每种类型的微透镜进行分离的校准。在多聚焦配置中，根据微透镜焦距，场景的相同部分将展示不同量的模糊。通常，使用具有最小模糊量的微图像。为了利用所有可用的数据，我们建议在新推出的模糊的模糊（BAP）功能的帮助下，在新的相机模型中明确地模拟Defocus模糊。首先，它用于检索初始相机参数的预校准步骤，而第二步骤，以表达在我们的单个优化过程中最小化的新成本函数。第三，利用它来校准微图像之间的相对模糊。它将几何模糊，即模糊圈链接到物理模糊，即点传播函数。最后，我们使用产生的模糊概况来表征相机的景深。实际数据对受控环境的定量评估展示了我们校准的有效性。

translated by 谷歌翻译

Under the Sand: Navigation and Localization of a Micro Aerial Vehicle for Landmine Detection with Ground Penetrating Synthetic Aperture Radar

Rik Bähnemann , Nicholas Lawrance , Lucas Streichenberg , Jen Jen Chung , Michael Pantic , Alexander Grathwohl , Christian Waldschmidt , Roland Siegwart

分类：机器人

2021-06-18

安装在微空中车辆（MAV）上的地面穿透雷达是有助于协助人道主义陆地间隙的工具。然而，合成孔径雷达图像的质量取决于雷达天线的准确和精确运动估计以及与MAV产生信息性的观点。本文介绍了一个完整的自动空气缩进的合成孔径雷达（GPSAR）系统。该系统由空间校准和时间上同步的工业级传感器套件组成，使得在地面上方，雷达成像和光学成像。自定义任务规划框架允许在地上控制地上的Stripmap和圆形（GPSAR）轨迹的生成和自动执行，以及空中成像调查飞行。基于因子图基于Dual接收机实时运动（RTK）全局导航卫星系统（GNSS）和惯性测量单元（IMU）的测量值，以获得精确，高速平台位置和方向。地面真理实验表明，传感器时机为0.8美元，正如0.1美元的那样，定位率为1 kHz。与具有不确定标题初始化的单个位置因子相比，双位置因子配方可提高高达40％，批量定位精度高达59％。我们的现场试验验证了本地化准确性和精度，使得能够相干雷达测量和检测在沙子中埋入的雷达目标。这验证了作为鸟瞰着地图检测系统的潜力。

translated by 谷歌翻译

A High Resolution Multi-exposure Stereoscopic Image & Video Database of Natural Scenes

Rohit Choudhary , Mansi Sharma , Aditya Wadaskar

分类：计算机视觉

2022-06-22

近年来，Imbersive显示器（例如VR耳机，AR眼镜，多视图显示器，自由点电视）已成为一种新的展示技术，与传统显示相比，提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展，高动态范围（HDR）摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样，足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈，从而限制了观众的体验质量（QOE）。在本文中，我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集，该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获，并提供户外位置的复杂场景，例如花园，路边景观，节日场地，建筑物和室内地区，例如学术和居住区。提出的数据集可容纳宽深度范围，复杂的深度结构，使物体运动复杂化，照明变化，丰富的色彩动态，纹理差异，除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外，详细描述了捕获，对齐和校准多曝光立体视频和图像的过程。最后，我们讨论了有关HDR成像，深度估计，一致的音调映射和3D HDR编码的进度，挑战，潜在用例和未来研究机会。

translated by 谷歌翻译

RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation

Fabio Tosi , Pierluigi Zama Ramirez , Matteo Poggi , Samuele Salti , Stefano Mattoccia , Luigi Di Stefano

分类：计算机视觉

2022-06-14

我们通过求解立体声匹配对应关系来解决注册同步颜色（RGB）和多光谱（MS）图像的问题。目的是，我们引入了一个新颖的RGB-MS数据集，在室内环境中框架13个不同的场景，并提供了34个图像对，并以差距图的形式带有半密度的高分辨率高分辨率地面标签。为了解决这项任务，我们提出了一个深度学习架构，通过利用进一步的RGB摄像机来以自我监督的方式进行培训，这仅在培训数据获取过程中需要。在此设置中，我们可以通过将知识从更轻松的RGB-RGB匹配任务中提炼出基于大约11K未标记的图像三重列表的集合来使知识从更轻松的RGB-RGB匹配任务中提取知识，从而方便地学习跨模式匹配。实验表明，提议的管道为这项小说，具有挑战性的任务进行了未来的研究，为未来的研究设定了良好的性能栏（1.16像素的平均注册错误）。

translated by 谷歌翻译

ESL: Event-based Structured Light

Manasi Muglikar , Guillermo Gallego , Davide Scaramuzza

分类：计算机视觉

2021-11-30

事件摄像机是生物启发传感器，可通过标准摄像机提供显着优势，例如低延迟，高延迟，高度的时间分辨率和高动态范围。我们提出了一种使用事件摄像机的新型结构化光系统来解决准确和高速深度感测的问题。我们的设置包括一个事件摄像机和一个激光点投影仪，在16毫秒期间，在光栅扫描模式中均匀地照亮场景。以前的方法匹配相互独立的事件，因此它们在信号延迟和抖动的存在下以高扫描速度提供噪声深度估计。相比之下，我们优化了旨在利用事件相关性的能量函数，称为时空稠度。所得到的方法对事件抖动鲁棒，因此以更高的扫描速度执行更好。实验表明，我们的方法可以根据事件摄像机处理高速运动和优于最先进的3D重建方法，对于相同的采集时间，平均地将RMSE降低了83％。

translated by 谷歌翻译

Wild ToFu: Improving Range and Quality of Indirect Time-of-Flight Depth with RGB Fusion in Challenging Environments

HyunJun Jung , Nikolas Brasch , Ales Leonardis , Nassir Navab , Benjamin Busam

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-07

间接飞行时间（I-TOF）成像是由于其小尺寸和价格合理的价格导致移动设备的深度估计方式。以前的作品主要专注于I-TOF成像的质量改进，特别是固化多路径干扰（MPI）的效果。这些调查通常在特定约束的场景中进行，在近距离，室内和小环境光下。令人惊讶的一点工作已经调查了现实生活场景的I-TOF质量改善，其中强烈的环境光线和远距离由于具有限制传感器功率和光散射而导致的诱导射击噪声和信号稀疏引起的困难。在这项工作中，我们提出了一种基于新的学习的端到端深度预测网络，其噪声原始I-TOF信号以及RGB图像基于涉及隐式和显式对齐的多步方法来解决它们的潜在表示。预测与RGB视点对齐的高质量远程深度图。与基线方法相比，我们在挑战真实世界场景中测试了挑战性质场景的方法，并在最终深度地图上显示了超过40％的RMSE改进。

translated by 谷歌翻译

Diffractive lensless imaging with optimized Voronoi-Fresnel phase

Qiang Fu , Dong-Ming Yan , Wolfgang Heidrich

分类：计算机视觉

2021-09-28

Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.

translated by 谷歌翻译

Team CERBERUS Wins the DARPA Subterranean Challenge: Technical Overview and Lessons Learned

Marco Tranzatto , Mihir Dharmadhikari , Lukas Bernreiter , Marco Camurri , Shehryar Khattak , Frank Mascarich , Patrick Pfreundschuh , David Wisth , Samuel Zimmermann , Mihir Kulkarni

分类：机器人

2022-07-11

本文介绍了Cerberus机器人系统系统，该系统赢得了DARPA Subterranean挑战最终活动。出席机器人自主权。由于其几何复杂性，降解的感知条件以及缺乏GPS支持，严峻的导航条件和拒绝通信，地下设置使自动操作变得特别要求。为了应对这一挑战，我们开发了Cerberus系统，该系统利用了腿部和飞行机器人的协同作用，再加上可靠的控制，尤其是为了克服危险的地形，多模式和多机器人感知，以在传感器退化，以及在传感器退化的条件下进行映射以及映射通过统一的探索路径计划和本地运动计划，反映机器人特定限制的弹性自主权。 Cerberus基于其探索各种地下环境及其高级指挥和控制的能力，表现出有效的探索，对感兴趣的对象的可靠检测以及准确的映射。在本文中，我们报告了DARPA地下挑战赛的初步奔跑和最终奖项的结果，并讨论了为社区带来利益的教训所面临的亮点和挑战。

translated by 谷歌翻译

UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search and Rescue in DARPA SubT

Matej Petrlik , Pavel Petracek , Vit Kratky , Tomas Musil , Yurii Stasinchuk , Matous Vrba , Tomas Baca , Daniel Hert , Martin Pecka , Tomas Svoboda

分类：机器人 | 人工智能

2022-06-16

本文提出了一种新颖的方法，用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分，拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反，该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署，并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划，面向覆盖范围和压缩的拓扑范围的LTVMAP领域，以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用，以在一般的3D环境中可见性受限的知情搜索，而对环境结构没有任何假设，同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道，用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外，在定性和定量评估的各种环境中，在不同的环境中进行了广泛的实验验证，UAV系统的性能得到了支持。

translated by 谷歌翻译

Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused Events Fusion

Suman Ghosh , Guillermo Gallego

分类：计算机视觉 | 机器人

2022-07-21

事件摄像机是由生物启发的传感器，比传统摄像机具有优势。它们不同步，用微秒的分辨率对场景进行采样，并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法，以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性，以建立匹配和估计深度。相比之下，我们研究了如何通过融合有效的单眼方法来融合差异空间图像（DSIS）来估计深度。我们开发融合理论，并将其应用于设计产生最先进结果的多相机3D重建算法，正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。

translated by 谷歌翻译

SOCRATES: A Stereo Camera Trap for Monitoring of Biodiversity

Timm Haucke , Hjalmar Kühl , Volker Steinhage

分类：计算机视觉 | 机器学习

2022-09-19

现代技术的开发和应用是对自然栖息地和景观中物种有效监测的重要基础，以追踪生态系统，物种社区和人群的发展，并分析变化的原因。为了使用诸如摄像头距离采样等方法估算动物丰度，根据3D（三维）测量的自然栖息地的空间信息至关重要。此外，3D信息可提高使用摄像头捕获的动物检测的准确性。这项研究为3D摄像头捕获提供了一种新颖的方法，该方法具有高度优化的硬件和软件。这种方法采用立体声愿景来推断自然栖息地的3D信息，并被指定为监测生物多样性（Socrates）的立体相机陷阱。对苏格拉底的全面评估不仅显示了$ 3.23 \％$的改善动物检测（边界盒$ \ text {map} _ {75} $），而且还可以使用相机陷阱距离采样来估算动物丰度。苏格拉底的软件和文档可在https://github.com/timmh/socrates上提供

translated by 谷歌翻译

Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized Photography

Ilya Chugunov , Yuxuan Zhang , Felix Heide

分类：计算机视觉

2022-12-22

Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a "long-burst", forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.

translated by 谷歌翻译