事件摄像机是生物启发传感器,可通过标准摄像机提供显着优势,例如低延迟,高延迟,高度的时间分辨率和高动态范围。我们提出了一种使用事件摄像机的新型结构化光系统来解决准确和高速深度感测的问题。我们的设置包括一个事件摄像机和一个激光点投影仪,在16毫秒期间,在光栅扫描模式中均匀地照亮场景。以前的方法匹配相互独立的事件,因此它们在信号延迟和抖动的存在下以高扫描速度提供噪声深度估计。相比之下,我们优化了旨在利用事件相关性的能量函数,称为时空稠度。所得到的方法对事件抖动鲁棒,因此以更高的扫描速度执行更好。实验表明,我们的方法可以根据事件摄像机处理高速运动和优于最先进的3D重建方法,对于相同的采集时间,平均地将RMSE降低了83%。
translated by 谷歌翻译
有源深度传感器,如结构化光,激光雷达和飞行时间系统以固定扫描速率均匀地样本整个场景的深度。这导致了有限的时空分辨率,其中冗余静态信息是过度采样的,并且可能会被采样珍贵运动信息。在本文中,我们提出了一种有效的生物启发事件 - 摄像机驱动深度估计算法。在我们的方法中,我们密集地动态地照亮感兴趣的领域,这取决于事件摄像机检测到的场景活动,并在没有动作的视野中稀疏地照亮区域。深度估计是通过基于事件的结构化光系统来实现,该光点投影仪组成,该激光点投影仪与调谐的第二事件的传感器耦合,以检测来自场景的激光器的反射。我们在模拟自主驾驶场景和真实室内序列中展示了我们方法的可行性,使用我们的原型。我们表明,在自动驾驶和室内环境的自然场景中,移动边缘平均对应于场景的不到10%。因此,我们的设置要求传感器仅扫描10%的场景,这可能会导致照明源的功耗较低的差价较低。虽然我们为基于事件的结构光系统提供了评估和验证,但这里提出的思想适用于Lidar,飞行时间和标准立体声等广泛的深度感测模式。视频可用于\ url {https://youtu.be/rvv9iqlyjcq}。
translated by 谷歌翻译
事件摄像机是由生物启发的传感器,比传统摄像机具有优势。它们不同步,用微秒的分辨率对场景进行采样,并产生亮度变化。这种非常规的输出引发了新型的计算机视觉方法,以释放相机的潜力。我们解决了SLAM的基于事件的立体3D重建问题。大多数基于事件的立体声方法都试图利用相机跨相机的高时间分辨率和事件同时性,以建立匹配和估计深度。相比之下,我们研究了如何通过融合有效的单眼方法来融合差异空间图像(DSIS)来估计深度。我们开发融合理论,并将其应用于设计产生最先进结果的多相机3D重建算法,正如我们通过与四种基线方法进行比较并在各种可用数据集上进行测试的确认。
translated by 谷歌翻译
Time-resolved image sensors that capture light at pico-to-nanosecond timescales were once limited to niche applications but are now rapidly becoming mainstream in consumer devices. We propose low-cost and low-power imaging modalities that capture scene information from minimal time-resolved image sensors with as few as one pixel. The key idea is to flood illuminate large scene patches (or the entire scene) with a pulsed light source and measure the time-resolved reflected light by integrating over the entire illuminated area. The one-dimensional measured temporal waveform, called \emph{transient}, encodes both distances and albedoes at all visible scene points and as such is an aggregate proxy for the scene's 3D geometry. We explore the viability and limitations of the transient waveforms by themselves for recovering scene information, and also when combined with traditional RGB cameras. We show that plane estimation can be performed from a single transient and that using only a few more it is possible to recover a depth map of the whole scene. We also show two proof-of-concept hardware prototypes that demonstrate the feasibility of our approach for compact, mobile, and budget-limited applications.
translated by 谷歌翻译
基于事件的相机(ECS)是受生物启发的传感器,它们异步报告每个像素的亮度变化。由于它们的高动态范围,像素带宽,时间分辨率,低功耗和计算简单性,它们对在挑战性照明条件下基于视觉的项目有益,并且可以通过微秒响应时间检测快速运动。第一代EC是单色的,但是颜色数据非常有用,有时对于某些基于视觉的应用程序至关重要。最新的技术使制造商能够建造颜色EC,交易传感器的大小,并与单色模型相比,尽管具有相同的带宽,但与单色模型相比大大降低了分辨率。此外,ECS仅检测光的变化,不会显示静态或缓慢移动的物体。我们介绍了一种使用结构化照明投影仪帮助的单色EC检测完整RGB事件的方法。投影仪在场景上迅速发出了光束的RGB图案,其反射是由EC捕获的。我们结合了ECS和基于投影的技术的好处,并允许将静态或移动物体与商用Ti LightCrafter 4500投影仪和单眼单色EC进行深度和颜色检测,为无框RGB-D传感应用铺平了道路。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
传感器是将物理参数或环境特征(例如温度,距离,速度等)转换为可以通过数字测量和处理以执行特定任务的信号的设备。移动机器人需要传感器来测量其环境的属性,从而允许安全导航,复杂的感知和相应的动作以及与填充环境的其他代理的有效相互作用。移动机器人使用的传感器范围从简单的触觉传感器(例如保险杠)到复杂的基于视觉的传感器,例如结构化灯相机。所有这些都提供了可以由机器人计算机处理的数字输出(例如,字符串,一组值,矩阵等)。通常通过使用传感器中包含的数字转换器(ADC)的类似物来离散一个或多个模拟电信号来获得此类输出。在本章中,我们介绍了移动机器人技术中最常见的传感器,并提供了其分类法,基本特征和规格的介绍。对功能和应用程序类型的描述遵循一种自下而上的方法:在描述现实世界传感器之前,介绍了传感器所基于的基本原理和组件,这些传感器通常基于多种技术和基本设备。
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
结构光(SL)系统以主动照明投影获得高保真3D几何形状。当在具有强烈的环境照明,全球照明和跨设备干扰的环境中工作时,常规系统会出现挑战。本文提出了一种通用技术,以通过投影除天然SL模式来预测冗余光学信号来提高SL的鲁棒性。这样,预计的信号与错误更具区别。因此,可以使用简单的信号处理更容易地恢复几何信息,并获得``性能中的编码增益''。我们使用冗余代码提出了三个应用程序:(1)在强环境光下进行SL成像的自我错误校正,((( 2)在全球照明下自适应重建的错误检测,以及(3)使用设备特定的投影序列编码的干扰过滤,尤其是针对基于事件摄像机的SL和灯窗帘设备。我们系统地分析了这些应用中的设计规则和信号处理算法。相应的硬件原型是用于在现实世界复杂场景上进行评估的。合成和真实数据的实验结果证明了具有冗余代码的SL系统的显着性能改进。
translated by 谷歌翻译
We present a novel single-shot interferometric ToF camera targeted for precise 3D measurements of dynamic objects. The camera concept is based on Synthetic Wavelength Interferometry, a technique that allows retrieval of depth maps of objects with optically rough surfaces at submillimeter depth precision. In contrast to conventional ToF cameras, our device uses only off-the-shelf CCD/CMOS detectors and works at their native chip resolution (as of today, theoretically up to 20 Mp and beyond). Moreover, we can obtain a full 3D model of the object in single-shot, meaning that no temporal sequence of exposures or temporal illumination modulation (such as amplitude or frequency modulation) is necessary, which makes our camera robust against object motion. In this paper, we introduce the novel camera concept and show first measurements that demonstrate the capabilities of our system. We present 3D measurements of small (cm-sized) objects with > 2 Mp point cloud resolution (the resolution of our used detector) and up to sub-mm depth precision. We also report a "single-shot 3D video" acquisition and a first single-shot "Non-Line-of-Sight" measurement. Our technique has great potential for high-precision applications with dynamic object movement, e.g., in AR/VR, industrial inspection, medical imaging, and imaging through scattering media like fog or human tissue.
translated by 谷歌翻译
许多移动制造商最近在其旗舰模型中采用了双像素(DP)传感器,以便更快的自动对焦和美学图像捕获。尽管他们的优势,由于DT在DP图像中的视差缺失的数据集和算法设计,但对3D面部理解的使用研究受到限制。这是因为子孔图像的基线非常窄,并且散焦模糊区域存在视差。在本文中,我们介绍了一种以DP为导向的深度/普通网络,该网络重建3D面部几何。为此目的,我们使用我们的多摄像头结构光系统捕获的101人拥有超过135k张图片的DP面部数据。它包含相应的地面真值3D模型,包括度量刻度的深度图和正常。我们的数据集允许建议的匹配网络广泛化,以便以3D面部深度/正常估计。所提出的网络由两种新颖的模块组成:自适应采样模块和自适应正常模块,专门用于处理DP图像中的散焦模糊。最后,该方法实现了最近基于DP的深度/正常估计方法的最先进的性能。我们还展示了估计深度/正常的适用性面对欺骗和致密。
translated by 谷歌翻译
我们提出EV-NERF,这是一个从事件数据得出的神经辐射场。虽然事件摄像机可以测量高框架速率的细微亮度变化,但低照明或极端运动的测量却遭受了显着的域差异,并具有复杂的噪声。结果,基于事件的视觉任务的性能不会转移到具有挑战性的环境中,在这种环境中,事件摄像机预计会在普通摄像机上蓬勃发展。我们发现,NERF的多视图一致性提供了强大的自我实施信号,以消除虚假测量结果并提取一致的基础结构,尽管输入高度嘈杂。 EV-NERF的输入不是原始NERF的图像,而是事件测量值,并伴随着传感器的运动。使用反映传感器测量模型的损耗函数,EV-NERF创建了一个集成的神经体积,该量总结了捕获约2-4秒的非结构化和稀疏数据点。生成的神经体积还可以从具有合理深度估计的新型视图中产生强度图像,这可以作为各种基于视觉任务的高质量输入。我们的结果表明,EV-NERF在极端噪声条件和高动力范围成像下实现了强度图像重建的竞争性能。
translated by 谷歌翻译
Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a "long-burst", forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.
translated by 谷歌翻译
这些年来,展示技术已经发展。开发实用的HDR捕获,处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中,我们开发了一种新颖的深度体系结构,以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先,对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分,部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求,该要求由基于重新编码的单码编码器CNN取代,具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次,我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大,并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面,所提出的模型超过了最新的单眼和立体声深度估计方法,无论是定量还是质量地,在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色,证明了其对不同3D HDR应用的有用性。
translated by 谷歌翻译
Event cameras that asynchronously output low-latency event streams provide great opportunities for state estimation under challenging situations. Despite event-based visual odometry having been extensively studied in recent years, most of them are based on monocular and few research on stereo event vision. In this paper, we present ESVIO, the first event-based stereo visual-inertial odometry, which leverages the complementary advantages of event streams, standard images and inertial measurements. Our proposed pipeline achieves temporal tracking and instantaneous matching between consecutive stereo event streams, thereby obtaining robust state estimation. In addition, the motion compensation method is designed to emphasize the edge of scenes by warping each event to reference moments with IMU and ESVIO back-end. We validate that both ESIO (purely event-based) and ESVIO (event with image-aided) have superior performance compared with other image-based and event-based baseline methods on public and self-collected datasets. Furthermore, we use our pipeline to perform onboard quadrotor flights under low-light environments. A real-world large-scale experiment is also conducted to demonstrate long-term effectiveness. We highlight that this work is a real-time, accurate system that is aimed at robust state estimation under challenging environments.
translated by 谷歌翻译
许多施工机器人任务(例如自动水泥抛光或机器人石膏喷涂)需要高精度3D表面信息。但是,目前在市场上发现的消费级深度摄像头还不够准确,对于需要毫米(mm)级别准确性的这些任务。本文介绍了SL传感器,SL传感器是一种结构化的光传感溶液,能够通过利用相移初量法(PSP)编码技术来生产5 Hz的高保真点云。将SL传感器与两个商用深度摄像机进行了比较 - Azure Kinect和Realsense L515。实验表明,SL传感器以室内表面重建应用的精度和精度超过了两个设备。此外,为了证明SL传感器成为机器人应用的结构化光传感研究平台的能力,开发了运动补偿策略,该策略允许SL传感器在传统PSP方法仅在传感器静态时工作时在线性运动过程中运行。现场实验表明,SL传感器能够生成喷雾灰泥表面的高度详细的重建。机器人操作系统(ROS)的软件和SL传感器的示例硬件构建是开源的,其目的是使结构化的光传感更容易被施工机器人社区访问。所有文档和代码均可在https://github.com/ethz-asl/sl_sensor/上获得。
translated by 谷歌翻译
近年来,Imbersive显示器(例如VR耳机,AR眼镜,多视图显示器,自由点电视)已成为一种新的展示技术,与传统显示相比,提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展,高动态范围(HDR)摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样,足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈,从而限制了观众的体验质量(QOE)。在本文中,我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集,该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获,并提供户外位置的复杂场景,例如花园,路边景观,节日场地,建筑物和室内地区,例如学术和居住区。提出的数据集可容纳宽深度范围,复杂的深度结构,使物体运动复杂化,照明变化,丰富的色彩动态,纹理差异,除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外,详细描述了捕获,对齐和校准多曝光立体视频和图像的过程。最后,我们讨论了有关HDR成像,深度估计,一致的音调映射和3D HDR编码的进度,挑战,潜在用例和未来研究机会。
translated by 谷歌翻译
由于摄像机外壳引起的水 - 空气界面处的光线非线性折射,恢复水下场景的3D几何是具有挑战性的。我们提出了一种基于光场的方法,从单个观点来利用角度样本的性能进行高质量的水下3D重建。具体地,我们将光场图像重新采样到角贴片。由于水下场景表现出弱视图依赖性镜面,在正确的深度上采样时,角度贴片趋于具有均匀的强度。因此,我们将这种角度均匀施加为深度估计的约束。为了高效角度重采样,我们设计一种基于多变量多项式回归的快速近似算法,以实现近似非线性折射路径。我们进一步开发了一种轻场校准算法,估计水上空气接口几何形状以及相机参数。综合性和真实数据的综合实验表明我们的方法在静态和动态水下场景中产生了最先进的重建。
translated by 谷歌翻译
我们提出了一个新颖的高分辨率和具有挑战性的立体声数据集框架室内场景,并以致密而准确的地面真相差异注释。我们数据集的特殊是存在几个镜面和透明表面的存在,即最先进的立体声网络失败的主要原因。我们的采集管道利用了一个新颖的深度时空立体声框架,该框架可以轻松准确地使用子像素精度进行标记。我们总共发布了419个样本,这些样本在64个不同的场景中收集,并以致密的地面差异注释。每个样本包括高分辨率对(12 MPX)以及一个不平衡对(左:12 MPX,右:1.1 MPX)。此外,我们提供手动注释的材料分割面具和15K未标记的样品。我们根据我们的数据集评估了最新的深层网络,强调了它们在解决立体声方面的开放挑战方面的局限性,并绘制了未来研究的提示。
translated by 谷歌翻译
门控相机作为扫描LIDAR传感器的替代方案,具有高分辨率的3D深度,在雾,雪和雨中稳健。不是通过光子飞行时间顺序地扫描场景并直接记录深度,如在脉冲激光雷达传感器中,所设定的成像器编码在百万像素分辨率的少量门控切片中的相对强度的深度。尽管现有方法表明,可以从这些测量中解码高分辨率深度,但这些方法需要同步和校准的LIDAR来监督门控深度解码器 - 禁止在地理位置上快速采用,在大型未配对数据集上培训,以及探索替代应用程序外面的汽车用例。在这项工作中,我们填补了这个差距并提出了一种完全自我监督的深度估计方法,它使用门控强度配置文件和时间一致性作为训练信号。所提出的模型从门控视频序列培训结束到结束,不需要LIDAR或RGB数据,并学会估计绝对深度值。我们将门控切片作为输入和解散估计场景,深度和环境光,然后用于学习通过循环损耗来重建输入切片。我们依赖于给定帧和相邻门控切片之间的时间一致性,以在具有阴影和反射的区域中估计深度。我们通过实验验证,所提出的方法优于基于单眼RGB和立体图像的现有监督和自我监督的深度估计方法,以及基于门控图像的监督方法。
translated by 谷歌翻译