智能论文笔记

iToF2dToF: A Robust and Flexible Representation for Data-Driven Time-of-Flight Imaging

Felipe Gutierrez-Barragan , Huaijin Chen , Mohit Gupta , Andreas Velten , Jinwei Gu

分类：计算机视觉

2021-03-12

间接飞行时间（ITOF）相机是一个有希望的深度传感技术。然而，它们容易出现由多路径干扰（MPI）和低信噪比（SNR）引起的错误。传统方法，在去噪后，通过估计编码深度的瞬态图像来减轻MPI。最近，在不使用中间瞬态表示的情况下，共同去噪和减轻MPI的数据驱动方法已经成为最先进的。在本文中，我们建议重新审视瞬态代表。使用数据驱动的Priors，我们将其插入/推断ITOF频率并使用它们来估计瞬态图像。给定直接TOF（DTOF）传感器捕获瞬态图像，我们将我们的方法命名为ITOF2DTOF。瞬态表示是灵活的。它可以集成与基于规则的深度感测算法，对低SNR具有强大，并且可以处理实际上出现的模糊场景（例如，镜面MPI，光学串扰）。我们在真正深度传感方案中展示了先前方法上的ITOF2DTOF的好处。

translated by 谷歌翻译

RADU: Ray-Aligned Depth Update Convolutions for ToF Data Denoising

Michael Schelling , Pedro Hermosilla , Timo Ropinski

分类：计算机视觉

2021-11-30

由于多路径干扰（MPI），飞行时间（TOF）摄像机受高水平的噪声和扭曲。虽然最近的研究表明，2D神经网络能够以先前的传统最先进的（SOTA）方法胜过去噪，但已经完成了基于学习的方法的研究，以便直接使用存在的3D信息在深度图像中。在本文中，我们提出了一种在3D空间中运行的迭代去噪方法，该方法旨在通过启用3D点卷积来校正视图方向校正点的位置来学习2.5D数据。由于标记的现实世界数据稀缺了这项任务，我们进一步培训我们的网络，并在未标记的真实世界数据上培训我们的网络，以解释现实世界统计数据。我们展示我们的方法能够在多个数据集中倾斜SOTA方法，包括两个现实世界数据集和本文介绍的新的大规模合成数据集。

translated by 谷歌翻译

3D Scene Inference from Transient Histograms

Sacha Jungerman , Atul Ingle , Yin Li , Mohit Gupta

分类：计算机视觉

2022-11-09

Time-resolved image sensors that capture light at pico-to-nanosecond timescales were once limited to niche applications but are now rapidly becoming mainstream in consumer devices. We propose low-cost and low-power imaging modalities that capture scene information from minimal time-resolved image sensors with as few as one pixel. The key idea is to flood illuminate large scene patches (or the entire scene) with a pulsed light source and measure the time-resolved reflected light by integrating over the entire illuminated area. The one-dimensional measured temporal waveform, called \emph{transient}, encodes both distances and albedoes at all visible scene points and as such is an aggregate proxy for the scene's 3D geometry. We explore the viability and limitations of the transient waveforms by themselves for recovering scene information, and also when combined with traditional RGB cameras. We show that plane estimation can be performed from a single transient and that using only a few more it is possible to recover a depth map of the whole scene. We also show two proof-of-concept hardware prototypes that demonstrate the feasibility of our approach for compact, mobile, and budget-limited applications.

translated by 谷歌翻译

Lightweight Deep Learning Architecture for MPI Correction and Transient Reconstruction

Adriano Simonetto , Gianluca Agresti , Pietro Zanuttigh , Henrik Schäfer

分类：计算机视觉

2021-11-29

间接飞行时间摄像机（ITOF）是低成本设备，其以交互式帧速率提供深度图像。但是，它们受到不同误差源的影响，具有多路径干扰（MPI）的聚光灯，这项技术的关键挑战。常见的数据驱动方法倾向于专注于输出深度值的直接估计，忽略场景中光的底层瞬态传播。在这项工作中，我们提出了一个非常紧凑的架构，利用了用于去除MPI的瞬态信息的直接全球性，并为瞬态信息本身重建。所提出的模型达到了最先进的MPI校正性能，也可以在综合和实际数据上进行，并且在极端的噪声中也被证明是非常竞争力的;同时，它还致力于重建来自多频I IOF数据的瞬态信息。

translated by 谷歌翻译

Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized Photography

Ilya Chugunov , Yuxuan Zhang , Felix Heide

分类：计算机视觉

2022-12-22

Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a "long-burst", forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.

translated by 谷歌翻译

High Dynamic Range and Super-Resolution from Raw Image Bursts

Bruno Lecouat , Thomas Eboli , Jean Ponce , Julien Mairal

分类：计算机视觉

2022-07-29

由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限，在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法（据我们所知），以重建高分辨率，高动态范围的颜色图像，这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法，用于求解相应的逆问题和学习的图像表示，以进行健壮的比对，并以前的自然图像。所提出的算法很快，与基于最新的学习图像恢复方法相比，内存需求较低，并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能，具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片，以及对低光条件，噪音，摄像机摇动和中等物体运动的高度鲁棒性。

translated by 谷歌翻译

PS$^2$F: Polarized Spiral Point Spread Function for Single-Shot 3D Sensing

Bhargav Ghanekar , Vishwanath Saragadam , Dushyant Mehra , Anna-Karin Gustavsson , Aswin Sankaranarayanan , Ashok Veeraraghavan

分类：计算机视觉

2022-07-03

我们提出了一种依赖工程点扩散功能（PSF）的紧凑型快照单眼估计技术。微观超分辨率成像中使用的传统方法，例如双螺旋PSF（DHPSF），不适合比稀疏的一组点光源更复杂的场景。我们使用cram \'er-rao下限（CRLB）显示，将DHPSF的两个叶分开，从而捕获两个单独的图像导致深度精度的急剧增加。用于生成DHPSF的相掩码的独特属性是，将相掩码分为两个半部分，导致两个裂片的空间分离。我们利用该属性建立一个基于紧凑的极化光学设置，在该设置中，我们将两个正交线性极化器放在DHPSF相位掩码的每一半上，然后使用极化敏感的摄像机捕获所得图像。模拟和实验室原型的结果表明，与包括DHPSF和Tetrapod PSF在内的最新设计相比，我们的技术达到了高达50美元的深度误差，而空间分辨率几乎没有损失。

translated by 谷歌翻译

A Survey on Intrinsic Images: Delving Deep Into Lambert and Beyond

Elena Garces , Carlos Rodriguez-Pardo , Dan Casas , Jorge Lopez-Moreno

分类：计算机视觉

2021-12-07

传统上，本征成像或内在图像分解被描述为将图像分解为两层：反射率，材料的反射率;和一个阴影，由光和几何之间的相互作用产生。近年来，深入学习技术已广泛应用，以提高这些分离的准确性。在本调查中，我们概述了那些在知名内在图像数据集和文献中使用的相关度量的结果，讨论了预测所需的内在图像分解的适用性。虽然Lambertian的假设仍然是许多方法的基础，但我们表明，对图像形成过程更复杂的物理原理组件的潜力越来越意识到，这是光学准确的材料模型和几何形状，更完整的逆轻型运输估计。考虑使用的前瞻和模型以及驾驶分解过程的学习架构和方法，我们将这些方法分类为分解的类型。考虑到最近神经，逆和可微分的渲染技术的进步，我们还提供了关于未来研究方向的见解。

translated by 谷歌翻译

Neural Camera Models

Igor Vasiljevic

分类：计算机视觉

2022-08-27

现代计算机视觉已超越了互联网照片集的领域，并进入了物理世界，通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用，相机越来越多地用作深度传感器，重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步，但仍然存在重大挑战：（1）地面真相深度标签很难大规模收集，（2）通常认为相机信息是已知的，但通常是不可靠的，并且（3）限制性摄像机假设很常见，即使在实践中使用了各种各样的相机类型和镜头。在本论文中，我们专注于放松这些假设，并描述将相机变成真正通用深度传感器的最终目标的贡献。

translated by 谷歌翻译

TöRF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis

Benjamin Attal , Eliot Laidlaw , Aaron Gokaslan , Changil Kim , Christian Richardt , James Tompkin , Matthew O'Toole

分类：计算机视觉

2021-09-30

神经网络可以表示和准确地重建静态3D场景的辐射场（例如，NERF）。有几种作品将这些功能扩展到用单眼视频捕获的动态场景，具有很有希望的性能。然而，已知单眼设置是一个受限制的问题，因此方法依赖于数据驱动的前导者来重建动态内容。我们用飞行时间（TOF）相机的测量来替换这些前沿，并根据连续波TOF相机的图像形成模型引入神经表示。我们而不是使用加工的深度映射，我们模拟了原始的TOF传感器测量，以改善重建质量，避免低反射区域，多路径干扰和传感器的明确深度范围的问题。我们表明，这种方法改善了动态场景重建对错误校准和大型运动的鲁棒性，并讨论了现在可在现代智能手机上提供的RGB + TOF传感器的好处和限制。

translated by 谷歌翻译

NeRF in the Dark: High Dynamic Range View Synthesis from Noisy Raw Images

Ben Mildenhall , Peter Hedman , Ricardo Martin-Brualla , Pratul Srinivasan , Jonathan T. Barron

分类：计算机视觉

2021-11-26

神经辐射字段（NERF）是一种用于高质量新颖观看综合的技术从一系列姿势输入图像。与大多数视图合成方法一样，NERF使用TONEMAPPED的低动态范围（LDR）作为输入;这些图像已经通过流畅的相机管道处理，平滑细节，剪辑突出显示，并扭曲了原始传感器数据的简单噪声分布。我们修改NERF以直接在线性原始图像直接培训，保持场景的完整动态范围。通过从生成的NERF渲染原始输出图像，我们可以执行新颖的高动态范围（HDR）视图综合任务。除了改变相机的观点外，我们还可以在事实之后操纵焦点，曝光和调度率。虽然单个原始图像显然比后处理的原始图像显着更大，但我们表明NERF对原始噪声的零平均分布非常强大。当优化许多嘈杂的原始输入（25-200）时，NERF会产生一个场景表示，如此准确的，即其呈现的新颖视图优于在同一宽基线输入图像上运行的专用单个和多像深生物丹机。因此，我们调用Rawnerf的方法可以从近黑暗中捕获的极其嘈杂的图像中重建场景。

translated by 谷歌翻译

Wild ToFu: Improving Range and Quality of Indirect Time-of-Flight Depth with RGB Fusion in Challenging Environments

HyunJun Jung , Nikolas Brasch , Ales Leonardis , Nassir Navab , Benjamin Busam

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-07

间接飞行时间（I-TOF）成像是由于其小尺寸和价格合理的价格导致移动设备的深度估计方式。以前的作品主要专注于I-TOF成像的质量改进，特别是固化多路径干扰（MPI）的效果。这些调查通常在特定约束的场景中进行，在近距离，室内和小环境光下。令人惊讶的一点工作已经调查了现实生活场景的I-TOF质量改善，其中强烈的环境光线和远距离由于具有限制传感器功率和光散射而导致的诱导射击噪声和信号稀疏引起的困难。在这项工作中，我们提出了一种基于新的学习的端到端深度预测网络，其噪声原始I-TOF信号以及RGB图像基于涉及隐式和显式对齐的多步方法来解决它们的潜在表示。预测与RGB视点对齐的高质量远程深度图。与基线方法相比，我们在挑战真实世界场景中测试了挑战性质场景的方法，并在最终深度地图上显示了超过40％的RMSE改进。

translated by 谷歌翻译

Video Reconstruction from a Single Motion Blurred Image using Learned Dynamic Phase Coding

Erez Yosef , Shay Elmalem , Raja Giryes

分类：计算机视觉

2021-12-28

来自单个运动模糊图像的视频重建是一个具有挑战性的问题，可以增强现有的相机的能力。最近，几种作品使用传统的成像和深度学习解决了这项任务。然而，由于方向模糊和噪声灵敏度，这种纯粹 - 数字方法本质上是有限的。一些作品提出使用非传统图像传感器解决这些限制，然而，这种传感器非常罕见和昂贵。为了使这些限制具有更简单的方法，我们提出了一种用于视频重建的混合光学 - 数字方法，其仅需要对现有光学系统的简单修改。在图像采集期间，在镜头孔径中使用学习的动态相位编码以对运动轨迹进行编码，该运动轨迹用作视频重建过程的先前信息。使用图像到视频卷积神经网络，所提出的计算相机以各种编码运动模糊图像的各种帧速率产生锐帧帧突发。与现有方法相比，我们使用模拟和现实世界的相机原型表现了优势和改进的性能。

translated by 谷歌翻译

Monocular Spherical Depth Estimation with Explicitly Connected Weak Layout Cues

Nikolaos Zioulis , Federico Alvarez , Dimitrios Zarpalas , Petros Daras

分类：计算机视觉

2022-06-22

球形摄像机以整体方式捕获场景，并已用于房间布局估计。最近，随着适当数据集的可用性，从单个全向图像中的深度估计也取得了进展。尽管这两个任务是互补的，但很少有作品能够并行探索它们以提高室内几何感知，而那些这样做的人则依靠合成数据或使用过的小型数据集，因为很少有选项可供选择，包括两个布局。在真实场景中的注释和密集的深度图。这部分是由于需要对房间布局进行手动注释。在这项工作中，我们超越了此限制，并生成360几何视觉（360V）数据集，该数据集包括多种模式，多视图立体声数据并自动生成弱布局提示。我们还探索了两个任务之间的明确耦合，以将它们集成到经过单打的训练模型中。我们依靠基于深度的布局重建和基于布局的深度注意，这表明了两项任务的性能提高。通过使用单个360摄像机扫描房间，出现了便利和快速建筑规模3D扫描的机会。

translated by 谷歌翻译

Diffractive lensless imaging with optimized Voronoi-Fresnel phase

Qiang Fu , Dong-Ming Yan , Wolfgang Heidrich

分类：计算机视觉

2021-09-28

Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.

translated by 谷歌翻译

Recent Advances on Non-Line-of-Sight Imaging: Conventional Physical Models, Deep Learning, and New Scenes

Ruixu Geng , Yang Hu , Yan Chen

分类：计算机视觉

2021-04-28

作为一种引起巨大关注的新兴技术，通过分析继电器表面上的漫反射来重建隐藏物体的非视线（NLOS）成像，具有广泛的应用前景，在自主驾驶，医学成像和医学成像领域防御。尽管信噪比低（SNR）和高不良效率的挑战，但近年来，NLOS成像已迅速发展。大多数当前的NLOS成像技术使用传统的物理模型，通过主动或被动照明构建成像模型，并使用重建算法来恢复隐藏场景。此外，NLOS成像的深度学习算法最近也得到了很多关注。本文介绍了常规和深度学习的NLOS成像技术的全面概述。此外，我们还调查了新的拟议的NLOS场景，并讨论了现有技术的挑战和前景。这样的调查可以帮助读者概述不同类型的NLOS成像，从而加速了在角落周围看到的发展。

translated by 谷歌翻译

Seeing Far in the Dark with Patterned Flash

Zhanghao Sun , Jian Wang , Yicheng Wu , Shree Nayar

分类：计算机视觉

2022-07-25

闪光照明广泛用于在弱光环境下的成像中。然而，照明强度在繁殖距离四边形掉落，这对长距离闪存成像构成了重大挑战。我们提出了一种新的Flash技术，称为“图案闪光灯”，用于长途闪光灯成像。图案闪光灯将光功率浓缩到点阵列中。与传统的均匀闪光灯相比，信号被各地的噪声淹没，图案闪光灯在整个视野的稀疏分布点上提供了更强的信号，以确保这些点处的信号从传感器噪声中脱颖而出。这使后处理能够解决重要的对象和细节。此外，图案闪光灯将纹理投影到场景上，可以将其视为深度感知的结构化光系统。鉴于新型系统，我们使用卷积神经网络开发了联合图像重建和深度估计算法。我们构建硬件原型，并在各种场景上测试提出的闪存技术。实验结果表明，在弱光环境中，我们的图案闪光在长距离的性能明显更好。

translated by 谷歌翻译

ResDepth: A Deep Residual Prior For 3D Reconstruction From High-resolution Satellite Images

Corinne Stucker , Konrad Schindler

分类：计算机视觉

2021-06-15

现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中，由此产生的数字表面模型（DSM）相当嘈杂，并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说，基于低电平图像相似性的立体声对应不足，并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此，我们介绍了Resptepth，这是一个卷积神经网络，其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即，它充当了一个智能，学习的后处理过滤器，可以无缝地补充任何立体声匹配管道。在一系列实验中，我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明，网络权重中的先前编码捕获了城市设计的有意义的几何特征，这也概括了不同地区，甚至从一个城市到另一个城市。此外，我们证明，通过对各种立体对的训练，RESPTH可以在成像条件和采集几何体中获得足够的不变性。

translated by 谷歌翻译

Physics to the Rescue: Deep Non-line-of-sight Reconstruction for High-speed Imaging

Fangzhou Mu , Sicheng Mo , Jiayong Peng , Xiaochun Liu , Ji Hyun Nam , Siddeshwar Raghavan , Andreas Velten , Yin Li

分类：计算机视觉

2022-05-03

由于成像硬件和重建算法的重大进展，计算成像拐角处或非视线（NLOS）成像的方法正在成为现实。 NAM等人的最新发展NLOS成像。展示了一个高速非焦距成像系统，其运行速度为5Hz，比以前的ART快100倍。然而，这种巨大的采集率增长需要在光传输中进行大量近似，打破了许多现有的NLOS重建方法，这些方法采用了理想化的图像形成模型。为了弥合差距，我们提出了一个新颖的深层模型，该模型结合了波传播和体积渲染的互补物理学先验，以进行高质量和强大的NLOS重建。该精心策划的设计通过放松图像形成模型来规范解决方案空间，从而产生了一个深层模型，尽管在合成数据上只接受了专门的培训，但在真实捕获上却很好地概括了。此外，我们设计了一个统一的学习框架，使我们的模型能够使用各种监督信号（包括目标强度图像甚至RAW NLOS瞬态测量）灵活训练我们的模型。一旦受过训练，我们的模型就会在一次前传球中的推理时间呈现强度和深度图像，能够在高端GPU上处理超过5个以上的捕获。通过广泛的定性和定量实验，我们表明我们的方法的表现优于先前的物理和基于学习的方法，同时基于合成和实际测量。我们预计，我们的方法以及快速捕获系统将加速NLOS成像的未来开发，用于需要高速成像的现实世界应用。

translated by 谷歌翻译

Learning to See in the Dark

Chen Chen , Qifeng Chen , Jia Xu , Vladlen Koltun

分类：

2018-05-04

a) Camera output with ISO 8,000 (b) Camera output with ISO 409,600 (c) Our result from the raw data of (a) Figure 1. Extreme low-light imaging with a convolutional network. Dark indoor environment. The illuminance at the camera is < 0.1 lux. The Sony α7S II sensor is exposed for 1/30 second. (a) Image produced by the camera with ISO 8,000. (b) Image produced by the camera with ISO 409,600. The image suffers from noise and color bias. (c) Image produced by our convolutional network applied to the raw sensor data from (a).

translated by 谷歌翻译