智能论文笔记

Video Reconstruction from a Single Motion Blurred Image using Learned Dynamic Phase Coding

Erez Yosef , Shay Elmalem , Raja Giryes

分类：计算机视觉

2021-12-28

来自单个运动模糊图像的视频重建是一个具有挑战性的问题，可以增强现有的相机的能力。最近，几种作品使用传统的成像和深度学习解决了这项任务。然而，由于方向模糊和噪声灵敏度，这种纯粹 - 数字方法本质上是有限的。一些作品提出使用非传统图像传感器解决这些限制，然而，这种传感器非常罕见和昂贵。为了使这些限制具有更简单的方法，我们提出了一种用于视频重建的混合光学 - 数字方法，其仅需要对现有光学系统的简单修改。在图像采集期间，在镜头孔径中使用学习的动态相位编码以对运动轨迹进行编码，该运动轨迹用作视频重建过程的先前信息。使用图像到视频卷积神经网络，所提出的计算相机以各种编码运动模糊图像的各种帧速率产生锐帧帧突发。与现有方法相比，我们使用模拟和现实世界的相机原型表现了优势和改进的性能。

translated by 谷歌翻译

Rethinking Motion Deblurring Training: A Segmentation-Based Method for Simulating Non-Uniform Motion Blurred Images

Guillermo Carbajal , Patricia Vitoria , Pablo Musé , José Lezama

分类：计算机视觉

2022-09-26

成功培训端到端的深网进行真实运动去缩合，需要尖锐/模糊的图像对数据集，这些数据集现实且多样化，足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中，我们首先回顾了现有的Deblurring基准数据集的局限性，从泛化到野外模糊图像的角度。其次，我们提出了一种有效的程序方法，以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构，并在四个真实模糊图像的标准数据集中对其进行评估，从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。

translated by 谷歌翻译

Event-guided Deblurring of Unknown Exposure Time Videos

Taewoo Kim , Jungmin Lee , Lin Wang , Kuk-Jin Yoon

分类：计算机视觉

2021-12-13

视频去抑制是一种高度均不存在的问题，因为模糊劣化过程中的运动信息丢失。由于事件相机可以通过高时分辨率捕获表观运动，因此多次尝试探索了引导视频去纹的事件的潜力。这些方法通常认为曝光时间与视频帧速率的倒数相同。然而，在实际情况下，这不是真的，并且曝光时间可能是未知的并且根据视频拍摄环境（例如，照明条件）动态地变化。在本文中，假设基于帧的相机的动态可变未知的曝光时间来解决事件引导视频去纹。为此，我们首先通过考虑视频帧采集过程中的曝光和读出时间来推导出事件引导视频去掩模的新配方。然后，我们提出了一种用于事件引导视频去纹的新的结束终端学习框架。特别地，我们设计了一种新的基于曝光时间的事件选择（ETES）模块，以通过估计来自模糊帧和事件的特征之间的跨模型相关来选择性地使用事件特征。此外，我们提出了一种特征融合模块，以有效地熔断来自事件和模糊帧的所选功能。我们对各种数据集进行广泛的实验，并证明我们的方法实现了最先进的性能。我们的项目代码和预付费型号将可用。

translated by 谷歌翻译

Digital Gimbal: End-to-end Deep Image Stabilization with Learnable Exposure Times

Omer Dahary , Matan Jacoby , Alex M. Bronstein

分类：计算机视觉

2020-12-08

使用致动万向节的机械图像稳定使得能够捕获长曝光镜头而不会因相机运动而遭受模糊。然而，这些装置通常是物理上繁琐和昂贵的，限制了他们广泛的使用。在这项工作中，我们建议通过输入快速未稳定的相机的输入来数字化地模拟机械稳定的系统。在短曝光的长曝光和低SNR处开发运动模糊之间的折衷，我们通过聚集由未知运动相关的嘈杂短曝光框架来培训估计尖锐的高SNR图像的CNN。我们进一步建议以端到端的方式学习突发的曝光时间，从而平衡噪声和模糊穿过框架。我们展示了这种方法，通过传统的去掩盖单个图像或在合成和实际数据上去除固定曝光突发的传统方法的优势。

translated by 谷歌翻译

MantissaCam: Learning Snapshot High-dynamic-range Imaging with Perceptually-based In-pixel Irradiance Encoding

Haley M. So , Julien N. P. Martel , Piotr Dudek , Gordon Wetzstein

分类：计算机视觉

2021-12-09

在许多计算机视觉应用程序中，对高动态范围（HDR）场景的能力至关重要。然而，传统传感器的动态范围基本上受其井容量的限制，导致明亮场景部件的饱和度。为了克服这种限制，新兴传感器提供了用于编码入射辐照度的像素处理能力。在最有前途的编码方案中，模数包装，其导致计算机拍摄场景由来自包裹的低动态（LDR）传感器图像的辐照法展开算法计算的计算摄影问题。在这里，我们设计了一种基于神经网络的算法，优于先前的辐照度展示方法，更重要的是，我们设计了一种感知的激发灵感的“螳螂”编码方案，从而更有效地将HDR场景包装到LDR传感器中。结合我们的重建框架，Mantissacam在模型快照HDR成像方法中实现了最先进的结果。我们展示了我们在模拟中的效果，并显示了用可编程传感器实现的原型尾涂的初步结果。

translated by 谷歌翻译

Enhanced Frame and Event-Based Simulator and Event-Based Video Interpolation Network

Adam Radomski , Andreas Georgiou , Thomas Debrunner , Chenghan Li , Luca Longinotti , Minwon Seo , Moosung Kwak , Chang-Woo Shin , Paul K. J. Park , Hyunsurk Eric Ryu

分类：计算机视觉

2021-12-17

基于快速的神经形态的视觉传感器（动态视觉传感器，DVS）可以与基于较慢的帧的传感器组合，以实现比使用例如固定运动近似的传统方法更高质量的帧间内插。光流。在这项工作中，我们展示了一个新的高级事件模拟器，可以产生由相机钻机录制的现实场景，该仪器具有位于固定偏移的任意数量的传感器。它包括具有现实图像质量降低效果的新型可配置帧的图像传感器模型，以及具有更精确的特性的扩展DVS模型。我们使用我们的模拟器培训一个新的重建模型，专为高FPS视频的端到端重建而设计。与以前发表的方法不同，我们的方法不需要帧和DVS相机具有相同的光学，位置或相机分辨率。它还不限于物体与传感器的固定距离。我们表明我们的模拟器生成的数据可用于训练我们的新模型，导致在与最先进的公共数据集上的公共数据集中的重建图像。我们还向传感器展示了真实传感器记录的数据。

translated by 谷歌翻译

LEDNet: Joint Low-light Enhancement and Deblurring in the Dark

Shangchen Zhou , Chongyi Li , Chen Change Loy

分类：计算机视觉

2022-02-07

夜间摄影通常由于昏暗的环境和长期使用而遭受弱光和模糊问题。尽管现有的光增强和脱毛方法可以单独解决每个问题，但一系列此类方法不能和谐地适应可见性和纹理的共同降解。训练端到端网络也是不可行的，因为没有配对数据可以表征低光和模糊的共存。我们通过引入新的数据合成管道来解决该问题，该管道对现实的低光模糊降解进行建模。使用管道，我们介绍了第一个用于关节低光增强和去皮的大型数据集。数据集，LOL-BLUR，包含12,000个低Blur/正常出现的对，在不同的情况下具有不同的黑暗和运动模糊。我们进一步提出了一个名为LEDNET的有效网络，以执行关节弱光增强和脱毛。我们的网络是独一无二的，因为它是专门设计的，目的是考虑两个相互连接的任务之间的协同作用。拟议的数据集和网络都为这项具有挑战性的联合任务奠定了基础。广泛的实验证明了我们方法对合成和现实数据集的有效性。

translated by 谷歌翻译

Video frame interpolation for high dynamic range sequences captured with dual-exposure sensors

Ugur Cogalan , Mojtaba Bemana , Hans-Peter Seidel , Karol Myszkowski

分类：计算机视觉

2022-06-19

视频框架插值（VFI）实现了许多可能涉及时间域的重要应用程序，例如慢运动播放或空间域，例如停止运动序列。我们专注于以前的任务，其中关键挑战之一是在存在复杂运动的情况下处理高动态范围（HDR）场景。为此，我们探索了双曝光传感器的可能优势，这些传感器很容易提供尖锐的短而模糊的长曝光，这些曝光是空间注册并在时间上对齐的两端。这样，运动模糊会在场景运动上暂时连续的信息，这些信息与尖锐的参考结合在一起，可以在单个相机拍摄中进行更精确的运动采样。我们证明，这促进了VFI任务中更复杂的运动重建以及HDR框架重建，迄今为止仅考虑到最初被捕获的框架，而不是插值之间的框架。我们设计了一个在这些任务中训练的神经网络，这些神经网络明显优于现有解决方案。我们还提出了一个场景运动复杂性的度量，该指标在测试时间提供了对VFI方法的性能的重要见解。

translated by 谷歌翻译

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends

Lin Wang , Kuk-Jin Yoon

分类：计算机视觉 | 机器学习

2021-10-20

高动态范围（HDR）成像是一种允许广泛的动态曝光范围的技术，这在图像处理，计算机图形和计算机视觉中很重要。近年来，使用深度学习（DL），HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上，将现有的深层HDR成像方法基于（1）输入曝光的数量/域，（2）学习任务数，（3）新传感器数据，（4）新的学习策略，（5）应用程序。重要的是，我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外，我们审查了深度HDR成像的一些关键方面，例如数据集和评估指标。最后，我们突出了一些打开的问题，并指出了未来的研究方向。

translated by 谷歌翻译

Deep video deblurring for hand-held cameras

分类：

Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on the alignment of nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task that requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-toend to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high frame rate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines 1 .

translated by 谷歌翻译

Burst Photography for Learning to Enhance Extremely Dark Images

Ahmet Serdar Karadeniz , Erkut Erdem , Aykut Erdem

分类：计算机视觉

2020-06-17

在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了，太吵了，这使得传统的增强技术几乎不可能申请。最近，基于学习的方法已经为此任务显示了非常有希望的结果，因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励，在本文中，我们的目标是利用爆破摄影来提高性能，并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构，逐步产生高质量的输出。粗略网络预测了低分辨率，去噪的原始图像，然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度，我们将该网络扩展到置换不变结构，使得它作为输入突发为低光图像，并在特征级别地合并来自多个图像的信息。我们的实验表明，我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。

translated by 谷歌翻译

Snapshot HDR Video Construction Using Coded Mask

Masheal Alghamdi , Qiang Fu , Ali Thabet , Wolfgang Heidrich

分类：计算机视觉

2021-12-05

本文研究了从快照编码的LDR视频重建高动态范围（HDR）视频。构建HDR视频需要为每个帧恢复HDR值并保持连续帧之间的一致性。从单个图像捕获的HDR图像获取，也称为快照HDR成像，可以通过多种方式实现。例如，通过将光学元件引入相机的光学堆叠来实现可重新配置的快照HDR相机;通过将编码掩模放置在传感器前方的小支座距离处。可以使用深度学习方法从捕获的编码图像中恢复高质量的HDR图像。本研究利用3D-CNNS从编码LDR视频执行联合去脱模，去噪和HDR视频重建。我们通过引入考虑短期和长期一致性的时间损耗函数来执行更季度一致的HDR视频重建。获得的结果是有前途的，可以使用传统相机导致经济实惠的HDR视频捕获。

translated by 谷歌翻译

Face Deblurring using Dual Camera Fusion on Mobile Phones

Wei-Sheng Lai , YiChang Shih , Lun-Cheng Chu , Xiaotong Wu , Sung-Fang Tsai , Michael Krainin , Deqing Sun , Chia-Kai Liang

分类：计算机视觉

2022-07-23

快速移动受试者的运动模糊是摄影中的一个长期问题，由于收集效率有限，尤其是在弱光条件下，在手机上非常常见。尽管近年来我们目睹了图像脱毛的巨大进展，但大多数方法都需要显着的计算能力，并且在处理高分辨率照片的情况下具有严重的局部动作。为此，我们根据手机的双摄像头融合技术开发了一种新颖的面部脱毛系统。该系统检测到主题运动以动态启用参考摄像头，例如，最近在高级手机上通常可用的Ultrawide Angle摄像机，并捕获带有更快快门设置的辅助照片。虽然主镜头是低噪音但模糊的，但参考镜头却很锋利，但嘈杂。我们学习ML模型，以对齐和融合这两张镜头，并在没有运动模糊的情况下输出清晰的照片。我们的算法在Google Pixel 6上有效运行，每次拍摄需要463毫秒的开销。我们的实验证明了系统对替代单片，多帧，面部特异性和视频脱张算法以及商业产品的优势和鲁棒性。据我们所知，我们的工作是第一个用于面部运动脱毛的移动解决方案，在各种运动和照明条件下，在数千个图像中可靠地工作。

translated by 谷歌翻译

Learning to See Through with Events

Lei Yu , Xiang Zhang , Wei Liao , Wen Yang , Gui-Song Xia

分类：计算机视觉

2022-12-05

Although synthetic aperture imaging (SAI) can achieve the seeing-through effect by blurring out off-focus foreground occlusions while recovering in-focus occluded scenes from multi-view images, its performance is often deteriorated by dense occlusions and extreme lighting conditions. To address the problem, this paper presents an Event-based SAI (E-SAI) method by relying on the asynchronous events with extremely low latency and high dynamic range acquired by an event camera. Specifically, the collected events are first refocused by a Refocus-Net module to align in-focus events while scattering out off-focus ones. Following that, a hybrid network composed of spiking neural networks (SNNs) and convolutional neural networks (CNNs) is proposed to encode the spatio-temporal information from the refocused events and reconstruct a visual image of the occluded targets. Extensive experiments demonstrate that our proposed E-SAI method can achieve remarkable performance in dealing with very dense occlusions and extreme lighting conditions and produce high-quality images from pure events. Codes and datasets are available at https://dvs-whu.cn/projects/esai/.

translated by 谷歌翻译

Programmable Spectral Filter Arrays using Phase Spatial Light Modulator

Vishwanath Saragadam , Vijay Rengarajan , Ryuichi Tadano , Tuo Zhuang , Hideki Oyaizu , Jun Murayama , Aswin C. Sankaranarayanan

分类：计算机视觉

2021-09-29

Spatially varying spectral modulation can be implemented using a liquid crystal spatial light modulator (SLM) since it provides an array of liquid crystal cells, each of which can be purposed to act as a programmable spectral filter array. However, such an optical setup suffers from strong optical aberrations due to the unintended phase modulation, precluding spectral modulation at high spatial resolutions. In this work, we propose a novel computational approach for the practical implementation of phase SLMs for implementing spatially varying spectral filters. We provide a careful and systematic analysis of the aberrations arising out of phase SLMs for the purposes of spatially varying spectral modulation. The analysis naturally leads us to a set of "good patterns" that minimize the optical aberrations. We then train a deep network that overcomes any residual aberrations, thereby achieving ideal spectral modulation at high spatial resolution. We show a number of unique operating points with our prototype including dynamic spectral filtering, material classification, and single- and multi-image hyperspectral imaging.

translated by 谷歌翻译

MEFNet: Multi-scale Event Fusion Network for Motion Deblurring

Lei Sun , Christos Sakaridis , Jingyun Liang , Qi Jiang , Kailun Yang , Peng Sun , Yaozu Ye , Kaiwei Wang , Luc Van Gool

分类：计算机视觉

2021-11-30

由于长时间曝光时间，传统的基于帧的相机不可避免地遭受运动模糊。作为一种生物启发相机，事件摄像机以具有高时间分辨率的异步方式记录强度变化，在曝光时间内提供有效的图像劣化信息。在本文中，我们重新思考基于事件的图像去掩盖问题并将其展开成为端到端的两级图像恢复网络。为了有效地利用事件信息，我们设计（i）专门用于图像去纹理的新型对称累积事件表示，以及（ii）在我们网络的多个级别应用的仿射事件图像融合模块。我们还提出了网络的两个阶段之间的事件掩码所连接的连接，以避免信息丢失。在数据集级别，为了促进基于事件的运动解训，并促进挑战真实世界图像的评估，我们介绍了在照明控制的光学实验室中使用活动摄像机捕获的高质量模糊（HQBLUR）数据集。我们的多尺度事件融合网络（MEFNET）设置了用于运动解训的新技术，超越了先前最佳的基于图像的方法和GoPro上的公共实现的所有基于事件的方法（高达2.38dB即使在极端模糊条件下，也是HQBLUR Datasets。源代码和数据集将公开可用。

translated by 谷歌翻译

Towards Real-World Video Deblurring by Exploring Blur Formation Process

Mingdeng Cao , Zhihang Zhong , Yanbo Fan , Jiahao Wang , Yong Zhang , Jue Wang , Yujiu Yang , Yinqiang Zheng

分类：计算机视觉

2022-08-28

本文旨在探讨如何合成对其进行训练的现有视频脱毛模型的近距离模糊，可以很好地推广到现实世界中的模糊视频。近年来，基于深度学习的方法已在视频Deblurring任务上取得了希望的成功。但是，对现有合成数据集培训的模型仍然遭受了与现实世界中的模糊场景的概括问题。造成故障的因素仍然未知。因此，我们重新审视经典的模糊综合管道，并找出可能的原因，包括拍摄参数，模糊形成空间和图像信号处理器〜（ISP）。为了分析这些潜在因素的效果，我们首先收集一个超高帧速率（940 fps）原始视频数据集作为数据基础，以综合各种模糊。然后，我们提出了一种新颖的现实模糊合成管道，该管道通过利用模糊形成线索称为原始爆炸。通过大量实验，我们证明了在原始空间中的合成模糊并采用与现实世界测试数据相同的ISP可以有效消除合成数据的负面影响。此外，合成的模糊视频的拍摄参数，例如，曝光时间和框架速率在改善脱毛模型的性能中起着重要作用。令人印象深刻的是，与在现有合成模糊数据集中训练的训练的模型合成的模糊数据训练的模型可以获得超过5DB PSNR的增益。我们认为，新颖的现实合成管道和相应的原始视频数据集可以帮助社区轻松构建自定义的Blur数据集，以改善现实世界的视频DeBlurring性能，而不是费力地收集真实的数据对。

translated by 谷歌翻译

Imaging through the Atmosphere using Turbulence Mitigation Transformer

Xingguang Zhang , Zhiyuan Mao , Nicholas Chimitt , Stanley H. Chan

分类：计算机视觉

2022-07-13

由于大气湍流的扭曲而恢复图像是一个长期存在的问题，这是由于变形的空间变化，图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设，在许多情况下，由于没有概括，因此在现实世界中的性能有限。为了克服挑战，本文提出了一种端到端物理驱动的方法，该方法有效，可以推广到现实世界的湍流。在数据合成方面，我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面，我们提出了湍流缓解变压器（TMT），这是一个两级U-NET形状的多帧恢复网络，该网络具有Noval有效的自发机制，称为暂时通道关节关注（TCJA）。我们还引入了一种新的培训方案，该方案由新的模拟器启用，并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的，包括各种真实的湍流场景。

translated by 谷歌翻译

High Dynamic Range and Super-Resolution from Raw Image Bursts

Bruno Lecouat , Thomas Eboli , Jean Ponce , Julien Mairal

分类：计算机视觉

2022-07-29

由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限，在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法（据我们所知），以重建高分辨率，高动态范围的颜色图像，这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法，用于求解相应的逆问题和学习的图像表示，以进行健壮的比对，并以前的自然图像。所提出的算法很快，与基于最新的学习图像恢复方法相比，内存需求较低，并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能，具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片，以及对低光条件，噪音，摄像机摇动和中等物体运动的高度鲁棒性。

translated by 谷歌翻译

Bringing Rolling Shutter Images Alive with Dual Reversed Distortion

Zhihang Zhong , Mingdeng Cao , Xiao Sun , Zhirong Wu , Zhongyi Zhou , Yinqiang Zheng , Stephen Lin , Imari Sato

分类：计算机视觉

2022-03-12

滚动快门（RS）失真可以解释为在RS摄像机曝光期间，随着时间的推移从瞬时全局快门（GS）框架中挑选一排像素。这意味着每个即时GS帧的信息部分，依次是嵌入到行依赖性失真中。受到这一事实的启发，我们解决了扭转这一过程的挑战性任务，即从rs失真中的图像中提取未变形的GS框架。但是，由于RS失真与其他因素相结合，例如读数设置以及场景元素与相机的相对速度，因此仅利用临时相邻图像之间的几何相关性的型号，在处理数据中，具有不同的读数设置和动态场景的数据中遭受了不良的通用性。带有相机运动和物体运动。在本文中，我们建议使用双重RS摄像机捕获的一对图像，而不是连续的框架，而RS摄像机则具有相反的RS方向，以完成这项极具挑战性的任务。基于双重反转失真的对称和互补性，我们开发了一种新型的端到端模型，即IFED，以通过卢比时间对速度场的迭代学习来生成双重光流序列。广泛的实验结果表明，IFED优于天真的级联方案，以及利用相邻RS图像的最新艺术品。最重要的是，尽管它在合成数据集上进行了训练，但显示出在从现实世界中的RS扭曲的动态场景图像中检索GS框架序列有效。代码可在https://github.com/zzh-tech/dual-versed-rs上找到。

translated by 谷歌翻译