光场(LF)摄像机记录了光线的强度和方向,并将3D场景编码为4D LF图像。最近,为各种LF图像处理任务提出了许多卷积神经网络(CNN)。但是,CNN有效地处理LF图像是一项挑战,因为空间和角度信息与不同的差异高度缠绕。在本文中,我们提出了一种通用机制,以将这些耦合信息解开以进行LF图像处理。具体而言,我们首先设计了一类特定领域的卷积,以将LFS与不同的维度解开,然后通过设计特定于任务的模块来利用这些分离的功能。我们的解开机制可以在事先之前很好地纳入LF结构,并有效处理4D LF数据。基于提出的机制,我们开发了三个网络(即distgssr,distgasr和Distgdisp),用于空间超分辨率,角度超分辨率和差异估计。实验结果表明,我们的网络在所有这三个任务上都实现了最先进的性能,这表明了我们解散机制的有效性,效率和一般性。项目页面:https://yingqianwang.github.io/distglf/。
translated by 谷歌翻译
近年来,在光场(LF)图像超分辨率(SR)中,深度神经网络(DNN)的巨大进展。但是,现有的基于DNN的LF图像SR方法是在单个固定降解(例如,双学的下采样)上开发的,因此不能应用于具有不同降解的超级溶解实际LF图像。在本文中,我们提出了第一种处理具有多个降解的LF图像SR的方法。在我们的方法中,开发了一个实用的LF降解模型,以近似于真实LF图像的降解过程。然后,降解自适应网络(LF-DANET)旨在将降解之前纳入SR过程。通过对具有多种合成降解的LF图像进行训练,我们的方法可以学会适应不同的降解,同时结合了空间和角度信息。对合成降解和现实世界LFS的广泛实验证明了我们方法的有效性。与现有的最新单一和LF图像SR方法相比,我们的方法在广泛的降解范围内实现了出色的SR性能,并且可以更好地推广到真实的LF图像。代码和模型可在https://github.com/yingqianwang/lf-danet上找到。
translated by 谷歌翻译
This paper explores the problem of reconstructing high-resolution light field (LF) images from hybrid lenses, including a high-resolution camera surrounded by multiple low-resolution cameras. The performance of existing methods is still limited, as they produce either blurry results on plain textured areas or distortions around depth discontinuous boundaries. To tackle this challenge, we propose a novel end-to-end learning-based approach, which can comprehensively utilize the specific characteristics of the input from two complementary and parallel perspectives. Specifically, one module regresses a spatially consistent intermediate estimation by learning a deep multidimensional and cross-domain feature representation, while the other module warps another intermediate estimation, which maintains the high-frequency textures, by propagating the information of the high-resolution view. We finally leverage the advantages of the two intermediate estimations adaptively via the learned attention maps, leading to the final high-resolution LF image with satisfactory results on both plain textured areas and depth discontinuous boundaries. Besides, to promote the effectiveness of our method trained with simulated hybrid data on real hybrid data captured by a hybrid LF imaging system, we carefully design the network architecture and the training strategy. Extensive experiments on both real and simulated hybrid data demonstrate the significant superiority of our approach over state-of-the-art ones. To the best of our knowledge, this is the first end-to-end deep learning method for LF reconstruction from a real hybrid input. We believe our framework could potentially decrease the cost of high-resolution LF data acquisition and benefit LF data storage and transmission.
translated by 谷歌翻译
捕获场景的空间和角度信息的光场(LF)成像无疑是有利于许多应用。尽管已经提出了用于LF采集的各种技术,但是在角度和空间上实现的既仍然是技术挑战。本文,提出了一种基于学习的方法,其应用于3D末面图像(EPI)以重建高分辨率LF。通过2级超分辨率框架,所提出的方法有效地解决了各种LF超分辨率(SR)问题,即空间SR,Angular SR和角空间SR。虽然第一阶段向Up-Sample EPI体积提供灵活的选择,但是由新型EPI体积的细化网络(EVRN)组成的第二阶段,基本上提高了高分辨率EPI体积的质量。从7个发布的数据集的90个挑战合成和实际灯田场景的广泛评估表明,所提出的方法优于空间和角度超分辨率问题的大型延伸的最先进的方法,即平均值峰值信号到噪声比为2.0 dB,1.4 dB和3.14 dB的空间SR $ \ Times 2 $,Spatial SR $ \ Times 4 $和Angular SR。重建的4D光场展示了所有透视图像的平衡性能分布,与先前的作品相比,卓越的视觉质量。
translated by 谷歌翻译
现有的光场(LF)深度估计方法通常将深度估计视为回归问题,该回归问题是由像素的L1损失在回归的差距图和地面图之间监督的。但是,差异图只是差异分布的一个子空间投影(即期望),而后者对于模型学习更为必要。在本文中,我们提出了一种简单而有效的方法,通过充分利用深网的力量来学习子像素差异分布。在我们的方法中,我们在子像素水平上构建成本量,以产生更精细的深度分布,并设计不确定性感知的局灶性损失,以监督差异分布,以接近地面图。广泛的实验结果证明了我们方法的有效性。我们的方法称为亚焦点,在HCI 4D LF基准测试的99个提交算法中排名第一,就所有五个精度指标(即BadPix0.01,BadPix0.01,badpix0.03,badpix0.07,MSE和Q25)而言,这是第一位。胜过最近最新的LF深度方法,例如OACC-NET和ATTMLFNET。代码和型号可在https://github.com/chaowentao/subfocal上找到。
translated by 谷歌翻译
在本文中,我们提出了一个几何感知的神经插值(GEO-NI),用于光场渲染。以前的基于学习的方法要么依赖于神经网络执行直接插值的能力,因此我们将其称为神经插值(NI),或者探索用于新型视图合成的场景几何形状,也称为基于深度图像的渲染(Dibr)。取而代之的是,我们通过使用新颖的Dibr管道来启动NI来结合这两种方法背后的想法。具体而言,提出的GEO-NI首先使用一组深度假设剪切的输入光场执行NI。然后,通过根据不同深度假设下的重建质量分配新的重建成本量来通过分配新的重建成本量来实现DIBR。重建成本被解释为通过沿深度假设的尺寸混合重建的光场来呈现最终输出光场的混合重量。通过结合Ni和Dibr的优势,拟议的Geo-Ni能够在场景几何形状的帮助下以巨大的差异来呈现视图,同时当深度容易含糊不清时,同时还可以重建非斜角效应。各种数据集上的广泛实验证明了所提出的几何感光光场渲染框架的出色性能。
translated by 谷歌翻译
随着商业光场(LF)摄像机的可用性,LF成像已成为计算摄影中的启动技术。然而,由于空间和角度信息的固有多路复用,在基于商业微杆的LF相机中,空间分辨率受到了显着限制。因此,它成为光场摄像头其他应用的主要瓶颈。本文提出了一个预处理的单图像超级分辨率(SISR)网络中的适应模块,以利用强大的SISR模型,而不是使用高度工程的光场成像域特异性超级分辨率模型。自适应模块由子光圈移位块和融合块组成。它是SISR网络中的一种适应性,可以进一步利用LF图像中的空间和角度信息以提高超级分辨率性能。实验验证表明,所提出的方法的表现优于现有的光场超级分辨率算法。与量表因子2的相同审计的SISR模型相比,所有数据集中的PSNR增益也超过1 dB,而PSNR对于量表因子4的增长率为0.6至1 dB。
translated by 谷歌翻译
尽管通过卷积神经网络实现的光场超分辨率(LFSR)的最近进展,但由于4D LF数据的复杂性,灯场(LF)图像的相关信息尚未充分研究和利用。为了应对这种高维LF数据,大多数现有的LFSR方法采用将其分解成较低的尺寸并随后在分解的子空间上执行优化。然而,这些方法本质上是有限的,因为它们被忽略了分解操作的特性,并且仅利用了一组限量的LF子空间,最终未能全面提取时空角度并导致性能瓶颈。为了克服这些限制,在本文中,我们彻底发现了LF分解的潜力,并提出了一种新颖的分解核的概念。特别地,我们系统地将各种子空间的分解操作统一到一系列这样的分解核中,该分解核将其纳入我们所提出的分解内核网络(DKNET),用于全面的时空特征提取。与最先进的方法相比,所提出的DKNET经过实验验证以在2倍,3倍和4倍LFSR尺度中达到大量改进。为了进一步完善DKNet,在生产更多视觉上令人愉悦的LFSR结果,我们提出了一个LFVGG丢失来引导纹理增强的DKNet(TE-DKNet)来产生丰富的真实纹理,并显着提高LF图像的视觉质量。我们还通过利用LF材料识别来旨在客观地评估LFVGG损失所带来的感知增强的间接评估度量。
translated by 谷歌翻译
Informative features play a crucial role in the single image super-resolution task. Channel attention has been demonstrated to be effective for preserving information-rich features in each layer. However, channel attention treats each convolution layer as a separate process that misses the correlation among different layers. To address this problem, we propose a new holistic attention network (HAN), which consists of a layer attention module (LAM) and a channel-spatial attention module (CSAM), to model the holistic interdependencies among layers, channels, and positions. Specifically, the proposed LAM adaptively emphasizes hierarchical features by considering correlations among layers. Meanwhile, CSAM learns the confidence at all the positions of each channel to selectively capture more informative features. Extensive experiments demonstrate that the proposed HAN performs favorably against the state-ofthe-art single image super-resolution approaches.
translated by 谷歌翻译
Convolutional Neural Network (CNN)-based image super-resolution (SR) has exhibited impressive success on known degraded low-resolution (LR) images. However, this type of approach is hard to hold its performance in practical scenarios when the degradation process is unknown. Despite existing blind SR methods proposed to solve this problem using blur kernel estimation, the perceptual quality and reconstruction accuracy are still unsatisfactory. In this paper, we analyze the degradation of a high-resolution (HR) image from image intrinsic components according to a degradation-based formulation model. We propose a components decomposition and co-optimization network (CDCN) for blind SR. Firstly, CDCN decomposes the input LR image into structure and detail components in feature space. Then, the mutual collaboration block (MCB) is presented to exploit the relationship between both two components. In this way, the detail component can provide informative features to enrich the structural context and the structure component can carry structural context for better detail revealing via a mutual complementary manner. After that, we present a degradation-driven learning strategy to jointly supervise the HR image detail and structure restoration process. Finally, a multi-scale fusion module followed by an upsampling layer is designed to fuse the structure and detail features and perform SR reconstruction. Empowered by such degradation-based components decomposition, collaboration, and mutual optimization, we can bridge the correlation between component learning and degradation modelling for blind SR, thereby producing SR results with more accurate textures. Extensive experiments on both synthetic SR datasets and real-world images show that the proposed method achieves the state-of-the-art performance compared to existing methods.
translated by 谷歌翻译
最近,已经开发了许多算法来解决光场超分辨率(LFSR)的问题,即超声分辨率的低分辨率光场,以获得高分辨率视图。尽管提供了令人鼓舞的结果,但这些方法都是基于卷积的,并且在副孔径图像的全局关系模型中自然弱,这必然是表征光场的固有结构。在本文中,我们通过将LFSR视为序列到序列重建任务,提出了一种基于变压器的新型制剂。特别地,我们的模型将每个垂直或水平角度视图的子孔图像视为序列,并通过空间角局部增强的自我关注层在每个序列内建立远程几何依赖性,其维护每个的局部性子光圈图像也是如此。此外,为了更好地恢复图像细节,我们通过利用光场的梯度图来引导序列学习来提出细节保存的变压器(称为DPT)。 DPT由两个分支组成,每个分支机构与变压器相关联,用于从原始或梯度图像序列学习。这两个分支机构最终融合以获得重建的综合特征表示。评估在许多光场数据集中进行,包括现实世界场景和合成数据。该方法与其他最先进的方案相比,实现了卓越的性能。我们的代码可公开提供:https://github.com/bitszwang/dpt。
translated by 谷歌翻译
红外小目标超分辨率(SR)旨在从其低分辨率对应物中恢复具有高度控制目标的可靠和详细的高分辨率图像。由于红外小目标缺乏颜色和精细结构信息,因此利用序列图像之间的补充信息来提高目标是很重要的。在本文中,我们提出了名为局部运动和对比的第一红外小目标SR方法,以前驱动的深网络(MoCopnet)将红外小目标的域知识集成到深网络中,这可以减轻红外小目标的内在特征稀缺性。具体而言,通过在时空维度之前的局部运动的动机,我们提出了局部时空注意力模块,以执行隐式帧对齐并结合本地时空信息以增强局部特征(特别是对于小目标)来增强局部特征。通过在空间尺寸之前的局部对比的动机,我们提出了一种中心差异残留物,将中心差卷积纳入特征提取骨架,这可以实现以中心为导向的梯度感知特征提取,以进一步提高目标对比度。广泛的实验表明,我们的方法可以恢复准确的空间依赖性并改善目标对比度。比较结果表明,MoCopnet在SR性能和目标增强方面可以优于最先进的视频SR和单图像SR方法。基于SR结果,我们进一步调查了SR对红外小型目标检测的影响,实验结果表明MoCopnet促进了检测性能。代码可在https://github.com/xinyiying/mocopnet上获得。
translated by 谷歌翻译
灵感来自最近隐含地代表具有训练有素的神经网络的信号的进步,我们旨在学习窄基线4D光场的连续表示。我们提出了一个用于4D光字段的隐式表示模型,其在稀疏的输入视图上被调节。我们的模型受过培训,以输出连续范围的查询时空坐标的光场值。鉴于稀疏的输入视图集,我们的方案可以通过灵活的因素超级解决空间和角域中的输入。由一个特征提取器和解码器组成,该解码器在光场补丁的数据集上培训。特征提取器从输入视图捕获每个像素特征。这些特征可以调整为所需的空间分辨率,并与查询坐标一起馈送到解码器。该配方使我们能够以任何期望的空间和角度分辨率重建光场视图。此外,我们的网络可以处理输入视图的场景,其中输入视图是低分辨率或缺失像素。实验表明,我们的方法在计算快速的同时实现了视图综合任务的最先进的性能。
translated by 谷歌翻译
在立体声设置下,可以通过利用第二视图提供的其他信息来进一步改善图像JPEG伪像删除的性能。但是,将此信息纳入立体声图像jpeg trifacts删除是一个巨大的挑战,因为现有的压缩工件使像素级视图对齐变得困难。在本文中,我们提出了一个新颖的视差变压器网络(PTNET),以整合来自立体图像对的立体图像对jpeg jpeg trifacts删除的信息。具体而言,提出了精心设计的对称性双向视差变压器模块,以匹配具有不同视图之间相似纹理的特征,而不是像素级视图对齐。由于遮挡和边界的问题,提出了一个基于置信的跨视图融合模块,以实现两种视图的更好的特征融合,其中跨视图特征通过置信图加权。尤其是,我们为跨视图的互动采用粗到最新的设计,从而提高性能。全面的实验结果表明,与其他测试最新方法相比,我们的PTNET可以有效地消除压缩伪像并获得更高的性能。
translated by 谷歌翻译
本文旨在去除从稀疏 - 采样{4d}光场产生的整个焦点堆的锯齿效果,同时保持所有焦层的一致性。我们首先探讨侧侧侧叠层切片的结构特征及其相应的频域表示,即焦堆谱(FSS)。我们观察到,FSS的能量分布总是在不同的角度采样率下驻留在相同的三角形区域内,另外,点扩展功能(PSF)的连续性在FSS中固有地保持。基于这两种观察,我们提出了一种基于学习的FSS重建方法,用于在整个焦点堆叠上移除一次性混叠。此外,提出了一种新的共轭 - 对称损失函数来优化。与以前的作品相比,我们的方法避免了明确的深度估计,并且可以处理具有挑战性的大差异方案。合成和真实光场数据集的实验结果显示了不同场景和各种角度采样率的提出方法的优势。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
图像超分辨率(SR)是重要的图像处理方法之一,可改善计算机视野领域的图像分辨率。在过去的二十年中,在超级分辨率领域取得了重大进展,尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查,对单像超分辨率的最新进展进行详细的调查,同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别,即经典方法,基于学习的方法,无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题,以提供有关图像质量指标,可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络(EDSR),周期循环gan(Cincgan),多尺度残留网络(MSRN),Meta残留密度网络(META-RDN) ,反复反射网络(RBPN),二阶注意网络(SAN),SR反馈网络(SRFBN)和基于小波的残留注意网络(WRAN)。最后,这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。
translated by 谷歌翻译
近年来,由于SR数据集的开发和相应的实际SR方法,真实的图像超分辨率(SR)已取得了令人鼓舞的结果。相比之下,真实视频SR领域落后,尤其是对于真实的原始视频。考虑到原始图像SR优于SRGB图像SR,我们构建了一个真实世界的原始视频SR(Real-Rawvsr)数据集,并提出了相应的SR方法。我们利用两个DSLR摄像机和一个梁切口来同时捕获具有2倍,3倍和4倍大型的高分辨率(LR)和高分辨率(HR)原始视频。我们的数据集中有450对视频对,场景从室内到室外各不相同,包括相机和对象运动在内的动作。据我们所知,这是第一个现实世界的RAW VSR数据集。由于原始视频的特征是拜耳模式,因此我们提出了一个两分支网络,该网络既涉及包装的RGGB序列和原始的拜耳模式序列,又涉及两个分支,并且两个分支相互互补。经过提出的共对象,相互作用,融合和重建模块后,我们生成了相应的HR SRGB序列。实验结果表明,所提出的方法优于原始或SRGB输入的基准实体和合成视频SR方法。我们的代码和数据集可在https://github.com/zmzhang1998/real-rawvsr上找到。
translated by 谷歌翻译
具有多视图属性的光场(LF)图像具有许多应用程序,可以严重受到低光成像的影响。低光增强的最新基于学习的方法具有自己的缺点,例如在极低的光线条件下没有噪声抑制,复杂的训练过程和差的性能。针对解决这些缺陷的目标,同时充分利用了多视图信息,我们为LF图像提出了有效的低光修复变压器(LRT),并具有多个头部以执行特定的中间任务,包括DeNosising,亮度调整,完善和细节增强,增强和细节,增强,并增强细节,在单个网络中,实现从小规模到全尺度的渐进式恢复。我们设计了一个具有视角方案的角变压器块,以有效地对全局角关系进行建模,并设计一个基于窗口的多尺度变压器块来编码多规模的本地和全局空间信息。为了解决训练数据不足的问题,我们通过使用LF摄像机的估计噪声参数模拟主要噪声来制定合成管道。实验结果表明,我们的方法可以在恢复具有高效率的极低光线和嘈杂的LF图像上实现卓越的性能。
translated by 谷歌翻译
Existing convolutional neural networks (CNN) based image super-resolution (SR) methods have achieved impressive performance on bicubic kernel, which is not valid to handle unknown degradations in real-world applications. Recent blind SR methods suggest to reconstruct SR images relying on blur kernel estimation. However, their results still remain visible artifacts and detail distortion due to the estimation errors. To alleviate these problems, in this paper, we propose an effective and kernel-free network, namely DSSR, which enables recurrent detail-structure alternative optimization without blur kernel prior incorporation for blind SR. Specifically, in our DSSR, a detail-structure modulation module (DSMM) is built to exploit the interaction and collaboration of image details and structures. The DSMM consists of two components: a detail restoration unit (DRU) and a structure modulation unit (SMU). The former aims at regressing the intermediate HR detail reconstruction from LR structural contexts, and the latter performs structural contexts modulation conditioned on the learned detail maps at both HR and LR spaces. Besides, we use the output of DSMM as the hidden state and design our DSSR architecture from a recurrent convolutional neural network (RCNN) view. In this way, the network can alternatively optimize the image details and structural contexts, achieving co-optimization across time. Moreover, equipped with the recurrent connection, our DSSR allows low- and high-level feature representations complementary by observing previous HR details and contexts at every unrolling time. Extensive experiments on synthetic datasets and real-world images demonstrate that our method achieves the state-of-the-art against existing methods. The source code can be found at https://github.com/Arcananana/DSSR.
translated by 谷歌翻译