近年来,基于深度学习的模型在视频超分辨率(VSR)方面取得了显着性能,但是这些模型中的大多数不适用于在线视频应用程序。这些方法仅考虑失真质量,而忽略了在线应用程序的关键要求,例如低延迟和模型较低的复杂性。在本文中,我们专注于在线视频传输,其中需要VSR算法来实时生成高分辨率的视频序列。为了应对此类挑战,我们提出了一种基于一种新的内核知识转移方法,称为卷积核旁路移植物(CKBG)。首先,我们设计了一个轻巧的网络结构,该结构不需要将来的帧作为输入,并节省了缓存这些帧的额外时间成本。然后,我们提出的CKBG方法通过用``核移植物)''绕过原始网络来增强这种轻巧的基础模型,这些网络是包含外部预验证图像SR模型的先验知识的额外卷积内核。在测试阶段,我们通过将其转换为简单的单路结构来进一步加速移植的多支球网络。实验结果表明,我们提出的方法可以处理高达110 fps的在线视频序列,并且模型复杂性非常低和竞争性SR性能。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是增加低分辨率(LR)和低帧速率(LFR)视频的空间分辨率。基于深度学习的最新方法已取得了重大改进,但是其中大多数仅使用两个相邻帧,即短期功能,可以合成缺失的框架嵌入,这无法完全探索连续输入LR帧的信息流。此外,现有的STVSR模型几乎无法明确利用时间上下文以帮助高分辨率(HR)框架重建。为了解决这些问题,在本文中,我们提出了一个称为STDAN的可变形注意网络。首先,我们设计了一个长短的术语特征插值(LSTFI)模块,该模块能够通过双向RNN结构从更相邻的输入帧中挖掘大量的内容,以进行插值。其次,我们提出了一个空间 - 周期性变形特征聚合(STDFA)模块,其中动态视频框架中的空间和时间上下文被自适应地捕获并汇总以增强SR重建。几个数据集的实验结果表明,我们的方法的表现优于最先进的STVSR方法。该代码可在https://github.com/littlewhitesea/stdan上找到。
translated by 谷歌翻译
Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image or video by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g., scale and rotation) and the resolution gap (e.g., HR and LR). To tackle these challenges, we propose C2-Matching in this work, which performs explicit robust matching crossing transformation and resolution. 1) To bridge the transformation gap, we propose a contrastive correspondence network, which learns transformation-robust correspondences using augmented views of the input image. 2) To address the resolution gap, we adopt teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue between input images and reference images. In addition, to faithfully evaluate the performance of Reference-based Image Super-Resolution under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. We also extend C2-Matching to Reference-based Video Super-Resolution task, where an image taken in a similar scene serves as the HR reference image. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts on the standard CUFED5 benchmark and also boosts the performance of video SR by incorporating the C2-Matching component into Video SR pipelines.
translated by 谷歌翻译
随着卷积神经网络最近的大规模发展,已经提出了用于边缘设备上实用部署的大量基于CNN的显着图像超分辨率方法。但是,大多数现有方法都集中在一个特定方面:网络或损失设计,这导致难以最大程度地减少模型大小。为了解决这个问题,我们得出结论,设计,架构搜索和损失设计,以获得更有效的SR结构。在本文中,我们提出了一个名为EFDN的边缘增强功能蒸馏网络,以保留在约束资源下的高频信息。详细说明,我们基于现有的重新处理方法构建了一个边缘增强卷积块。同时,我们提出了边缘增强的梯度损失,以校准重新分配的路径训练。实验结果表明,我们的边缘增强策略可以保持边缘并显着提高最终恢复质量。代码可在https://github.com/icandle/efdn上找到。
translated by 谷歌翻译
高动态范围(HDR)成像是图像处理中的一个基本问题,即使在场景中存在不同的照明的情况下,它旨在产生暴露良好的图像。近年来,多曝光融合方法已取得了显着的结果,该方法合并了多个具有不同暴露的动态范围(LDR)图像,以生成相应的HDR图像。但是,在动态场景中综合HDR图像仍然具有挑战性,并且需求量很高。生产HDR图像有两个挑战:1)。 LDR图像之间的对象运动很容易在生成的结果中引起不良的幽灵伪像。 2)。由于在合并阶段对这些区域的补偿不足,因此下区域和过度曝光的区域通常包含扭曲的图像含量。在本文中,我们提出了一个多尺度采样和聚合网络,用于在动态场景中进行HDR成像。为了有效地减轻小动作和大型动作引起的问题,我们的方法通过以粗到精细的方式对LDR图像进行了暗中对齐LDR图像。此外,我们提出了一个基于离散小波转换的密集连接的网络,以改善性能,该网络将输入分解为几个非重叠频率子带,并在小波域中自适应地执行补偿。实验表明,与其他有希望的HDR成像方法相比,我们提出的方法可以在不同场景下实现最新的性能。此外,由我们的方法生成的HDR图像包含清洁剂和更详细的内容,扭曲较少,从而带来更好的视觉质量。
translated by 谷歌翻译
基于常规卷积网络的视频超分辨率(VSR)方法具有很强的视频序列的时间建模能力。然而,在单向反复卷积网络中的不同反复单元接收的输入信息不平衡。早期重建帧接收较少的时间信息,导致模糊或工件效果。虽然双向反复卷积网络可以缓解这个问题,但它大大提高了重建时间和计算复杂性。它也不适用于许多应用方案,例如在线超分辨率。为了解决上述问题,我们提出了一种端到端信息预构建的经常性重建网络(IPRRN),由信息预构建网络(IPNet)和经常性重建网络(RRNET)组成。通过将足够的信息从视频的前面集成来构建初始复发单元所需的隐藏状态,以帮助恢复较早的帧,信息预构建的网络在不向后传播之前和之后的输入信息差异。此外,我们展示了一种紧凑的复发性重建网络,可显着改善恢复质量和时间效率。许多实验已经验证了我们所提出的网络的有效性,并与现有的最先进方法相比,我们的方法可以有效地实现更高的定量和定性评估性能。
translated by 谷歌翻译
知识蒸馏(KD)可以有效地将知识从繁琐的网络(教师)转移到紧凑的网络(学生),在某些计算机视觉应用中证明了其优势。知识的表示对于知识转移和学生学习至关重要,这通常以手工制作的方式定义或直接使用中间功能。在本文中,我们建议在教师学生架构下为单像超级分辨率任务提出一种模型 - 不足的元知识蒸馏方法。它提供了一种更灵活,更准确的方法,可以通过知识代表网络(KRNET)的能力来帮助教师通过具有可学习参数的知识传输知识。为了提高知识表示对学生需求的看法能力,我们建议通过采用学生特征以及KRNET中的教师和学生之间的相关性来解决从中间产出到转移知识的转型过程。具体而言,生成纹理感知的动态内核,然后提取要改进的纹理特征,并将相应的教师指导分解为质地监督,以进一步促进高频细节的恢复质量。此外,KRNET以元学习方式进行了优化,以确保知识转移和学生学习有益于提高学生的重建质量。在各种单个图像超分辨率数据集上进行的实验表明,我们所提出的方法优于现有的定义知识表示相关的蒸馏方法,并且可以帮助超分辨率算法实现更好的重建质量,而无需引入任何推理复杂性。
translated by 谷歌翻译
时空视频超分辨率(STVSR)旨在从相应的低帧速率,低分辨率视频序列构建高空时间分辨率视频序列。灵感来自最近的成功,考虑空间时间超级分辨率的空间信息,我们在这项工作中的主要目标是在快速动态事件的视频序列中充分考虑空间和时间相关性。为此,我们提出了一种新颖的单级内存增强图注意网络(Megan),用于时空视频超分辨率。具体地,我们构建新颖的远程存储图聚合(LMGA)模块,以沿着特征映射的信道尺寸动态捕获相关性,并自适应地聚合信道特征以增强特征表示。我们介绍了一个非本地剩余块,其使每个通道明智的功能能够参加全局空间分层特征。此外,我们采用渐进式融合模块通过广泛利用来自多个帧的空间 - 时间相关性来进一步提高表示能力。实验结果表明,我们的方法与定量和视觉上的最先进的方法相比,实现了更好的结果。
translated by 谷歌翻译
联合超分辨率和反音调映射(联合SR-ITM)旨在增加低分辨率和标准动态范围图像的分辨率和动态范围。重点方法主要是诉诸图像分解技术,使用多支化的网络体系结构。 ,这些方法采用的刚性分解在很大程度上将其力量限制在各种图像上。为了利用其潜在能力,在本文中,我们将分解机制从图像域概括为更广泛的特征域。为此,我们提出了一个轻巧的特征分解聚合网络(FDAN)。特别是,我们设计了一个功能分解块(FDB),可以实现功能细节和对比度的可学习分离。通过级联FDB,我们可以建立一个用于强大的多级特征分解的分层功能分解组。联合SR-ITM,\ ie,SRITM-4K的新基准数据集,该数据集是大规模的,为足够的模型培训和评估提供了多功能方案。两个基准数据集的实验结果表明,我们的FDAN表明我们的FDAN有效,并且胜过了以前的方法sr-itm.ar代码和数据集将公开发布。
translated by 谷歌翻译
在本文中,我们研究了实用的时空视频超分辨率(STVSR)问题,该问题旨在从低型低分辨率的低分辨率模糊视频中生成高富含高分辨率的夏普视频。当使用低填充和低分辨率摄像头记录快速动态事件时,通常会发生这种问题,而被捕获的视频将遭受三个典型问题:i)运动模糊发生是由于曝光时间内的对象/摄像机运动而发生的; ii)当事件时间频率超过时间采样的奈奎斯特极限时,运动异叠是不可避免的; iii)由于空间采样率低,因此丢失了高频细节。这些问题可以通过三个单独的子任务的级联来缓解,包括视频脱张,框架插值和超分辨率,但是,这些问题将无法捕获视频序列之间的空间和时间相关性。为了解决这个问题,我们通过利用基于模型的方法和基于学习的方法来提出一个可解释的STVSR框架。具体而言,我们将STVSR作为联合视频脱张,框架插值和超分辨率问题,并以另一种方式将其作为两个子问题解决。对于第一个子问题,我们得出了可解释的分析解决方案,并将其用作傅立叶数据变换层。然后,我们为第二个子问题提出了一个反复的视频增强层,以进一步恢复高频细节。广泛的实验证明了我们方法在定量指标和视觉质量方面的优势。
translated by 谷歌翻译
远程时间对齐至关重要,但对视频恢复任务有挑战性。最近,一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系,但由于传播机制,误差累积是不可避免的。在这项工作中,我们提出了一种新颖的通用迭代对准模块,其采用逐渐改进方案进行子对准,产生更准确的运动补偿。为了进一步提高对准精度和时间一致性,我们开发了一种非参数重新加权方法,其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略,我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能,包括视频超分辨率,去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。
translated by 谷歌翻译
基于卷积神经网络(CNN)的现代单图像超分辨率(SISR)系统实现了花哨的性能,而需要巨大的计算成本。在视觉识别任务中对特征冗余的问题进行了很好的研究,但很少在SISR中进行讨论。基于这样的观察,SISR模型中的许多功能也彼此相似,我们建议使用Shift操作来生成冗余功能(即幽灵功能)。与在类似GPU的设备上耗时的深度卷积相比,Shift操作可以为CNN带来实用的推理加速度。我们分析了SISR操作对SISR任务的好处,并根据Gumbel-SoftMax技巧使Shift取向可学习。此外,基于预训练的模型探索了聚类过程,以识别用于生成内在特征的内在过滤器。幽灵功能将通过沿特定方向移动这些内在功能来得出。最后,完整的输出功能是通过将固有和幽灵特征串联在一起来构建的。在几个基准模型和数据集上进行的广泛实验表明,嵌入了所提出方法的非压缩和轻质SISR模型都可以实现与基准的可比性能,并大大降低了参数,拖台和GPU推荐延迟。例如,我们将参数降低46%,FLOPS掉落46%,而GPU推断潜伏期则减少了$ \ times2 $ EDSR网络的42%,基本上是无损的。
translated by 谷歌翻译
我们提出了一种用于视频帧插值(VFI)的实时中流估计算法。许多最近的基于流的VFI方法首先估计双向光学流,然后缩放并将它们倒转到近似中间流动,导致运动边界上的伪像。RIFE使用名为IFNET的神经网络,可以直接估计中间流量从粗细流,速度更好。我们设计了一种用于训练中间流动模型的特权蒸馏方案,这导致了大的性能改善。Rife不依赖于预先训练的光流模型,可以支持任意时间的帧插值。实验表明,普里埃雷在若干公共基准上实现了最先进的表现。\ url {https://github.com/hzwer/arxiv2020-rife}。
translated by 谷歌翻译
随着移动设备的普及,例如智能手机和可穿戴设备,更轻,更快的型号对于应用视频超级分辨率至关重要。但是,大多数以前的轻型模型倾向于集中于减少台式GPU模型推断的范围,这在当前的移动设备中可能不会节能。在本文中,我们提出了极端低功率超级分辨率(ELSR)网络,该网络仅在移动设备中消耗少量的能量。采用预训练和填充方法来提高极小模型的性能。广泛的实验表明,我们的方法在恢复质量和功耗之间取得了良好的平衡。最后,我们在目标总经理Dimenty 9000 PlantForm上,PSNR 27.34 dB和功率为0.09 w/30fps的竞争分数为90.9,在移动AI&AIM 2022实时视频超级分辨率挑战中排名第一。
translated by 谷歌翻译
时空视频超分辨率(ST-VSR)技术生成具有更高分辨率和较高帧速率的高质量视频。现有的高级方法通过空间和时间视频超分辨率(S-VSR和T-VSR)的关联来完成ST-VSR任务。这些方法需要在S-VSR和T-VSR中进行两个比对和融合,这显然是冗余的,并且无法充分探索连续的空间LR帧的信息流。尽管引入了双向学习(未来到档案和过去到现场)以涵盖所有输入框架,但最终预测的直接融合无法充分利用双向运动学习和空间信息的固有相关性,并从所有框架中进行空间信息。我们提出了一个有效但有效的经常性网络,该网络具有ST-VSR的双向相互作用,其中仅需要一个对齐和融合。具体而言,它首先从未来到过去执行向后推断,然后遵循向前推理到超溶解中间帧。向后和向前的推论被分配给学习结构和详细信息,以通过联合优化简化学习任务。此外,混合融合模块(HFM)旨在汇总和提炼信息以完善空间信息并重建高质量的视频帧。在两个公共数据集上进行的广泛实验表明,我们的方法在效率方面优于最先进的方法,并将计算成本降低约22%。
translated by 谷歌翻译
红外小目标超分辨率(SR)旨在从其低分辨率对应物中恢复具有高度控制目标的可靠和详细的高分辨率图像。由于红外小目标缺乏颜色和精细结构信息,因此利用序列图像之间的补充信息来提高目标是很重要的。在本文中,我们提出了名为局部运动和对比的第一红外小目标SR方法,以前驱动的深网络(MoCopnet)将红外小目标的域知识集成到深网络中,这可以减轻红外小目标的内在特征稀缺性。具体而言,通过在时空维度之前的局部运动的动机,我们提出了局部时空注意力模块,以执行隐式帧对齐并结合本地时空信息以增强局部特征(特别是对于小目标)来增强局部特征。通过在空间尺寸之前的局部对比的动机,我们提出了一种中心差异残留物,将中心差卷积纳入特征提取骨架,这可以实现以中心为导向的梯度感知特征提取,以进一步提高目标对比度。广泛的实验表明,我们的方法可以恢复准确的空间依赖性并改善目标对比度。比较结果表明,MoCopnet在SR性能和目标增强方面可以优于最先进的视频SR和单图像SR方法。基于SR结果,我们进一步调查了SR对红外小型目标检测的影响,实验结果表明MoCopnet促进了检测性能。代码可在https://github.com/xinyiying/mocopnet上获得。
translated by 谷歌翻译
近年来,在光场(LF)图像超分辨率(SR)中,深度神经网络(DNN)的巨大进展。但是,现有的基于DNN的LF图像SR方法是在单个固定降解(例如,双学的下采样)上开发的,因此不能应用于具有不同降解的超级溶解实际LF图像。在本文中,我们提出了第一种处理具有多个降解的LF图像SR的方法。在我们的方法中,开发了一个实用的LF降解模型,以近似于真实LF图像的降解过程。然后,降解自适应网络(LF-DANET)旨在将降解之前纳入SR过程。通过对具有多种合成降解的LF图像进行训练,我们的方法可以学会适应不同的降解,同时结合了空间和角度信息。对合成降解和现实世界LFS的广泛实验证明了我们方法的有效性。与现有的最新单一和LF图像SR方法相比,我们的方法在广泛的降解范围内实现了出色的SR性能,并且可以更好地推广到真实的LF图像。代码和模型可在https://github.com/yingqianwang/lf-danet上找到。
translated by 谷歌翻译
This paper explores the problem of reconstructing high-resolution light field (LF) images from hybrid lenses, including a high-resolution camera surrounded by multiple low-resolution cameras. The performance of existing methods is still limited, as they produce either blurry results on plain textured areas or distortions around depth discontinuous boundaries. To tackle this challenge, we propose a novel end-to-end learning-based approach, which can comprehensively utilize the specific characteristics of the input from two complementary and parallel perspectives. Specifically, one module regresses a spatially consistent intermediate estimation by learning a deep multidimensional and cross-domain feature representation, while the other module warps another intermediate estimation, which maintains the high-frequency textures, by propagating the information of the high-resolution view. We finally leverage the advantages of the two intermediate estimations adaptively via the learned attention maps, leading to the final high-resolution LF image with satisfactory results on both plain textured areas and depth discontinuous boundaries. Besides, to promote the effectiveness of our method trained with simulated hybrid data on real hybrid data captured by a hybrid LF imaging system, we carefully design the network architecture and the training strategy. Extensive experiments on both real and simulated hybrid data demonstrate the significant superiority of our approach over state-of-the-art ones. To the best of our knowledge, this is the first end-to-end deep learning method for LF reconstruction from a real hybrid input. We believe our framework could potentially decrease the cost of high-resolution LF data acquisition and benefit LF data storage and transmission.
translated by 谷歌翻译
在本文中,我们考虑了基于参考的超分辨率(REFSR)中的两个具有挑战性的问题,(i)如何选择适当的参考图像,以及(ii)如何以一种自我监督的方式学习真实世界RefSR。特别是,我们从双摄像头Zooms(SelfDZSR)观察到现实世界图像SR的新颖的自我监督学习方法。考虑到多台相机在现代智能手机中的普及,可以自然利用越来越多的缩放(远摄)图像作为指导较小的变焦(短对焦)图像的SR。此外,SelfDZSR学习了一个深层网络,以获得短对焦图像的SR结果,以具有与远摄图像相同的分辨率。为此,我们将远摄图像而不是其他高分辨率图像作为监督信息,然后从中选择中心贴片作为对相应的短对焦图像补丁的引用。为了减轻短对焦低分辨率(LR)图像和远摄地面真相(GT)图像之间未对准的影响,我们设计了辅助LR发电机,并将GT映射到辅助LR,同时保持空间位置不变。 。然后,可以利用辅助-LR通过建议的自适应空间变压器网络(ADASTN)将LR特征变形,并将REF特征与GT匹配。在测试过程中,可以直接部署SelfDZSR,以使用远摄映像的引用来超级解决整个短对焦图像。实验表明,我们的方法可以针对最先进的方法实现更好的定量和定性性能。代码可在https://github.com/cszhilu1998/selfdzsr上找到。
translated by 谷歌翻译
时空视频超分辨率(STVSR)的目标是提高帧速率(也称为时间分辨率)和给定视频的空间分辨率。最近的方法通过端到端的深神经网络解决了STVSR。一个流行的解决方案是首先提高视频的帧速率;然后在不同的框架功能之间执行特征改进;最后增加了这些功能的空间分辨率。在此过程中,仔细利用了不同帧的特征之间的时间相关性。然而,尚未强调不同(空间)分辨率的特征之间的空间相关性。在本文中,我们提出了一个时空特征交互网络,以通过在不同框架和空间分辨率的特征之间利用空间和时间相关来增强STVSR。具体而言,引入了空间 - 周期框架插值模块,以同时和互动性地插值低分辨率和高分辨率的中间框架特征。后来分别部署了空间 - 周期性的本地和全局细化模块,以利用不同特征之间的空间 - 周期相关性进行细化。最后,采用了新的运动一致性损失来增强重建帧之间的运动连续性。我们对三个标准基准测试,即VID4,Vimeo-90K和Adobe240进行实验,结果表明,我们的方法可以通过相当大的余量提高了最先进的方法。我们的代码将在https://github.com/yuezijie/stinet-pace time-video-super-resolution上找到。
translated by 谷歌翻译