智能论文笔记

No Attention is Needed: Grouped Spatial-temporal Shift for Simple and Efficient Video Restorers

Dasong Li , Xiaoyu Shi , Yi Zhang , Xiaogang Wang , Hongwei Qin , Hongsheng Li

分类：计算机视觉

2022-06-22

旨在恢复降级视频清晰框架的视频修复一直在吸引越来越多的关注。需要进行视频修复来建立来自多个未对准帧的时间对应关系。为了实现这一目标，现有的深层方法通常采用复杂的网络体系结构，例如集成光流，可变形卷积，跨框或跨像素自我发项层，从而导致昂贵的计算成本。我们认为，通过适当的设计，视频修复中的时间信息利用可能会更加有效。在这项研究中，我们提出了一个简单，快速但有效的视频修复框架。我们框架的关键是分组的时空转移，它简单且轻巧，但可以隐式建立框架间的对应关系并实现多框架聚合。加上用于框架编码和解码的基本2D U-NET，这种有效的时空移位模块可以有效地应对视频修复中的挑战。广泛的实验表明，我们的框架超过了先前的最先进方法，其计算成本的43％在视频DeBlurring和Video Denoisising上。

translated by 谷歌翻译

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

Xintao Wang , Kelvin C. K. Chan , Ke Yu , Chao Dong , Chen Change Loy

分类：

2019-05-07

Video restoration tasks, including super-resolution, deblurring, etc, are drawing increasing attention in the computer vision community. A challenging benchmark named REDS is released in the NTIRE19 Challenge. This new benchmark challenges existing methods from two aspects:(1) how to align multiple frames given large motions, and (2) how to effectively fuse different frames with diverse motion and blur. In this work, we propose a novel Video Restoration framework with Enhanced Deformable convolutions, termed EDVR, to address these challenges. First, to handle large motions, we devise a Pyramid, Cascading and Deformable (PCD) alignment module, in which frame alignment is done at the feature level using deformable convolutions in a coarse-to-fine manner. Second, we propose a Temporal and Spatial Attention (TSA) fusion module, in which attention is applied both temporally and spatially, so as to emphasize important features for subsequent restoration. Thanks to these modules, our EDVR wins the champions and outperforms the second place by a large margin in all four tracks in the NTIRE19 video restoration and enhancement challenges. EDVR also demonstrates superior performance to state-of-the-art published methods on video super-resolution and deblurring. The code is available at https://github.com/xinntao/EDVR.

translated by 谷歌翻译

VRT: A Video Restoration Transformer

Jingyun Liang , Jiezhang Cao , Yuchen Fan , Kai Zhang , Rakesh Ranjan , Yawei Li , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-01-28

视频修复（例如，视频超分辨率）旨在从低品质框架中恢复高质量的帧。与单图像恢复不同，视频修复通常需要从多个相邻但通常未对准视频帧的时间信息。现有的深度方法通常通过利用滑动窗口策略或经常性体系结构来解决此问题，该策略要么受逐帧恢复的限制，要么缺乏远程建模能力。在本文中，我们提出了一个带有平行框架预测和远程时间依赖性建模能力的视频恢复变压器（VRT）。更具体地说，VRT由多个量表组成，每个量表由两种模块组成：时间相互注意（TMSA）和平行翘曲。 TMSA将视频分为小剪辑，将相互关注用于关节运动估计，特征对齐和特征融合，而自我注意力则用于特征提取。为了启用交叉交互，视频序列对其他每一层都发生了变化。此外，通过并行功能翘曲，并行翘曲用于进一步从相邻帧中融合信息。有关五项任务的实验结果，包括视频超分辨率，视频脱张，视频denoising，视频框架插值和时空视频超级分辨率，证明VRT优于大幅度的最先进方法（$ \ textbf） {最高2.16db} $）在十四个基准数据集上。

translated by 谷歌翻译

Real-time Streaming Video Denoising with Bidirectional Buffers

Chenyang Qi , Junming Chen , Xin Yang , Qifeng Chen

分类：计算机视觉

2022-07-14

视频流连续交付，以节省存储和设备内存的成本。用户设备上通常采用实时denoising算法，以消除视频流的拍摄和传输过程中所涉及的噪声。但是，基于滑动窗口的方法为单个输出和缺乏计算效率的多个输入帧提供了多个输入帧。最近的多输出推荐工作可以通过平行或经常性的框架传播双向时间功能，这要么在剪辑的时间边缘上的性能下降，要么无法在线推断。在本文中，我们提出了一个双向流视频Denoisising（BSVD）框架，以实现具有过去和将来的暂时接收领域的流式传输视频的高保真实时DENOSISing。在线推理的双向时间融合被认为不适用于Movinet。但是，我们引入了一个新型的双向缓冲块作为我们BSVD的核心模块，这使我们在管道风格的推理过程中成为可能。此外，我们的方法简洁明了，可以在非盲和盲视频降解中使用。我们将模型与各种最先进的视频denoising模型在定性和定量上在合成和真实噪声上进行了比较。我们的方法在恢复保真度和运行时优于先前的方法。我们的源代码可在https://github.com/chenyangqiqi/bsvd上公开获得。

translated by 谷歌翻译

Video Frame Interpolation Transformer

Zhihao Shi , Xiangyu Xu , Xiaohong Liu , Jun Chen , Ming-Hsuan Yang

分类：计算机视觉

2021-11-27

用于深度卷积神经网络的视频插值的现有方法，因此遭受其内在限制，例如内部局限性核心权重和受限制的接收领域。为了解决这些问题，我们提出了一种基于变换器的视频插值框架，允许内容感知聚合权重，并考虑具有自我关注操作的远程依赖性。为避免全球自我关注的高计算成本，我们将当地注意的概念引入视频插值并将其扩展到空间域。此外，我们提出了一个节省时间的分离策略，以节省内存使用，这也提高了性能。此外，我们开发了一种多尺度帧合成方案，以充分实现变压器的潜力。广泛的实验证明了所提出的模型对最先进的方法来说，定量和定性地在各种基准数据集上进行定量和定性。

translated by 谷歌翻译

Recurrent Video Restoration Transformer with Guided Deformable Attention

Jingyun Liang , Yuchen Fan , Xiaoyu Xiang , Rakesh Ranjan , Eddy Ilg , Simon Green , Jiezhang Cao , Kai Zhang , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-06-05

视频修复旨在从多个低质量框架中恢复多个高质量的帧。现有的视频修复方法通常属于两种极端情况，即它们并行恢复所有帧，或者以复发方式恢复视频框架，这将导致不同的优点和缺点。通常，前者具有时间信息融合的优势。但是，它遭受了较大的模型尺寸和密集的内存消耗；后者的模型大小相对较小，因为它在跨帧中共享参数。但是，它缺乏远程依赖建模能力和并行性。在本文中，我们试图通过提出经常性视频恢复变压器（即RVRT）来整合两种情况的优势。 RVRT在全球经常性的框架内并行处理本地相邻框架，该框架可以在模型大小，有效性和效率之间实现良好的权衡。具体而言，RVRT将视频分为多个剪辑，并使用先前推断的剪辑功能来估计后续剪辑功能。在每个剪辑中，通过隐式特征聚合共同更新不同的帧功能。在不同的剪辑中，引导的变形注意力是为剪辑对齐对齐的，该剪辑对齐可预测整个推断的夹子中的多个相关位置，并通过注意机制汇总其特征。关于视频超分辨率，DeBlurring和DeNoising的广泛实验表明，所提出的RVRT在具有平衡模型大小，测试内存和运行时的基准数据集上实现了最先进的性能。

translated by 谷歌翻译

Rethinking Alignment in Video Super-Resolution Transformers

Shuwei Shi , Jinjin Gu , Liangbin Xie , Xintao Wang , Yujiu Yang , Chao Dong

分类：计算机视觉

2022-07-18

相邻帧的比对被认为是视频超分辨率（VSR）中的重要操作。高级VSR模型，包括最新的VSR变形金刚，通常配备精心设计的对齐模块。但是，自我注意机制的进步可能违反了这种常识。在本文中，我们重新考虑了对齐在VSR变压器中的作用，并进行了几种违反直觉的观察。我们的实验表明：（i）VSR变形金刚可以直接利用来自非对齐视频的多帧信息，并且（ii）现有的对齐方法有时对VSR变形金刚有害。这些观察结果表明，我们可以仅通过删除对齐模块并采用更大的注意力窗口来进一步提高VSR变压器的性能。然而，这样的设计将大大增加计算负担，无法处理大型动议。因此，我们提出了一种称为斑块对齐的新的，有效的对准方法，该方法将图像贴片而不是像素对齐。配备贴片对齐的VSR变形金刚可以在多个基准测试上证明最先进的性能。我们的工作提供了有关如何在VSR中使用多帧信息以及如何为不同网络/数据集选择对齐方法的宝贵见解。代码和模型将在https://github.com/xpixelgroup/rethinkvsralignment上发布。

translated by 谷歌翻译

Revisiting Temporal Alignment for Video Restoration

Kun Zhou , Wenbo Li , Liying Lu , Xiaoguang Han , Jiangbo Lu

分类：计算机视觉

2021-11-30

远程时间对齐至关重要，但对视频恢复任务有挑战性。最近，一些作品试图将远程对齐分成几个子对齐并逐步处理它们。虽然该操作有助于建模遥控对应关系，但由于传播机制，误差累积是不可避免的。在这项工作中，我们提出了一种新颖的通用迭代对准模块，其采用逐渐改进方案进行子对准，产生更准确的运动补偿。为了进一步提高对准精度和时间一致性，我们开发了一种非参数重新加权方法，其中每个相邻帧的重要性以用于聚合的空间方式自适应地评估。凭借拟议的策略，我们的模型在一系列视频恢复任务中实现了多个基准测试的最先进的性能，包括视频超分辨率，去噪和去束性。我们的项目可用于\ url {https:/github.com/redrock303/revisiting-temporal-alignment-for-video-Restion.git}。

translated by 谷歌翻译

Flow-Guided Sparse Transformer for Video Deblurring

Jing Lin , Yuanhao Cai , Xiaowan Hu , Haoqian Wang , Youliang Yan , Xueyi Zou , Henghui Ding , Yulun Zhang , Radu Timofte , Luc Van Gool

分类：计算机视觉

2022-01-06

在时空邻域中利用类似和更清晰的场景补丁对于视频去纹理至关重要。然而，基于CNN的方法显示了捕获远程依赖性和建模非本地自相相似性的限制。在本文中，我们提出了一种新颖的框架，流引导稀疏变压器（FGST），用于视频去掩模。在FGST中，我们定制自我关注模块，流动引导的基于稀疏窗口的多头自我关注（FGSW-MSA）。对于模糊参考帧上的每个$查询$元素，FGSW-MSA享有估计的光流向全局样本的指导，其空间稀疏但与相邻帧中相同的场景补丁对应的高度相关$键$元素。此外，我们介绍了一种反复嵌入（RE）机制，以从过去的框架转移信息并加强远程时间依赖性。综合实验表明，我们提出的FGST优于DVD和GoPro数据集的最先进的（SOTA）方法，甚至在真实视频去纹理中产生更多视觉上令人愉悦的结果。代码和型号将发布给公众。

translated by 谷歌翻译

Imaging through the Atmosphere using Turbulence Mitigation Transformer

Xingguang Zhang , Zhiyuan Mao , Nicholas Chimitt , Stanley H. Chan

分类：计算机视觉

2022-07-13

由于大气湍流的扭曲而恢复图像是一个长期存在的问题，这是由于变形的空间变化，图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设，在许多情况下，由于没有概括，因此在现实世界中的性能有限。为了克服挑战，本文提出了一种端到端物理驱动的方法，该方法有效，可以推广到现实世界的湍流。在数据合成方面，我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面，我们提出了湍流缓解变压器（TMT），这是一个两级U-NET形状的多帧恢复网络，该网络具有Noval有效的自发机制，称为暂时通道关节关注（TCJA）。我们还引入了一种新的培训方案，该方案由新的模拟器启用，并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的，包括各种真实的湍流场景。

translated by 谷歌翻译

Real-Time Video Deblurring via Lightweight Motion Compensation

Hyeongseok Son , Junyong Lee , Sunghyun Cho , Seungyong Lee

分类：计算机视觉

2022-05-25

尽管运动补偿大大提高了视频质量，但单独执行运动补偿和视频脱张需要大量的计算开销。本文提出了一个实时视频Deblurring框架，该框架由轻巧的多任务单元组成，该单元以有效的方式支持视频脱张和运动补偿。多任务单元是专门设计的，用于使用单个共享网络处理两个任务的大部分，并由多任务详细网络和简单的网络组成，用于消除和运动补偿。多任务单元最大程度地减少了将运动补偿纳入视频Deblurring的成本，并实现了实时脱毛。此外，通过堆叠多个多任务单元，我们的框架在成本和过度质量之间提供了灵活的控制。我们通过实验性地验证了方法的最先进的质量，与以前的方法相比，该方法的运行速度要快得多，并显示了实时的实时性能（在DVD数据集中测量了30.99db@30fps）。

translated by 谷歌翻译

Efficient Video Deblurring Guided by Motion Magnitude

Yusheng Wang , Yunfan Lu , Ye Gao , Lin Wang , Zhihang Zhong , Yinqiang Zheng , Atsushi Yamashita

分类：计算机视觉

2022-07-27

由于空间和时间变化的模糊，视频脱毛是一个高度不足的问题。视频脱毛的直观方法包括两个步骤：a）检测当前框架中的模糊区域； b）利用来自相邻帧中清晰区域的信息，以使当前框架脱毛。为了实现这一过程，我们的想法是检测每个帧的像素模糊级别，并将其与视频Deblurring结合使用。为此，我们提出了一个新颖的框架，该框架利用了先验运动级（MMP）作为有效的深视频脱张的指南。具体而言，由于在曝光时间内沿其轨迹的像素运动与运动模糊水平呈正相关，因此我们首先使用高频尖锐框架的光流量的平均幅度来生成合成模糊框架及其相应的像素 - 像素 - 明智的运动幅度地图。然后，我们构建一个数据集，包括模糊框架和MMP对。然后，由紧凑的CNN通过回归来学习MMP。 MMP包括空间和时间模糊级别的信息，可以将其进一步集成到视频脱毛的有效复发性神经网络（RNN）中。我们进行密集的实验，以验证公共数据集中提出的方法的有效性。

translated by 谷歌翻译

PP-MSVSR: Multi-Stage Video Super-Resolution

Lielin Jiang , Na Wang , Qingqing Dang , Rui Liu , Baohua Lai

分类：计算机视觉

2021-12-06

不同于单图像超分辨率（SISR）任务，视频超分辨率（VSR）任务的键是在帧中充分利用互补信息来重建高分辨率序列。由于来自不同帧的图像具有不同的运动和场景，因此精确地对准多个帧并有效地融合不同的帧，这始终是VSR任务的关键研究工作。为了利用邻近框架的丰富互补信息，在本文中，我们提出了一种多级VSR深度架构，称为PP-MSVSR，局部融合模块，辅助损耗和重新对准模块，以逐步改进增强率。具体地，为了加强特征传播中帧的特征的融合，在阶段-1中设计了局部融合模块，以在特征传播之前执行局部特征融合。此外，我们在阶段-2中引入辅助损耗，使得通过传播模块获得的特征储备更多相关的信息连接到HR空间，并在阶段-3中引入重新对准模块以充分利用该特征信息前一阶段。广泛的实验证实，PP-MSVSR实现了VID4数据集的有希望的性能，其实现了28.13dB的PSNR，仅具有1.45米的参数。并且PP-MSVSR-L具有相当大的参数的REDS4数据集上的所有状态。代码和模型将在Paddlegan \脚注{https://github.com/paddlepaddle/paddlegan。}。

translated by 谷歌翻译

TEA: Temporal Excitation and Aggregation for Action Recognition

Yan Li , Bin Ji , Xintian Shi , Jianguo Zhang , Bin Kang , Limin Wang

分类：

2020-04-03

Temporal modeling is key for action recognition in videos. It normally considers both short-range motions and long-range aggregations. In this paper, we propose a Temporal Excitation and Aggregation (TEA) block, including a motion excitation (ME) module and a multiple temporal aggregation (MTA) module, specifically designed to capture both short-and long-range temporal evolution. In particular, for short-range motion modeling, the ME module calculates the feature-level temporal differences from spatiotemporal features. It then utilizes the differences to excite the motion-sensitive channels of the features. The long-range temporal aggregations in previous works are typically achieved by stacking a large number of local temporal convolutions. Each convolution processes a local temporal window at a time. In contrast, the MTA module proposes to deform the local convolution to a group of subconvolutions, forming a hierarchical residual architecture. Without introducing additional parameters, the features will be processed with a series of sub-convolutions, and each frame could complete multiple temporal aggregations with neighborhoods. The final equivalent receptive field of temporal dimension is accordingly enlarged, which is capable of modeling the long-range temporal relationship over distant frames. The two components of the TEA block are complementary in temporal modeling. Finally, our approach achieves impressive results at low FLOPs on several action recognition benchmarks, such as Kinetics, Something-Something, HMDB51, and UCF101, which confirms its effectiveness and efficiency.

translated by 谷歌翻译

STDAN: Deformable Attention Network for Space-Time Video Super-Resolution

Hai Wang , Xiaoyu Xiang , Yapeng Tian , Wenming Yang , Qingmin Liao

分类：计算机视觉

2022-03-14

时空视频超分辨率（STVSR）的目标是增加低分辨率（LR）和低帧速率（LFR）视频的空间分辨率。基于深度学习的最新方法已取得了重大改进，但是其中大多数仅使用两个相邻帧，即短期功能，可以合成缺失的框架嵌入，这无法完全探索连续输入LR帧的信息流。此外，现有的STVSR模型几乎无法明确利用时间上下文以帮助高分辨率（HR）框架重建。为了解决这些问题，在本文中，我们提出了一个称为STDAN的可变形注意网络。首先，我们设计了一个长短的术语特征插值（LSTFI）模块，该模块能够通过双向RNN结构从更相邻的输入帧中挖掘大量的内容，以进行插值。其次，我们提出了一个空间 - 周期性变形特征聚合（STDFA）模块，其中动态视频框架中的空间和时间上下文被自适应地捕获并汇总以增强SR重建。几个数据集的实验结果表明，我们的方法的表现优于最先进的STVSR方法。该代码可在https://github.com/littlewhitesea/stdan上找到。

translated by 谷歌翻译

You Only Align Once: Bidirectional Interaction for Spatial-Temporal Video Super-Resolution

Mengshun Hu , Kui Jiang , Zhixiang Nie , Zheng Wang

分类：计算机视觉

2022-07-13

时空视频超分辨率（ST-VSR）技术生成具有更高分辨率和较高帧速率的高质量视频。现有的高级方法通过空间和时间视频超分辨率（S-VSR和T-VSR）的关联来完成ST-VSR任务。这些方法需要在S-VSR和T-VSR中进行两个比对和融合，这显然是冗余的，并且无法充分探索连续的空间LR帧的信息流。尽管引入了双向学习（未来到档案和过去到现场）以涵盖所有输入框架，但最终预测的直接融合无法充分利用双向运动学习和空间信息的固有相关性，并从所有框架中进行空间信息。我们提出了一个有效但有效的经常性网络，该网络具有ST-VSR的双向相互作用，其中仅需要一个对齐和融合。具体而言，它首先从未来到过去执行向后推断，然后遵循向前推理到超溶解中间帧。向后和向前的推论被分配给学习结构和详细信息，以通过联合优化简化学习任务。此外，混合融合模块（HFM）旨在汇总和提炼信息以完善空间信息并重建高质量的视频帧。在两个公共数据集上进行的广泛实验表明，我们的方法在效率方面优于最先进的方法，并将计算成本降低约22％。

translated by 谷歌翻译

Information Prebuilt Recurrent Reconstruction Network for Video Super-Resolution

Ming Yu , Shuyun Wang , Cuihong Xue , Yingchun Guo , Gang Yan

分类：计算机视觉

2021-12-10

基于常规卷积网络的视频超分辨率（VSR）方法具有很强的视频序列的时间建模能力。然而，在单向反复卷积网络中的不同反复单元接收的输入信息不平衡。早期重建帧接收较少的时间信息，导致模糊或工件效果。虽然双向反复卷积网络可以缓解这个问题，但它大大提高了重建时间和计算复杂性。它也不适用于许多应用方案，例如在线超分辨率。为了解决上述问题，我们提出了一种端到端信息预构建的经常性重建网络（IPRRN），由信息预构建网络（IPNet）和经常性重建网络（RRNET）组成。通过将足够的信息从视频的前面集成来构建初始复发单元所需的隐藏状态，以帮助恢复较早的帧，信息预构建的网络在不向后传播之前和之后的输入信息差异。此外，我们展示了一种紧凑的复发性重建网络，可显着改善恢复质量和时间效率。许多实验已经验证了我们所提出的网络的有效性，并与现有的最先进方法相比，我们的方法可以有效地实现更高的定量和定性评估性能。

translated by 谷歌翻译

Dynamic Scene Video Deblurring using Non-Local Attention

Maitreya Suin , A. N. Rajagopalan

分类：计算机视觉

2022-01-01

本文解决了视频解训的挑战性问题。现有的大多数作品依赖于用于时间信息融合的隐式或显式对齐，其由于错误的对准而增加计算成本或导致次优的性能。在这项研究中，我们提出了一个分解的时空关注，以在不考虑的情况下完全使用可用信息的空间和时间来执行非本地操作。与现有融合技术相比，它显示出优异的性能，同时高效。多个数据集的广泛实验证明了我们方法的优越性。

translated by 谷歌翻译

Transcoded Video Restoration by Temporal Spatial Auxiliary Network

Li Xu , Gang He , Jinjia Zhou , Jie Lei , Weiying Xie , Yunsong Li , Yu-Wing Tai

分类：计算机视觉

2021-12-15

在大多数视频平台（如youtube和Tiktok）中，播放的视频通常经过多个视频编码，例如通过记录设备，视频编辑应用程序的软件编码，以及视频应用程序服务器的单个/多个视频转码。以前的压缩视频恢复工作通常假设压缩伪像是由一次性编码引起的。因此，衍生的解决方案通常在实践中通常不起作用。在本文中，我们提出了一种新的方法，时间空间辅助网络（TSAN），用于转码视频恢复。我们的方法考虑了视频编码和转码之间的独特特征，我们将初始浅编码视频视为中间标签，以帮助网络进行自我监督的注意培训。此外，我们采用相邻的多帧信息，并提出用于转码视频恢复的时间可变形对准和金字塔空间融合。实验结果表明，该方法的性能优于以前的技术。代码可在https://github.com/iceCherylxuli/tsan获得。

translated by 谷歌翻译

Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video Restoration

Jing Lin , Xiaowan Hu , Yuanhao Cai , Haoqian Wang , Youliang Yan , Xueyi Zou , Yulun Zhang , Luc Van Gool

分类：计算机视觉

2022-05-20

如何正确对视频序列中的框架间关系进行建模是视频恢复（VR）的重要挑战。在这项工作中，我们提出了一个无监督的流动对准序列模型（S2SVR）来解决此问题。一方面，在VR中首次探讨了在自然语言处理领域的序列到序列模型。优化的序列化建模显示了捕获帧之间远程依赖性的潜力。另一方面，我们为序列到序列模型配备了无监督的光流估计器，以最大程度地发挥其潜力。通过我们提出的无监督蒸馏损失对流量估计器进行了训练，这可以减轻数据差异和以前基于流动的方法的降解光流问题的不准确降解。通过可靠的光流，我们可以在多个帧之间建立准确的对应关系，从而缩小了1D语言和2D未对准框架之间的域差异，并提高了序列到序列模型的潜力。 S2SVR在多个VR任务中显示出卓越的性能，包括视频脱张，视频超分辨率和压缩视频质量增强。代码和模型可在https://github.com/linjing7/vr-baseline上公开获得

translated by 谷歌翻译