视频是一种流行的媒体形式,其中在线视频流最近聚集了很多人气。在这项工作中,我们提出了一种新颖的实时视频稳定方法 - 将摇晃视频转换为稳定的视频,仿佛它实时通过万向节稳定。我们的框架是以自我监督的方式进行培训,不需要使用特殊硬件设置(即,在立体声钻机或附加运动传感器上的两个摄像机)捕获的数据。我们的框架包括在给定帧之间的转换估计器,用于全局稳定性调整,然后通过空间平滑的光学流动的场景视差减少模块,以进一步稳定。然后,保证金修整模块填充稳定期间创建的缺失的边缘区域,以减少裁剪后的数量。这些顺序步骤将失真和边距减少到最小,同时增强稳定性。因此,我们的方法优于最先进的实时视频稳定方法以及需要相机轨迹优化的离线方法。无论分辨率(例如,480p或1080p),我们的方法程序大约需要41 fps的24.3 ms。
translated by 谷歌翻译
Videos shot by laymen using hand-held cameras contain undesirable shaky motion. Estimating the global motion between successive frames, in a manner not influenced by moving objects, is central to many video stabilization techniques, but poses significant challenges. A large body of work uses 2D affine transformations or homography for the global motion. However, in this work, we introduce a more general representation scheme, which adapts any existing optical flow network to ignore the moving objects and obtain a spatially smooth approximation of the global motion between video frames. We achieve this by a knowledge distillation approach, where we first introduce a low pass filter module into the optical flow network to constrain the predicted optical flow to be spatially smooth. This becomes our student network, named as \textsc{GlobalFlowNet}. Then, using the original optical flow network as the teacher network, we train the student network using a robust loss function. Given a trained \textsc{GlobalFlowNet}, we stabilize videos using a two stage process. In the first stage, we correct the instability in affine parameters using a quadratic programming approach constrained by a user-specified cropping limit to control loss of field of view. In the second stage, we stabilize the video further by smoothing global motion parameters, expressed using a small number of discrete cosine transform coefficients. In extensive experiments on a variety of different videos, our technique outperforms state of the art techniques in terms of subjective quality and different quantitative measures of video stability. The source code is publicly available at \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet}
translated by 谷歌翻译
We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for the motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods.
translated by 谷歌翻译
滚动快门(RS)失真可以解释为在RS摄像机曝光期间,随着时间的推移从瞬时全局快门(GS)框架中挑选一排像素。这意味着每个即时GS帧的信息部分,依次是嵌入到行依赖性失真中。受到这一事实的启发,我们解决了扭转这一过程的挑战性任务,即从rs失真中的图像中提取未变形的GS框架。但是,由于RS失真与其他因素相结合,例如读数设置以及场景元素与相机的相对速度,因此仅利用临时相邻图像之间的几何相关性的型号,在处理数据中,具有不同的读数设置和动态场景的数据中遭受了不良的通用性。带有相机运动和物体运动。在本文中,我们建议使用双重RS摄像机捕获的一对图像,而不是连续的框架,而RS摄像机则具有相反的RS方向,以完成这项极具挑战性的任务。基于双重反转失真的对称和互补性,我们开发了一种新型的端到端模型,即IFED,以通过卢比时间对速度场的迭代学习来生成双重光流序列。广泛的实验结果表明,IFED优于天真的级联方案,以及利用相邻RS图像的最新艺术品。最重要的是,尽管它在合成数据集上进行了训练,但显示出在从现实世界中的RS扭曲的动态场景图像中检索GS框架序列有效。代码可在https://github.com/zzh-tech/dual-versed-rs上找到。
translated by 谷歌翻译
Convolutional neural networks (CNNs) have recently been very successful in a variety of computer vision tasks, especially on those linked to recognition. Optical flow estimation has not been among the tasks where CNNs were successful. In this paper we construct appropriate CNNs which are capable of solving the optical flow estimation problem as a supervised learning task. We propose and compare two architectures: a generic architecture and another one including a layer that correlates feature vectors at different image locations.Since existing ground truth datasets are not sufficiently large to train a CNN, we generate a synthetic Flying Chairs dataset. We show that networks trained on this unrealistic data still generalize very well to existing datasets such as Sintel and KITTI, achieving competitive accuracy at frame rates of 5 to 10 fps.
translated by 谷歌翻译
我们提出了一种用于视频帧插值(VFI)的实时中流估计算法。许多最近的基于流的VFI方法首先估计双向光学流,然后缩放并将它们倒转到近似中间流动,导致运动边界上的伪像。RIFE使用名为IFNET的神经网络,可以直接估计中间流量从粗细流,速度更好。我们设计了一种用于训练中间流动模型的特权蒸馏方案,这导致了大的性能改善。Rife不依赖于预先训练的光流模型,可以支持任意时间的帧插值。实验表明,普里埃雷在若干公共基准上实现了最先进的表现。\ url {https://github.com/hzwer/arxiv2020-rife}。
translated by 谷歌翻译
Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on the alignment of nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task that requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-toend to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high frame rate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines 1 .
translated by 谷歌翻译
以前的深度学习视频稳定器需要大量的配对不稳定和稳定的视频进行培训,这很难收集。另一方面,基于传统的基于轨迹的稳定器将任务分为几个子任务并随后对其进行处理,这些任务在使用手工制作的功能方面无纹理和遮挡的区域脆弱。在本文中,我们试图以一种深刻的无监督学习方式解决视频稳定问题,这借鉴了传统稳定器的分裂和纠纷思想,同时利用DNNS的代表权来应对现实情况下的挑战。从技术上讲,DUT由轨迹估计阶段和轨迹平滑阶段组成。在轨迹估计阶段,我们首先估计按键点的运动,初始化和完善网格的运动,分别通过新型的多摄影估计策略和运动改进网络,并通过临时关联获得基于网格的轨迹。在轨迹平滑阶段,我们设计了一个新颖的网络来预测轨迹平滑的动态平滑核,这可以很好地适应具有不同动态模式的轨迹。我们利用关键点和网格顶点的空间和时间连贯性来制定训练目标,从而导致无监督的培训计划。公共基准测试的实验结果表明,DUT在定性和定量上都优于最先进的方法。源代码可在https://github.com/annbless/dutcode上找到。
translated by 谷歌翻译
视频稳定在提高视频质量方面起着核心作用。但是,尽管这些方法取得了很大的进展,但它们主要是在标准天气和照明条件下进行的,并且在不利条件下的性能可能会差。在本文中,我们提出了一种用于视频稳定的综合感知不良天气鲁棒算法,该算法不需要真实数据,并且只能在合成数据上接受培训。我们还提出了Silver,这是一种新颖的渲染引擎,可通过自动地面提取程序生成所需的训练数据。我们的方法使用我们的特殊生成的合成数据来训练仿射转换矩阵估计器,避免了当前方法面临的特征提取问题。此外,由于在不利条件下没有视频稳定数据集,因此我们提出了新颖的VSAC105REAL数据集以进行评估。我们将我们的方法与使用两个基准测试的五种最先进的视频稳定算法进行了比较。我们的结果表明,当前的方法在至少一个天气条件下的表现差,即使在一个具有合成数据的小数据集中培训,我们就稳定性得分,失真得分,成功率和平均种植方面取得了最佳性能考虑所有天气条件时的比率。因此,我们的视频稳定模型在现实世界的视频上很好地概括了,并且不需要大规模的合成训练数据来收敛。
translated by 谷歌翻译
快速移动受试者的运动模糊是摄影中的一个长期问题,由于收集效率有限,尤其是在弱光条件下,在手机上非常常见。尽管近年来我们目睹了图像脱毛的巨大进展,但大多数方法都需要显着的计算能力,并且在处理高分辨率照片的情况下具有严重的局部动作。为此,我们根据手机的双摄像头融合技术开发了一种新颖的面部脱毛系统。该系统检测到主题运动以动态启用参考摄像头,例如,最近在高级手机上通常可用的Ultrawide Angle摄像机,并捕获带有更快快门设置的辅助照片。虽然主镜头是低噪音但模糊的,但参考镜头却很锋利,但嘈杂。我们学习ML模型,以对齐和融合这两张镜头,并在没有运动模糊的情况下输出清晰的照片。我们的算法在Google Pixel 6上有效运行,每次拍摄需要463毫秒的开销。我们的实验证明了系统对替代单片,多帧,面部特异性和视频脱张算法以及商业产品的优势和鲁棒性。据我们所知,我们的工作是第一个用于面部运动脱毛的移动解决方案,在各种运动和照明条件下,在数千个图像中可靠地工作。
translated by 谷歌翻译
Given two consecutive frames, video interpolation aims at generating intermediate frame(s) to form both spatially and temporally coherent video sequences. While most existing methods focus on single-frame interpolation, we propose an end-to-end convolutional neural network for variable-length multi-frame video interpolation, where the motion interpretation and occlusion reasoning are jointly modeled. We start by computing bi-directional optical flow between the input images using a U-Net architecture. These flows are then linearly combined at each time step to approximate the intermediate bi-directional optical flows. These approximate flows, however, only work well in locally smooth regions and produce artifacts around motion boundaries. To address this shortcoming, we employ another U-Net to refine the approximated flow and also predict soft visibility maps. Finally, the two input images are warped and linearly fused to form each intermediate frame. By applying the visibility maps to the warped images before fusion, we exclude the contribution of occluded pixels to the interpolated intermediate frame to avoid artifacts. Since none of our learned network parameters are time-dependent, our approach is able to produce as many intermediate frames as needed. To train our network, we use 1,132 240-fps video clips, containing 300K individual video frames. Experimental results on several datasets, predicting different numbers of interpolated frames, demonstrate that our approach performs consistently better than existing methods.
translated by 谷歌翻译
可以通过定期预测未来的框架以增强虚拟现实应用程序中的用户体验,从而解决了低计算设备上图形渲染高帧速率视频的挑战。这是通过时间视图合成(TVS)的问题来研究的,该问题的目标是预测给定上一个帧的视频的下一个帧以及上一个和下一个帧的头部姿势。在这项工作中,我们考虑了用户和对象正在移动的动态场景的电视。我们设计了一个将运动解散到用户和对象运动中的框架,以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去框架的3D对象运动,然后推断它来预测对象的运动。我们使用多平面图像(MPI)作为场景的3D表示,并将对象运动作为MPI表示中相应点之间的3D位移建模。为了在估计运动时处理MPI中的稀疏性,我们将部分卷积和掩盖的相关层纳入了相应的点。然后将预测的对象运动与给定的用户或相机运动集成在一起,以生成下一帧。使用不合格的填充模块,我们合成由于相机和对象运动而发现的区域。我们为动态场景的电视开发了一个新的合成数据集,该数据集由800个以全高清分辨率组成的视频组成。我们通过数据集和MPI Sintel数据集上的实验表明我们的模型优于文献中的所有竞争方法。
translated by 谷歌翻译
动态对象对机器人对环境的看法产生了重大影响,这降低了本地化和映射等基本任务的性能。在这项工作中,我们通过在由动态对象封闭的区域中合成合理的颜色,纹理和几何形状来解决这个问题。我们提出了一种新的几何感知Dynafill架构,其遵循粗略拓扑,并将我们所通用的经常性反馈机制结合到自适应地融合来自之前的时间步来的信息。我们使用对抗性培训来优化架构,以综合精细的现实纹理,使其能够以空间和时间相干的方式在线在线遮挡地区的幻觉和深度结构,而不依赖于未来的帧信息。将我们的待遇问题作为图像到图像到图像的翻译任务,我们的模型还纠正了与场景中动态对象的存在相关的区域,例如阴影或反射。我们引入了具有RGB-D图像,语义分段标签,摄像机的大型高估数据集,以及遮挡区域的地面RGB-D信息。广泛的定量和定性评估表明,即使在挑战天气条件下,我们的方法也能实现最先进的性能。此外,我们使用综合图像显示基于检索的视觉本地化的结果,该图像证明了我们方法的效用。
translated by 谷歌翻译
最近的基于学习的初始化算法已经达到了在删除视频中的不期望的对象之后完成缺失区域的令人信服的结果。为了保持帧之间的时间一致性,3D空间和时间操作通常在深网络中使用。但是,这些方法通常遭受内存约束,只能处理低分辨率视频。我们提出了一种用于高分辨率视频侵略的新型空间剩余聚集框架。关键的想法是首先在下采样的低分辨率视频上学习和应用空间和时间内染色网络。然后,我们通过将学习的空间和时间图像残差(细节)聚合到上采样的染色帧来细化低分辨率结果。定量和定性评估都表明,我们可以生产出比确定高分辨率视频的最先进的方法产生更多的时间相干和视觉上吸引力。
translated by 谷歌翻译
密集的深度和姿势估计是各种视频应用的重要先决条件。传统的解决方案遭受了稀疏特征跟踪的鲁棒性和视频中相机基线不足。因此,最近的方法利用基于学习的光流和深度在估计密集深度之前。但是,以前的作品需要大量的计算时间或产量亚最佳深度结果。我们提出了GCVD,这是本文中从运动(SFM)中基于学习的视频结构的全球一致方法。 GCVD将紧凑型姿势图集成到基于CNN的优化中,以从有效的密钥帧选择机制中实现全球一致的估计。它可以通过流动引导的密钥帧和完善的深度提高基于学习的方法的鲁棒性。实验结果表明,GCVD在深度和姿势估计上都优于最先进的方法。此外,运行时实验表明,它在提供全球一致性的短期和长期视频中都提供了强大的效率。
translated by 谷歌翻译
高动态范围(HDR)视频提供比标准低动态范围(LDR)视频更具视觉上的体验。尽管HDR成像具有重要进展,但仍有一个具有挑战性的任务,可以使用传统的现成摄像头捕获高质量的HDR视频。现有方法完全依赖于在相邻的LDR序列之间使用致密光流来重建HDR帧。然而,当用嘈杂的框架应用于交替的曝光时,它们会导致颜色和暴露的曝光不一致。在本文中,我们提出了一种从LDR序列与交替曝光的LDR序列的HDR视频重建的端到端GAN框架。我们首先从Noisy LDR视频中提取清洁LDR帧,并具有在自我监督设置中培训的去噪网络的交替曝光。然后,我们将相邻的交流帧与参考帧对齐,然后在完全的对手设置中重建高质量的HDR帧。为了进一步提高所产生帧的鲁棒性和质量,我们在培训过程中将时间稳定性的正则化术语与成本函数的内容和风格的损耗一起融合。实验结果表明,我们的框架实现了最先进的性能,并通过现有方法生成视频的优质HDR帧。
translated by 谷歌翻译
本文提出了一种新颖的视频介绍方法。我们做出了三个主要贡献:首先,我们通过引入基于贴片的同型(DEPTH)扩展了以前的变压器,以补丁的对齐方式扩展了贴片对齐,该均值(DEPTH)改善了补丁级的功能对齐,而没有其他有各种变形的监督和受益的挑战场景。其次,我们引入了基于面膜修剪的贴片注意力(MPPA),以通过修剪较少的基本功能和使用显着性图来改善贴合的功能匹配。MPPA用无效的像素增强了扭曲令牌之间的匹配精度。第三,我们引入了空间加权适配器(STA)模块,以在从深度中学到的变形因子的指导下,准确地关注空间代币,尤其是对于具有敏捷运动的视频。实验结果表明,我们的方法在定性和定量上优于最新方法,并实现了新的最新方法。
translated by 谷歌翻译
Video super-resolution (VSR) aiming to reconstruct a high-resolution (HR) video from its low-resolution (LR) counterpart has made tremendous progress in recent years. However, it remains challenging to deploy existing VSR methods to real-world data with complex degradations. On the one hand, there are few well-aligned real-world VSR datasets, especially with large super-resolution scale factors, which limits the development of real-world VSR tasks. On the other hand, alignment algorithms in existing VSR methods perform poorly for real-world videos, leading to unsatisfactory results. As an attempt to address the aforementioned issues, we build a real-world 4 VSR dataset, namely MVSR4$\times$, where low- and high-resolution videos are captured with different focal length lenses of a smartphone, respectively. Moreover, we propose an effective alignment method for real-world VSR, namely EAVSR. EAVSR takes the proposed multi-layer adaptive spatial transform network (MultiAdaSTN) to refine the offsets provided by the pre-trained optical flow estimation network. Experimental results on RealVSR and MVSR4$\times$ datasets show the effectiveness and practicality of our method, and we achieve state-of-the-art performance in real-world VSR task. The dataset and code will be publicly available.
translated by 谷歌翻译
在本文中,我们介绍了Siammask,这是一个实时使用相同简单方法实时执行视觉对象跟踪和视频对象分割的框架。我们通过通过二进制细分任务来增强其损失,从而改善了流行的全面暹罗方法的离线培训程序。离线训练完成后,SiamMask只需要一个单个边界框来初始化,并且可以同时在高框架速率下进行视觉对象跟踪和分割。此外,我们表明可以通过简单地以级联的方式重新使用多任务模型来扩展框架以处理多个对象跟踪和细分。实验结果表明,我们的方法具有较高的处理效率,每秒约55帧。它可以在视觉对象跟踪基准测试中产生实时最新结果,同时以高速进行视频对象分割基准测试以高速显示竞争性能。
translated by 谷歌翻译
视频框架合成由插值和外推组成,是一种必不可少的视频处理技术,可应用于各种情况。但是,大多数现有方法无法处理小物体或大型运动,尤其是在高分辨率视频(例如4K视频)中。为了消除此类局限性,我们引入了基于流动帧合成的邻居对应匹配(NCM)算法。由于当前的帧在视频框架合成中不可用,因此NCM以当前框架的方式进行,以在每个像素的空间型社区中建立多尺度对应关系。基于NCM的强大运动表示能力,我们进一步建议在异质的粗到细节方案中估算框架合成的中间流。具体而言,粗尺度模块旨在利用邻居的对应关系来捕获大型运动,而细尺度模块在计算上更有效地加快了估计过程。两个模块都经过逐步训练,以消除培训数据集和现实世界视频之间的分辨率差距。实验结果表明,NCM在多个基准测试中实现了最先进的性能。此外,NCM可以应用于各种实践场景,例如视频压缩,以实现更好的性能。
translated by 谷歌翻译