To generate high quality rendering images for real time applications, it is often to trace only a few samples-per-pixel (spp) at a lower resolution and then supersample to the high resolution. Based on the observation that the rendered pixels at a low resolution are typically highly aliased, we present a novel method for neural supersampling based on ray tracing 1/4-spp samples at the high resolution. Our key insight is that the ray-traced samples at the target resolution are accurate and reliable, which makes the supersampling an interpolation problem. We present a mask-reinforced neural network to reconstruct and interpolate high-quality image sequences. First, a novel temporal accumulation network is introduced to compute the correlation between current and previous features to significantly improve their temporal stability. Then a reconstruct network based on a multi-scale U-Net with skip connections is adopted for reconstruction and generation of the desired high-resolution image. Experimental results and comparisons have shown that our proposed method can generate higher quality results of supersampling, without increasing the total number of ray-tracing samples, over current state-of-the-art methods.
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
可区分渲染的最新进展已实现了从多视图图像中对3D场景的高质量重建。大多数方法都依赖于简单渲染算法:预滤波的直接照明或学习的辐照度表示。我们表明,更现实的阴影模型,结合了射线追踪和蒙特卡洛整合,大大改善了形状,材料和照明的分解。不幸的是,即使在大型样本计数下,蒙特卡洛集成也能提供巨大的噪音,这使得基于梯度的逆渲染非常具有挑战性。为了解决这个问题,我们将多重重要性采样和降解纳入新的逆渲染管道中。这显着改善了收敛性,并在低样本计数下实现了基于梯度的优化。我们提出了一种有效的方法,可以共同重建几何形状(显式三角形网格),材料和照明,与以前的工作相比,它显着改善了材料和光分离。我们认为,Denoising可以成为高质量逆渲染管道的组成部分。
translated by 谷歌翻译
本文旨在减少透明辐射场的渲染时间。一些最近的作品用图像编码器配备了神经辐射字段,能够跨越场景概括,这避免了每场景优化。但是,它们的渲染过程通常很慢。主要因素是,在推断辐射场时,它们在空间中的大量点。在本文中,我们介绍了一个混合场景表示,它结合了最佳的隐式辐射场和显式深度映射,以便有效渲染。具体地,我们首先构建级联成本量,以有效地预测场景的粗糙几何形状。粗糙几何允许我们在场景表面附近的几个点来样,并显着提高渲染速度。该过程是完全可疑的,使我们能够仅从RGB图像共同学习深度预测和辐射现场网络。实验表明,该方法在DTU,真正的前瞻性和NERF合成数据集上展示了最先进的性能,而不是比以前的最可推广的辐射现场方法快至少50倍。我们还展示了我们的方法实时综合动态人类执行者的自由观点视频。代码将在https://zju3dv.github.io/enerf/处提供。
translated by 谷歌翻译
虚拟现实(VR)耳机提供了一种身临其境的立体视觉体验,但以阻止用户直接观察其物理环境的代价。传递技术旨在通过利用向外的摄像头来重建否则没有耳机的用户可以看到的图像来解决此限制。这本质上是一个实时视图综合挑战,因为传递摄像机不能与眼睛进行物理共同。现有的通行技术会遭受分散重建工件的注意力,这主要是由于缺乏准确的深度信息(尤其是对于近场和分离的物体),并且表现出有限的图像质量(例如,低分辨率和单色)。在本文中,我们提出了第一种学习的传递方法,并使用包含立体声对RGB摄像机的自定义VR耳机评估其性能。通过模拟和实验,我们证明了我们所学的传递方法与最先进的方法相比提供了卓越的图像质量,同时满足了实时的,透视透视的立体视图综合的严格VR要求,从而在广泛的视野上综合用于桌面连接的耳机。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
可以通过定期预测未来的框架以增强虚拟现实应用程序中的用户体验,从而解决了低计算设备上图形渲染高帧速率视频的挑战。这是通过时间视图合成(TVS)的问题来研究的,该问题的目标是预测给定上一个帧的视频的下一个帧以及上一个和下一个帧的头部姿势。在这项工作中,我们考虑了用户和对象正在移动的动态场景的电视。我们设计了一个将运动解散到用户和对象运动中的框架,以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去框架的3D对象运动,然后推断它来预测对象的运动。我们使用多平面图像(MPI)作为场景的3D表示,并将对象运动作为MPI表示中相应点之间的3D位移建模。为了在估计运动时处理MPI中的稀疏性,我们将部分卷积和掩盖的相关层纳入了相应的点。然后将预测的对象运动与给定的用户或相机运动集成在一起,以生成下一帧。使用不合格的填充模块,我们合成由于相机和对象运动而发现的区域。我们为动态场景的电视开发了一个新的合成数据集,该数据集由800个以全高清分辨率组成的视频组成。我们通过数据集和MPI Sintel数据集上的实验表明我们的模型优于文献中的所有竞争方法。
translated by 谷歌翻译
Many video enhancement algorithms rely on optical flow to register frames in a video sequence. Precise flow estimation is however intractable; and optical flow itself is often a sub-optimal representation for particular video processing tasks. In this paper, we propose task-oriented flow (TOFlow), a motion representation learned in a selfsupervised, task-specific manner. We design a neural network with a trainable motion estimation component and a video processing component, and train them jointly to learn the task-oriented flow. For evaluation, we build Vimeo-90K, a large-scale, high-quality video dataset for low-level video processing. TOFlow outperforms traditional optical flow on standard benchmarks as well as our Vimeo-90K dataset in three video processing tasks: frame interpolation, video denoising/deblocking, and video super-resolution. IntroductionMotion estimation is a key component in video processing tasks such as temporal frame interpolation, video denoising,
translated by 谷歌翻译
视频流连续交付,以节省存储和设备内存的成本。用户设备上通常采用实时denoising算法,以消除视频流的拍摄和传输过程中所涉及的噪声。但是,基于滑动窗口的方法为单个输出和缺乏计算效率的多个输入帧提供了多个输入帧。最近的多输出推荐工作可以通过平行或经常性的框架传播双向时间功能,这要么在剪辑的时间边缘上的性能下降,要么无法在线推断。在本文中,我们提出了一个双向流视频Denoisising(BSVD)框架,以实现具有过去和将来的暂时接收领域的流式传输视频的高保真实时DENOSISing。在线推理的双向时间融合被认为不适用于Movinet。但是,我们引入了一个新型的双向缓冲块作为我们BSVD的核心模块,这使我们在管道风格的推理过程中成为可能。此外,我们的方法简洁明了,可以在非盲和盲视频降解中使用。我们将模型与各种最先进的视频denoising模型在定性和定量上在合成和真实噪声上进行了比较。我们的方法在恢复保真度和运行时优于先前的方法。我们的源代码可在https://github.com/chenyangqiqi/bsvd上公开获得。
translated by 谷歌翻译
高动态范围(HDR)视频提供比标准低动态范围(LDR)视频更具视觉上的体验。尽管HDR成像具有重要进展,但仍有一个具有挑战性的任务,可以使用传统的现成摄像头捕获高质量的HDR视频。现有方法完全依赖于在相邻的LDR序列之间使用致密光流来重建HDR帧。然而,当用嘈杂的框架应用于交替的曝光时,它们会导致颜色和暴露的曝光不一致。在本文中,我们提出了一种从LDR序列与交替曝光的LDR序列的HDR视频重建的端到端GAN框架。我们首先从Noisy LDR视频中提取清洁LDR帧,并具有在自我监督设置中培训的去噪网络的交替曝光。然后,我们将相邻的交流帧与参考帧对齐,然后在完全的对手设置中重建高质量的HDR帧。为了进一步提高所产生帧的鲁棒性和质量,我们在培训过程中将时间稳定性的正则化术语与成本函数的内容和风格的损耗一起融合。实验结果表明,我们的框架实现了最先进的性能,并通过现有方法生成视频的优质HDR帧。
translated by 谷歌翻译
从一组多曝光图像中重建无精神的高动态范围(HDR)图像是一项具有挑战性的任务,尤其是在大型对象运动和闭塞的情况下,使用现有方法导致可见的伪影。为了解决这个问题,我们提出了一个深层网络,该网络试图学习以正规损失为指导的多尺度特征流。它首先提取多尺度功能,然后对非参考图像的特征对齐。对齐后,我们使用残留的通道注意块将不同图像的特征合并。广泛的定性和定量比较表明,我们的方法可实现最新的性能,并在颜色伪像和几何变形大大减少的情况下产生出色的结果。
translated by 谷歌翻译
高速,高分辨率的立体视频(H2-STEREO)视频使我们能够在细粒度上感知动态3D内容。然而,对商品摄像机的收购H2-STEREO视频仍然具有挑战性。现有的空间超分辨率或时间框架插值方法分别提供了缺乏时间或空间细节的折衷解决方案。为了减轻这个问题,我们提出了一个双摄像头系统,其中一台相机捕获具有丰富空间细节的高空间分辨率低框架速率(HSR-LFR)视频,而另一个摄像头则捕获了低空间分辨率的高架框架-Rate(LSR-HFR)视频带有光滑的时间细节。然后,我们设计了一个学习的信息融合网络(LIFNET),该网络利用跨摄像机冗余,以增强两种相机视图,从而有效地重建H2-STEREO视频。即使在大型差异场景中,我们也利用一个差异网络将时空信息传输到视图上,基于该视图,我们建议使用差异引导的LSR-HFR视图基于差异引导的流量扭曲,并针对HSR-LFR视图进行互补的扭曲。提出了特征域中的多尺度融合方法,以最大程度地减少HSR-LFR视图中闭塞引起的翘曲幽灵和孔。 LIFNET使用YouTube收集的高质量立体视频数据集以端到端的方式进行训练。广泛的实验表明,对于合成数据和摄像头捕获的真实数据,我们的模型均优于现有的最新方法。消融研究探讨了各个方面,包括时空分辨率,摄像头基线,摄像头解理,长/短曝光和应用程序,以充分了解其对潜在应用的能力。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
在大多数视频平台(如youtube和Tiktok)中,播放的视频通常经过多个视频编码,例如通过记录设备,视频编辑应用程序的软件编码,以及视频应用程序服务器的单个/多个视频转码。以前的压缩视频恢复工作通常假设压缩伪像是由一次性编码引起的。因此,衍生的解决方案通常在实践中通常不起作用。在本文中,我们提出了一种新的方法,时间空间辅助网络(TSAN),用于转码视频恢复。我们的方法考虑了视频编码和转码之间的独特特征,我们将初始浅编码视频视为中间标签,以帮助网络进行自我监督的注意培训。此外,我们采用相邻的多帧信息,并提出用于转码视频恢复的时间可变形对准和金字塔空间融合。实验结果表明,该方法的性能优于以前的技术。代码可在https://github.com/iceCherylxuli/tsan获得。
translated by 谷歌翻译
我们提出了一种可区分的渲染算法,以进行有效的新型视图合成。通过偏离基于音量的表示,支持学习点表示,我们在训练和推理方面的内存和运行时范围内改进了现有方法的数量级。该方法从均匀采样的随机点云开始,并使用基于可区分的SPLAT渲染器来发展模型以匹配一组输入图像,从而学习了每点位置和观看依赖性外观。在训练和推理中,我们的方法比NERF快300倍,质量只有边缘牺牲,而在静态场景中使用少于10 〜MB的记忆。对于动态场景,我们的方法比Stnerf训练两个数量级,并以接近互动速率渲染,同时即使在不施加任何时间固定的正则化合物的情况下保持较高的图像质量和时间连贯性。
translated by 谷歌翻译
我们提出了HRF-NET,这是一种基于整体辐射场的新型视图合成方法,该方法使用一组稀疏输入来呈现新视图。最近的概括视图合成方法还利用了光辉场,但渲染速度不是实时的。现有的方法可以有效地训练和呈现新颖的观点,但它们无法概括地看不到场景。我们的方法解决了用于概括视图合成的实时渲染问题,并由两个主要阶段组成:整体辐射场预测指标和基于卷积的神经渲染器。该架构不仅基于隐式神经场的一致场景几何形状,而且还可以使用单个GPU有效地呈现新视图。我们首先在DTU数据集的多个3D场景上训练HRF-NET,并且网络只能仅使用光度损耗就看不见的真实和合成数据产生合理的新视图。此外,我们的方法可以利用单个场景的密集参考图像集来产生准确的新颖视图,而无需依赖其他明确表示,并且仍然保持了预训练模型的高速渲染。实验结果表明,HRF-NET优于各种合成和真实数据集的最先进的神经渲染方法。
translated by 谷歌翻译
由于大气湍流的扭曲而恢复图像是一个长期存在的问题,这是由于变形的空间变化,图像形成过程的非线性以及训练和测试数据的稀缺性。现有方法通常在失真模型上具有强大的统计假设,在许多情况下,由于没有概括,因此在现实世界中的性能有限。为了克服挑战,本文提出了一种端到端物理驱动的方法,该方法有效,可以推广到现实世界的湍流。在数据合成方面,我们通过通过宽sense式的平稳性近似随机场来显着增加SOTA湍流模拟器可以处理的图像分辨率。新的数据合成过程使大规模的多级湍流和训练的地面真相对产生。在网络设计方面,我们提出了湍流缓解变压器(TMT),这是一个两级U-NET形状的多帧恢复网络,该网络具有Noval有效的自发机制,称为暂时通道关节关注(TCJA)。我们还引入了一种新的培训方案,该方案由新的模拟器启用,并设计新的变压器单元以减少内存消耗。在静态场景和动态场景上的实验结果是有希望的,包括各种真实的湍流场景。
translated by 谷歌翻译
由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限,在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法(据我们所知),以重建高分辨率,高动态范围的颜色图像,这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法,用于求解相应的逆问题和学习的图像表示,以进行健壮的比对,并以前的自然图像。所提出的算法很快,与基于最新的学习图像恢复方法相比,内存需求较低,并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能,具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片,以及对低光条件,噪音,摄像机摇动和中等物体运动的高度鲁棒性。
translated by 谷歌翻译
我们人类正在进入虚拟时代,确实想将动物带到虚拟世界中。然而,计算机生成的(CGI)毛茸茸的动物受到乏味的离线渲染的限制,更不用说交互式运动控制了。在本文中,我们提出了Artemis,这是一种新型的神经建模和渲染管道,用于生成具有外观和运动合成的清晰神经宠物。我们的Artemis可以实现互动运动控制,实时动画和毛茸茸的动物的照片真实渲染。我们的Artemis的核心是神经生成的(NGI)动物引擎,该动物发动机采用了有效的基于OCTREE的动物动画和毛皮渲染的代表。然后,该动画等同于基于显式骨骼翘曲的体素级变形。我们进一步使用快速的OCTREE索引和有效的体积渲染方案来生成外观和密度特征地图。最后,我们提出了一个新颖的阴影网络,以在外观和密度特征图中生成外观和不透明度的高保真细节。对于Artemis中的运动控制模块,我们将最新动物运动捕获方法与最近的神经特征控制方案相结合。我们引入了一种有效的优化方案,以重建由多视图RGB和Vicon相机阵列捕获的真实动物的骨骼运动。我们将所有捕获的运动馈送到神经角色控制方案中,以生成具有运动样式的抽象控制信号。我们将Artemis进一步整合到支持VR耳机的现有引擎中,提供了前所未有的沉浸式体验,用户可以与各种具有生动动作和光真实外观的虚拟动物进行紧密互动。我们可以通过https://haiminluo.github.io/publication/artemis/提供我们的Artemis模型和动态毛茸茸的动物数据集。
translated by 谷歌翻译
Neural Radiance Fields (NeRF) have demonstrated superior novel view synthesis performance but are slow at rendering. To speed up the volume rendering process, many acceleration methods have been proposed at the cost of large memory consumption. To push the frontier of the efficiency-memory trade-off, we explore a new perspective to accelerate NeRF rendering, leveraging a key fact that the viewpoint change is usually smooth and continuous in interactive viewpoint control. This allows us to leverage the information of preceding viewpoints to reduce the number of rendered pixels as well as the number of sampled points along the ray of the remaining pixels. In our pipeline, a low-resolution feature map is rendered first by volume rendering, then a lightweight 2D neural renderer is applied to generate the output image at target resolution leveraging the features of preceding and current frames. We show that the proposed method can achieve competitive rendering quality while reducing the rendering time with little memory overhead, enabling 30FPS at 1080P image resolution with a low memory footprint.
translated by 谷歌翻译