光场的传统表示形式可以分为两种类型:显式表示和隐式表示。与将光字段表示为基于子孔图像(SAI)的阵列或微图像(MIS)的透镜图像的明确表示不同,隐式表示将光场视为神经网络,与离散的显式表示相反,这是固有的连续表示。但是,目前,光场的几乎所有隐式表示都利用SAI来训练MLP,以学习从4D空间角坐标到像素颜色的像素映射,这既不紧凑,也不是较低的复杂性。取而代之的是,在本文中,我们提出了Minl,这是一种新型的MI-Wise隐式神经表示,用于训练MLP + CNN,以学习从2D MI坐标到MI颜色的映射。考虑到微图像的坐标,MINL输出相应的微图像的RGB值。 MINL中编码的光场只是训练一个神经网络以回归微图像,而解码过程是一个简单的前馈操作。与普通像素的隐式表示相比,MINL更加紧凑,更高效,具有更快的解码速度(\ textbf {$ \ times $ 80 $ \ sim $ 180}加速)以及更好的视觉质量(\ textbf {1 $ \ \ \ \ \ \ \ \ \ \ \ \ \ \ SIM $ 4DB} PSNR平均改进)。
translated by 谷歌翻译
我们研究如何代表具有隐式神经表示(INRS)的视频。经典INRS方法通常利用MLP将输入坐标映射到输出像素。尽管最近的一些作品试图直接使用CNN重建整个图像。但是,我们认为,以上像素和图像策略都不利于视频数据。取而代之的是,我们提出了一个贴片解决方案PS-NERV,该解决方案将视频表示为贴片的函数和相应的补丁坐标。它自然继承了图像方法的优势,并以快速解码速度实现出色的重建性能。整个方法包括常规模块,例如位置嵌入,MLP和CNN,同时还引入了ADAIN以增强中间特征。这些简单而基本的更改可以帮助网络轻松拟合高频细节。广泛的实验证明了其在几个与视频有关的任务中的有效性,例如视频压缩和视频介绍。
translated by 谷歌翻译
在本文中,我们提出了一种基于量化的蒸馏式低级神经辐射场(QDLR-NERF)表示的新型光场压缩方法。当现有的压缩方法编码光场子孔径图像集时,我们提出的方法以神经辐射场(NERF)的形式学习了隐式场景表示,这也可以使视图合成。为了降低其大小,该模型首先是在低级(LR)约束下使用张量列(TT)分解以交替的乘数(ADMM)优化框架进行的。为了进一步降低模型尺寸,需要量化张量列车分解的组件。但是,通过同时考虑低等级约束并考虑到速率受限的权重量化来实现NERF模型的优化是具有挑战性的。为了解决这个困难,我们引入了一个网络蒸馏操作,该操作将低级近似值和网络训练中的权重量化分开。根据LR-NERF的TT分解,将初始LR约束NERF(LR-NERF)的信息提炼为较小尺寸(DLR-NERF)的模型。然后,学会了优化的全局代码簿来量化所有TT组件,从而产生最终的QDLRNERF。实验结果表明,与最先进的方法相比,我们所提出的方法具有更好的压缩效率,并且还具有允许允许具有高质量的任何光场视图的合成。
translated by 谷歌翻译
隐式神经表示(INR)被出现为代表信号的强大范例,例如图像,视频,3D形状等。尽管它已经示出了能够表示精细细节的能力,但其效率尚未得到广泛研究数据表示。在INR中,数据以神经网络的参数的形式存储,并且通用优化算法通常不会利用信号中的空间和时间冗余。在本文中,我们建议通过明确地删除数据冗余来表示和压缩视频的新型INR方法。我们提出了跨视频帧和残差的主体剩余流场(NRFF)而不是存储原始RGB颜色,而不是存储原始RGB颜色。维护通常更光滑和更复杂的运动信息,比原始信号更少,需要更少的参数。此外,重用冗余像素值进一步提高了网络参数效率。实验结果表明,所提出的方法优于基线方法的显着边际。代码可用于https://github.com/daniel03c1/eff_video_repruseentation。
translated by 谷歌翻译
Neural fields, also known as coordinate-based or implicit neural representations, have shown a remarkable capability of representing, generating, and manipulating various forms of signals. For video representations, however, mapping pixel-wise coordinates to RGB colors has shown relatively low compression performance and slow convergence and inference speed. Frame-wise video representation, which maps a temporal coordinate to its entire frame, has recently emerged as an alternative method to represent videos, improving compression rates and encoding speed. While promising, it has still failed to reach the performance of state-of-the-art video compression algorithms. In this work, we propose FFNeRV, a novel method for incorporating flow information into frame-wise representations to exploit the temporal redundancy across the frames in videos inspired by the standard video codecs. Furthermore, we introduce a fully convolutional architecture, enabled by one-dimensional temporal grids, improving the continuity of spatial features. Experimental results show that FFNeRV yields the best performance for video compression and frame interpolation among the methods using frame-wise representations or neural fields. To reduce the model size even further, we devise a more compact convolutional architecture using the group and pointwise convolutions. With model compression techniques, including quantization-aware training and entropy coding, FFNeRV outperforms widely-used standard video codecs (H.264 and HEVC) and performs on par with state-of-the-art video compression algorithms.
translated by 谷歌翻译
我们提出了一种压缩具有隐式神经表示的全分辨率视频序列的方法。每个帧表示为映射坐标位置到像素值的神经网络。我们使用单独的隐式网络来调制坐标输入,从而实现帧之间的有效运动补偿。与一个小的残余网络一起,这允许我们有效地相对于前一帧压缩p帧。通过使用学习的整数量化存储网络权重,我们进一步降低了比特率。我们呼叫隐式像素流(IPF)的方法,提供了几种超简化的既定神经视频编解码器:它不需要接收器可以访问预先磨普的神经网络,不使用昂贵的内插基翘曲操作,而不是需要单独的培训数据集。我们展示了神经隐式压缩对图像和视频数据的可行性。
translated by 谷歌翻译
Approximating radiance fields with volumetric grids is one of promising directions for improving NeRF, represented by methods like Plenoxels and DVGO, which achieve super-fast training convergence and real-time rendering. However, these methods typically require a tremendous storage overhead, costing up to hundreds of megabytes of disk space and runtime memory for a single scene. We address this issue in this paper by introducing a simple yet effective framework, called vector quantized radiance fields (VQRF), for compressing these volume-grid-based radiance fields. We first present a robust and adaptive metric for estimating redundancy in grid models and performing voxel pruning by better exploring intermediate outputs of volumetric rendering. A trainable vector quantization is further proposed to improve the compactness of grid models. In combination with an efficient joint tuning strategy and post-processing, our method can achieve a compression ratio of 100$\times$ by reducing the overall model size to 1 MB with negligible loss on visual quality. Extensive experiments demonstrate that the proposed framework is capable of achieving unrivaled performance and well generalization across multiple methods with distinct volumetric structures, facilitating the wide use of volumetric radiance fields methods in real-world applications. Code Available at \url{https://github.com/AlgoHunt/VQRF}
translated by 谷歌翻译
高光谱图像(HSI)没有额外辅助图像的超分辨率仍然是由于其高维光谱图案的恒定挑战,其中学习有效的空间和光谱表示是基本问题。最近,隐式的神经表示(INR)正在进行进步,作为新颖且有效的代表,特别是在重建任务中。因此,在这项工作中,我们提出了一种基于INR的新颖的HSI重建模型,其通过将空间坐标映射到其对应的光谱辐射值值的连续函数来表示HSI。特别地,作为INR的特定实现,参数模型的参数是通过使用卷积网络在特征提取的超通知来预测的。它使连续功能以内容感知方式将空间坐标映射到像素值。此外,周期性空间编码与重建过程深度集成,这使得我们的模型能够恢复更高的频率细节。为了验证我们模型的功效,我们在三个HSI数据集(洞穴,NUS和NTIRE2018)上进行实验。实验结果表明,与最先进的方法相比,该建议的模型可以实现竞争重建性能。此外,我们提供了对我们模型各个组件的效果的消融研究。我们希望本文可以服务器作为未来研究的效率参考。
translated by 谷歌翻译
上下文自适应熵模型的应用显着提高了速率 - 渗透率(R-D)的性能,在该表现中,超级培训和自回归模型被共同利用来有效捕获潜在表示的空间冗余。但是,潜在表示仍然包含一些空间相关性。此外,这些基于上下文自适应熵模型的方法在解码过程中无法通过并行计算设备,例如FPGA或GPU。为了减轻这些局限性,我们提出了一个学识渊博的多分辨率图像压缩框架,该框架利用了最近开发的八度卷积,以将潜在表示形式分配到高分辨率(HR)和低分辨率(LR)部分,类似于小波变换,这进一步改善了R-D性能。为了加快解码的速度,我们的方案不使用上下文自适应熵模型。取而代之的是,我们利用一个额外的超层,包括超级编码器和超级解码器,以进一步删除潜在表示的空间冗余。此外,将跨分辨率参数估计(CRPE)引入提出的框架中,以增强信息流并进一步改善速率延伸性能。提出了对总损耗函数提出的其他信息损失,以调整LR部分对最终位流的贡献。实验结果表明,与最先进的学术图像压缩方法相比,我们的方法分别将解码时间减少了约73.35%和93.44%,R-D性能仍然优于H.266/VVC(4:4::4:: 2:0)以及对PSNR和MS-SSIM指标的一些基于学习的方法。
translated by 谷歌翻译
由于智能手机摄像机中配备了相对较小的传感器,通常在当今捕获的图像中通常存在高噪声,在这种情况下,噪声带来了有损图像压缩算法的额外挑战。如果没有能力分辨图像细节和噪声之间的差异,一般图像压缩方法分配了其他位,以在压缩过程中明确存储不需要的图像噪声,并在减压期间恢复不愉快的嘈杂图像。基于观察结果,我们优化图像压缩算法是噪声吸引的,因为关节降解和压缩以解决位不当分配问题。关键是要通过消除压缩过程中的不希望的噪声来将原始噪声图像转换为无噪声的位,以后将其作为干净的图像解压缩。具体而言,我们提出了一种新型的两分支,重量分担的架构,并具有插件功能Denoisers,以允许在几乎没有计算成本的情况下简单有效地实现目标。实验结果表明,我们的方法对合成数据集和现实数据集的现有基线方法有了显着改进。我们的源代码可从https://github.com/felixcheng97/denoisecompression获得。
translated by 谷歌翻译
最近,基于深度学习的图像压缩已取得了显着的进步,并且在主观度量和更具挑战性的客观指标中,与最新的传统方法H.266/vvc相比,取得了更好的评分(R-D)性能。但是,一个主要问题是,许多领先的学识渊博的方案无法保持绩效和复杂性之间的良好权衡。在本文中,我们提出了一个效率和有效的图像编码框架,该框架的复杂性比最高的状态具有相似的R-D性能。首先,我们开发了改进的多尺度残差块(MSRB),该块可以扩展容纳长石,并且更容易获得全球信息。它可以进一步捕获和减少潜在表示的空间相关性。其次,引入了更高级的重要性图网络,以自适应地分配位置到图像的不同区域。第三,我们应用2D定量后flter(PQF)来减少视频编码中样本自适应偏移量(SAO)flter的动机。此外,我们认为编码器和解码器的复杂性对图像压缩性能有不同的影响。基于这一观察结果,我们设计了一个不对称范式,其中编码器采用三个阶段的MSRB来提高学习能力,而解码器只需要一个srb的一个阶段就可以产生令人满意的重建,从而在不牺牲性能的情况下降低了解码的复杂性。实验结果表明,与最先进的方法相比,所提出方法的编码和解码时间速度约为17倍,而R-D性能仅在Kodak和Tecnick数据集中降低了1%,而R-D性能仅少于1%。它仍然比H.266/VVC(4:4:4)和其他基于学习的方法更好。我们的源代码可在https://github.com/fengyurenpingsheng上公开获得。
translated by 谷歌翻译
最近隐含的神经表示(INRS)作为各种数据类型的新颖且有效的表现。到目前为止,事先工作主要集中在优化其重建性能。这项工作从新颖的角度来调查INRS,即作为图像压缩的工具。为此,我们提出了基于INR的第一综合压缩管线,包括量化,量化感知再培训和熵编码。使用INRS进行编码,即对数据示例的过度装备,通常是较慢的秩序。为缓解此缺点,我们基于MAML利用META学习初始化,以便在较少的渐变更新中达到编码,这也通常提高INR的速率失真性能。我们发现,我们对INR的源压缩方法非常优于类似的事先工作,具有专门针对图像专门设计的常见压缩算法,并将基于速率 - 失真自动分析器的差距缩小到最先进的学习方法。此外,我们提供了对我们希望促进这种新颖方法对图像压缩的未来研究的重要性的广泛消融研究。
translated by 谷歌翻译
标量和矢量场的神经近似(例如签名距离函数和辐射场)已成为准确的高质量表示。最先进的结果是通过从可训练的特征网格中进行查找的调节来获得的,这些近似是按照学习任务的一部分,并允许较小,更有效的神经网络。不幸的是,与独立的神经网络模型相比,这些特征网格通常以明显增加的记忆消耗成本。我们提出了一种词典方法,用于压缩此类特征网格,将其内存消耗降低至100倍,并允许多分辨率表示,这对于核心外流很有用。我们将词典优化作为矢量定量的自动码头问题提出,使我们能够在没有直接监督以及具有动态拓扑和结构的空间中学习端到端离散的神经表示。我们的源代码将在https://github.com/nv-tlabs/vqad上找到。
translated by 谷歌翻译
Neural radiance fields (NeRF) have demonstrated the potential of coordinate-based neural representation (neural fields or implicit neural representation) in neural rendering. However, using a multi-layer perceptron (MLP) to represent a 3D scene or object requires enormous computational resources and time. There have been recent studies on how to reduce these computational inefficiencies by using additional data structures, such as grids or trees. Despite the promising performance, the explicit data structure necessitates a substantial amount of memory. In this work, we present a method to reduce the size without compromising the advantages of having additional data structures. In detail, we propose using the wavelet transform on grid-based neural fields. Grid-based neural fields are for fast convergence, and the wavelet transform, whose efficiency has been demonstrated in high-performance standard codecs, is to improve the parameter efficiency of grids. Furthermore, in order to achieve a higher sparsity of grid coefficients while maintaining reconstruction quality, we present a novel trainable masking approach. Experimental results demonstrate that non-spatial grid coefficients, such as wavelet coefficients, are capable of attaining a higher level of sparsity than spatial grid coefficients, resulting in a more compact representation. With our proposed mask and compression pipeline, we achieved state-of-the-art performance within a memory budget of 2 MB. Our code is available at https://github.com/daniel03c1/masked_wavelet_nerf.
translated by 谷歌翻译
压缩是许多实际应用的重要任务。尽管以前的工作提出了许多用于有效的光场压缩的方法,但视图选择对此任务的影响并未得到很好的利用。在这项工作中,我们研究了光场压缩的不同子采样和重建策略。我们在光场压缩之前和之后应用各种子采样和相应的重建策略。然后,评估完全重建的光场,以评估不同方法的性能。我们的评估是对现实世界和合成数据集进行的,并且从我们的实验结果中设计出最佳策略。我们希望这项研究将对未来的研究(例如光场流,存储和传输)有益。
translated by 谷歌翻译
如今,由于屏幕共享,远程合作和在线教育的广泛应用,屏幕内容存在爆炸性增长。为了匹配有限终端带宽,可以缩小高分辨率(HR)屏幕内容并压缩。在接收器侧,低分辨率(LR)屏幕内容图像(SCI)的超分辨率(SR)由HR显示器或用户缩小以供详细观察。然而,由于图像特性非常不同的图像特性以及在任意尺度下浏览的SCI浏览要求,图像SR方法主要针对自然图像设计不概括SCI。为此,我们为SCISR提出了一种新颖的隐式变压器超分辨率网络(ITSRN)。对于任意比率的高质量连续SR,通过所提出的隐式变压器从密钥坐标处的图像特征推断出查询坐标处的像素值,并且提出了隐式位置编码方案来聚合与查询相似的相邻像素值。使用LR和HR SCI对构建基准SCI1K和SCI1K压缩数据集。广泛的实验表明,提出的ITSRN显着优于压缩和未压缩的SCI的几种竞争连续和离散SR方法。
translated by 谷歌翻译
包含丰富信息的元素图像和视频需要大量的数据存储和高传输成本。虽然对元素图像编码进行了很多研究,但对元素视频编码的研究非常有限。我们通过查看射线空间域中的问题而不是在常规像素域中的问题来研究元素视频编码的运动补偿。在这里,我们在射线空间运动的两个子轴上,即整数射线空间运动和分数射线空间运动,为Lenslet视频开发了一种新颖的运动补偿方案。拟议的新方案设计了光场运动补偿预测,使其可以轻松地集成到众所周知的视频编码技术中,例如HEVC。与现有方法相比,实验结果显示出显着的压缩效率,平均增益为19.63%,峰值增长率为29.1%。
translated by 谷歌翻译
关于神经辐射场(NERF)的最新研究爆炸表明,具有神经网络的复杂场面具有令人鼓舞的潜力。 NERF的一个主要缺点是它的推理时间:渲染单像素需要数百次查询NERF网络。为了解决它,现有的努力主要试图减少所需的采样点的数量。但是,迭代采样的问题仍然存在。另一方面,神经光场(NELF)在新型视图合成中对NERF提出了更直接的表示 - 像素的渲染相当于一个单一的正向通行,而无需射线建设。在这项工作中,我们提出了一个深层残留的MLP网络(88层),以有效地学习光场。我们展示了成功学习这种深度NELF网络的关键,就是拥有足够的数据,我们通过数据蒸馏从预训练的NERF模型中转移知识。在合成和现实世界场景上进行的广泛实验表明,我们方法比其他对应算法的优点。在合成场景中,我们实现了26-35倍的拖鞋(每个摄像头射线)和28-31倍的运行时加速,同时提供了比NERF的呈现质量(1.4-2.8 dB的平均PSNR改善),而无需任何定制的并行性要求。
translated by 谷歌翻译
Implicit Neural Representations (INR) have recently shown to be powerful tool for high-quality video compression. However, existing works are limiting as they do not explicitly exploit the temporal redundancy in videos, leading to a long encoding time. Additionally, these methods have fixed architectures which do not scale to longer videos or higher resolutions. To address these issues, we propose NIRVANA, which treats videos as groups of frames and fits separate networks to each group performing patch-wise prediction. This design shares computation within each group, in the spatial and temporal dimensions, resulting in reduced encoding time of the video. The video representation is modeled autoregressively, with networks fit on a current group initialized using weights from the previous group's model. To further enhance efficiency, we perform quantization of the network parameters during training, requiring no post-hoc pruning or quantization. When compared with previous works on the benchmark UVG dataset, NIRVANA improves encoding quality from 37.36 to 37.70 (in terms of PSNR) and the encoding speed by 12X, while maintaining the same compression rate. In contrast to prior video INR works which struggle with larger resolution and longer videos, we show that our algorithm is highly flexible and scales naturally due to its patch-wise and autoregressive designs. Moreover, our method achieves variable bitrate compression by adapting to videos with varying inter-frame motion. NIRVANA achieves 6X decoding speed and scales well with more GPUs, making it practical for various deployment scenarios.
translated by 谷歌翻译
Image compression is a fundamental research field and many well-known compression standards have been developed for many decades. Recently, learned compression methods exhibit a fast development trend with promising results. However, there is still a performance gap between learned compression algorithms and reigning compression standards, especially in terms of widely used PSNR metric. In this paper, we explore the remaining redundancy of recent learned compression algorithms. We have found accurate entropy models for rate estimation largely affect the optimization of network parameters and thus affect the rate-distortion performance. Therefore, in this paper, we propose to use discretized Gaussian Mixture Likelihoods to parameterize the distributions of latent codes, which can achieve a more accurate and flexible entropy model. Besides, we take advantage of recent attention modules and incorporate them into network architecture to enhance the performance. Experimental results demonstrate our proposed method achieves a state-of-the-art performance compared to existing learned compression methods on both Kodak and high-resolution datasets. To our knowledge our approach is the first work to achieve comparable performance with latest compression standard Versatile Video Coding (VVC) regarding PSNR. More importantly, our approach generates more visually pleasant results when optimized by MS-SSIM. The project page is at https://github.com/ZhengxueCheng/ Learned-Image-Compression-with-GMM-and-Attention.
translated by 谷歌翻译