智能论文笔记

Efficient Motion Modelling with Variable-sized blocks from Hierarchical Cuboidal Partitioning

Priyabrata Karmakar , Manzur Murshed , Manoranjan Paul , David Taubman

分类：计算机视觉

2022-08-28

具有基于块体系结构的运动建模已被广泛用于视频编码中，其中框架分为固定尺寸的块，这些块是独立补偿的。这通常会导致编码效率低下，因为固定尺寸的块几乎与对象边界不符。尽管已经引入了层次结构分区来解决这一问题，但运动矢量的增加限制了收益。最近，与立方体分配的图像的近似分割已经普及。可变大小的矩形片段（立方体）不仅容易适应基于块的图像/视频编码技术，而且还可以很好地与对象边界保持一致。这是因为立方分区基于同质性约束，从而最大程度地减少了平方误差的总和（SSE）。在本文中，我们研究了针对可扩展视频编码中使用的固定尺寸块的运动模型的潜力。具体而言，我们使用图片组（GOP）中的锚框的立方分区信息构建了运动补偿帧。然后，预测的当前帧已用作基础层，同时使用可扩展的HEVC编码器编码当前帧作为增强层。实验结果确认4K视频序列上节省了6.71％-10.90％的比特率。

translated by 谷歌翻译

A new way of video compression via forward-referencing using deep learning

S. M. A. K. Rajin , M. Murshed , M. Paul , S. W. Teng , J. Ma

分类：计算机视觉

2022-08-13

为了利用同一场景的视频框架中的高时间相关性，使用基于块的运动估计和补偿技术从已经编码的参考帧中预测了当前帧。尽管这种方法可以有效利用移动对象的翻译运动，但它容易受到其他类型的仿射运动和对象遮挡/除含量的影响。最近，深度学习已被用来模拟人类姿势的高级结构，以从短视频中的特定动作中进行，然后通过使用生成的对抗网络（GAN）来预测姿势，从而在未来的时间内生成虚拟框架。因此，建模人姿势的高级结构能够通过预测人类的行为并确定其轨迹来利用语义相关性。视频监视应用程序将受益，因为可以通过估算人类姿势轨迹并通过语义相关性产生未来的框架来压缩存储的大监视数据。本文通过从已经编码的框架中对人姿势进行建模并在当前时间使用生成的框架来探讨一种新的视频编码方式。预计所提出的方法可以通过预测包含具有较低残差的移动对象的块来克服传统向后引用框架的局限性。实验结果表明，提出的方法平均可以实现高达2.83 dB PSNR增益和25.93 \％比特率的节省，用于高运动视频序列

translated by 谷歌翻译

Self-Supervised Learning of Perceptually Optimized Block Motion Estimates for Video Compression

Somdyuti Paul , Andrey Norkin , Alan C. Bovik

分类：计算机视觉

2021-10-05

Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.

translated by 谷歌翻译

Scalable Video Coding for Humans and Machines

Hyomin Choi , Ivan V. Bajić

分类：计算机视觉

2022-08-04

视频内容不仅是人类观看的，而且越来越多地被机器观看。例如，机器学习模型分析监视视频，以进行安全性和流量监控，通过YouTube视频搜索不适当的内容，等等。在本文中，我们提出了一个可扩展的视频编码框架，该框架通过其基础层bitstream和人类视觉通过其增强层的bitstream来支持机器视觉（特别是对象检测）。所提出的框架包括基于常规神经网络（DNN）的视频编码的组件。结果表明，与最先进的视频编解码器相比，在对象检测中，提议的框架可节省13-19％的位，同时在人类视觉任务上保持竞争力。

translated by 谷歌翻译

Decoder-side Cross Resolution Synthesis for Video Compression Enhancement

Ming Lu , Tong Chen , Zhenyu Dai , Dong Wang , Dandan Ding , Zhan Ma

分类：计算机视觉

2020-12-01

本文提出了解码器 - 侧交叉分辨率合成（CRS）模块，以追求更好的压缩效率超出最新的通用视频编码（VVC），在那里我们在原始高分辨率（HR）处编码帧内帧，以较低的分辨率压缩帧帧间（ LR），然后通过在先前的HR帧内和相邻的LR帧间帧内解解码LR帧间帧间帧帧。对于LR帧间帧，设计运动对准和聚合网络（MAN）以产生时间汇总的运动表示，以最佳保证时间平滑度;使用另一个纹理补偿网络（TCN）来生成从解码的HR帧内帧的纹理表示，以便更好地增强空间细节;最后，相似性驱动的融合引擎将运动和纹理表示合成为Upscale LR帧帧，以便去除压缩和分辨率重新采样噪声。我们使用所提出的CRS增强VVC，显示平均为8.76％和11.93％BJ {\ O} NTEGAARD Delta率（BD速率）分别在随机接入（RA）和低延延迟P（LDP）设置中的最新VVC锚点。此外，对基于最先进的超分辨率（SR）的VVC增强方法和消融研究的实验比较，进一步报告了所提出的算法的卓越效率和泛化。所有材料都将在HTTPS://njuvision.github.io /crs上公开进行可重复的研究。

translated by 谷歌翻译

End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional Video Compression

M. Akın Yılmaz , A. Murat Tekalp

分类：计算机视觉

2021-12-17

传统的视频压缩（VC）方法基于运动补偿变换编码，并且由于端到端优化问题的组合性质，运动估计，模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真（R-D）优化非线性变换，运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是，双向编码优于顺序压缩，因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器（LHBDC），其结合了分层运动补偿预测和端到端优化的益处。实验结果表明，我们达到了迄今为止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比，我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器（“非常流”预设）以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具，例如学习屏蔽，流场附带和时间流量矢量预测等新颖工具，展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到

translated by 谷歌翻译

Deep Video Coding with Dual-Path Generative Adversarial Network

Tiesong Zhao , Weize Feng , Hongji Zeng , Yuzhen Niu , Jiaying Liu

分类：计算机视觉

2021-11-29

将基于深学习视频编码已经吸引了大量的关注它的巨大潜力排挤视频序列的时空冗余。本文提出了一种高效的编解码器，即双路径生成对抗性的基于网络的视频编解码器（DGVC）。首先，我们提出了一个双通道的增强与生成对抗网络（DPEG）重建压缩视频的详细信息。所述DPEG由一个$ \阿尔法$自动编码器和卷积长短期记忆（ConvLSTM），它具有大的感受域和多帧的引用，和$ \测试$利于结构特征重构的-path - 残余关注块的路径，这有利于局部纹理特征的重建。两条路径融合，并通过生成对抗性的流程协同训练。其次，我们重用两个运动补偿和质量增强模块，这是与运动估计进一步结合DPEG网络，并在我们的DGVC框架熵编码模块。第三，我们采用深视频压缩和提高了联合训练，进一步提高率失真（RD）性能。与X265 LDP非常快的方式相比，我们的DGVC由39.39％/ 54.92％在相同的PSNR / MS-SSIM，其通过一个胜过国家的本领域深视频编解码器降低平均比特每像素（BPP）相当幅度。

translated by 谷歌翻译

DVC: An End-to-end Deep Video Compression Framework

Guo Lu , Wanli Ouyang , Dong Xu , Xiaoyun Zhang , Chunlei Cai , Zhiyong Gao

分类：

2018-11-30

Conventional video compression approaches use the predictive coding architecture and encode the corresponding motion information and residual information. In this paper, taking advantage of both classical architecture in the conventional video compression method and the powerful nonlinear representation ability of neural networks, we propose the first end-to-end video compression deep model that jointly optimizes all the components for video compression. Specifically, learning based optical flow estimation is utilized to obtain the motion information and reconstruct the current frames. Then we employ two auto-encoder style neural networks to compress the corresponding motion and residual information. All the modules are jointly learned through a single loss function, in which they collaborate with each other by considering the trade-off between reducing the number of compression bits and improving quality of the decoded video. Experimental results show that the proposed approach can outperform the widely used video coding standard H.264 in terms of PSNR and be even on par with the latest standard H.265 in terms of MS-SSIM. Code is released at https://github.com/GuoLusjtu/DVC. * Corresponding author (a) Original frame (Bpp/MS-SSIM) (b) H.264 (0.0540Bpp/0.945) (c) H.265 (0.082Bpp/0.960) (d) Ours ( 0.0529Bpp/ 0.961

translated by 谷歌翻译

Learned Video Compression via Heterogeneous Deformable Compensation Network

Huairui Wang , Zhenzhong Chen , Chang Wen Chen

分类：计算机视觉

2022-07-11

学习的视频压缩最近成为开发高级视频压缩技术的重要研究主题，其中运动补偿被认为是最具挑战性的问题之一。在本文中，我们通过异质变形补偿策略（HDCVC）提出了一个学识渊博的视频压缩框架，以解决由单尺度可变形的特征域中单尺可变形核引起的不稳定压缩性能的问题。更具体地说，所提出的算法提取物从两个相邻框架中提取的算法提取物特征来估算估计内容自适应的异质变形（Hetdeform）内核偏移量，而不是利用光流或单尺内核变形对齐。然后，我们将参考特征转换为HetDeform卷积以完成运动补偿。此外，我们设计了一个空间 - 邻化的分裂归一化（SNCDN），以实现更有效的数据高斯化结合了广义分裂的归一化。此外，我们提出了一个多框架增强的重建模块，用于利用上下文和时间信息以提高质量。实验结果表明，HDCVC比最近最新学习的视频压缩方法取得了优越的性能。

translated by 谷歌翻译

Coarse-to-fine Deep Video Coding with Hyperprior-guided Mode Prediction

Zhihao Hu , Guo Lu , Jinyang Guo , Shan Liu , Wei Jiang , Dong Xu

分类：计算机视觉

2022-06-15

先前的深视频压缩方法仅使用单一运动补偿策略，并且很少采用来自传统标准（例如H.264/h.265）的模式预测技术来进行运动和残留压缩。在这项工作中，我们首先提出了一个粗到精细的（C2F）深视频压缩框架，以进行更好的运动补偿，其中我们以粗到良好的方式进行了两次运动估计，压缩和补偿。我们的C2F框架可以实现更好的运动补偿结果，而不会显着增加位成本。观察高优势网络中的高优势信息（即平均值和方差值）包含不同斑块的判别统计信息，我们还提出了两种有效的超优先指导模式预测方法。具体而言，使用高优势信息作为输入，我们建议两个模式预测网络分别预测最佳块分辨率，以进行更好的运动编码，并决定是否从每个块中跳过剩余信息以进行更好的剩余编码，而无需引入额外的位置，同时带来可忽略的额外计算成本。全面的实验结果表明，配备了新的高位指导模式预测方法，我们提出的C2F视频压缩框架实现了HEVC，UVG和MCL-JCV数据集的最新性能。

translated by 谷歌翻译

Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression

Jiahao Li , Bin Li , Yan Lu

分类：计算机视觉

2022-07-13

对于神经视频编解码器，设计有效的熵模型至关重要但又具有挑战性，该模型可以准确预测量化潜在表示的概率分布。但是，大多数现有的视频编解码器直接使用图像编解码器的现成的熵模型来编码残差或运动，并且不会完全利用视频中的时空特性。为此，本文提出了一个强大的熵模型，该模型有效地捕获了空间和时间依赖性。特别是，我们介绍了潜在的先验，这些先验利用了潜在表示之间的相关性来挤压时间冗余。同时，提出了双重空间先验，以平行友好的方式降低空间冗余。此外，我们的熵模型也是通用的。除了估计概率分布外，我们的熵模型还在空间通道上生成量化步骤。这种内容自适应的量化机制不仅有助于我们的编解码器在单个模型中实现平滑的速率调整，而且还通过动态位分配来改善最终速率延伸性能。实验结果表明，与H.266（VTM）相比，使用最高的压缩率配置，我们的神经编解码器在提出的熵模型中，我们的神经编解码器可以在UVG数据集上节省18.2％的比特率。它在神经视频编解码器的开发中是一个新的里程碑。这些代码在https://github.com/microsoft/dcvc上。

translated by 谷歌翻译

Adaptation and Attention for Neural Video Coding

Nannan Zou , Honglei Zhang , Francesco Cricri , Ramin G. Youvalari , Hamed R. Tavakoli , Jani Lainema , Emre Aksu , Miska Hannuksela , Esa Rahtu

分类：计算机视觉 | 机器学习

2021-12-16

神经图像编码现在表示现有的图像压缩方法。但是，在视频域中仍有很多工作。在这项工作中，我们提出了一部结束了学习的视频编解码器，介绍了几个建筑Noveltize以及培训Noveltizes，围绕适应和关注的概念。我们的编解码器被组织为与帧间编解码器配对的帧内编解码器。作为一种建筑新颖，我们建议培训帧间编解码器模型以基于输入视频的分辨率来调整运动估计处理。第二个建筑新奇是一种新的神经块，它将基于分裂的神经网络和Densenets的概念结合了。最后，我们建议在推理时间内过度装备一组解码器侧乘法参数。通过消融研究和对现有技术的比较，我们在编码收益方面表现出我们所提出的技术的好处。我们将编解码器与VVC / H.266和RLVC进行比较，该rlvc分别代表最先进的传统和端到端学习的编解码器，并在2021年在2021年在2021年执行端到端学习方法竞争，e2e_t_ol。我们的编解码器显然优于E2E_T_OL，并在某些设置中对VVC和RLVC有利地进行比较。

translated by 谷歌翻译

Deep Contextual Video Compression

Jiahao Li , Bin Li , Yan Lu

分类：计算机视觉

2021-09-30

大多数现有的神经视频压缩方法采用预测编码框架，该预测编码框架首先生成预测帧，然后用当前帧编码其残差。然而，对于压缩比，预测编码只是子最优解，因为它使用简单的减法操作来消除跨越帧的冗余。在本文中，我们提出了一种深度上下文视频压缩框架，以使从预测编码转换到条件编码。特别是，我们尝试回答以下问题：如何在深度视频压缩框架下定义，使用和学习条件。要点击条件编码的可能性，我们将使用要素域上下文提出为条件。这使我们能够利用高维上下文来对编码器和解码器携带丰富的信息，这有助于重建高频内容以获得更高的视频质量。我们的框架也是可扩展的，其中条件可以灵活设计。实验表明，我们的方法可以显着优于先前的最先进（SOTA）深度视频压缩方法。与使用SifeSlow预设相比，我们可以为1080p标准测试视频达到26.0％的比特率保存。

translated by 谷歌翻译

Temporal Context Mining for Learned Video Compression

Xihua Sheng , Jiahao Li , Bin Li , Li Li , Dong Liu , Yan Lu

分类：计算机视觉 | 机器学习

2021-11-27

我们地址结束学习视频压缩，特别关注更好地学习和利用时间上下文。对于时间上下文挖掘，我们建议不仅存储先前重建的帧，还可以存储到广义解码图像缓冲器中的传播功能。从存储的传播功能中，我们建议学习多尺度的时间上下文，并将学习的时间上下文重新填充到压缩方案的模块中，包括上下文编码器 - 解码器，帧生成器和时间上下文编码器。我们的计划丢弃了并行化 - 不友好的自动回归熵模型，以追求更实用的解码时间。我们将我们的计划与X264和X265（分别代表H.264和H.265的工业软件）以及H.264，H.265和H.266（JM，HM和VTM的官方参考软件（JM，HM和VTM）进行比较，分别）。当周期为32次并定向为PSNR时，我们的方案优于H.265 - HM以14.4％的比特率储蓄;当取向MS-SSIM时，我们的方案优于21.1％比特率保存的H.266 - VTM。

translated by 谷歌翻译

B-CANF: Adaptive B-frame Coding with Conditional Augmented Normalizing Flows

Mu-Jung Chen , Yi-Hsin Chen , Peng-Yu Chen , Chih Hsuan Lin , Yung-Han Ho , Wen-Hsiao Peng

分类：计算机视觉

2022-09-05

这项工作介绍了称为B-CANF的B帧编码框架，该框架利用有条件的增强标准化流量来进行B框架编码。学到的B框架编码的探索较少，更具挑战性。B-CANF是由有条件的P框架编码的最新进展的动机，是将基于流的模型应用于条件运动和框架间编码的首次尝试。B-CANF功能帧型自适应编码，该编码可以学习层次B框架编码更好的位分配。B-Canf还引入了一种特殊类型的B帧，称为B*-Frame，以模拟P框架编码。在常用数据集上，B-CANF达到了最新的压缩性能，在随机访问配置下显示了与HM-16.23相当的BD速率结果（在PSNR-RGB方面）。

translated by 谷歌翻译

Ray-Space Motion Compensation for Lenslet Plenoptic Video Coding

Thuc Nguyen Huu , Vinh Van Duong , Jonghoon Yim , Byeungwoo Jeon

分类：计算机视觉

2022-07-01

包含丰富信息的元素图像和视频需要大量的数据存储和高传输成本。虽然对元素图像编码进行了很多研究，但对元素视频编码的研究非常有限。我们通过查看射线空间域中的问题而不是在常规像素域中的问题来研究元素视频编码的运动补偿。在这里，我们在射线空间运动的两个子轴上，即整数射线空间运动和分数射线空间运动，为Lenslet视频开发了一种新颖的运动补偿方案。拟议的新方案设计了光场运动补偿预测，使其可以轻松地集成到众所周知的视频编码技术中，例如HEVC。与现有方法相比，实验结果显示出显着的压缩效率，平均增益为19.63％，峰值增长率为29.1％。

translated by 谷歌翻译

Task Oriented Video Coding: A Survey

Daniel Wood

分类：计算机视觉

2022-08-15

视频编码技术已不断改进，以更高的分辨率以更高的压缩比。但是，最先进的视频编码标准（例如H.265/HEVC和多功能视频编码）仍在设计中，该假设将被人类观看。随着深度神经网络在解决计算机视觉任务方面的巨大进步和成熟，越来越多的视频通过无人参与的深度神经网络直接分析。当计算机视觉应用程序使用压缩视频时，这种传统的视频编码标准设计并不是最佳的。尽管人类视觉系统对具有高对比度的内容一直敏感，但像素对计算机视觉算法的影响是由特定的计算机视觉任务驱动的。在本文中，我们探索并总结了计算机视觉任务的视频编码和新兴视频编码标准，机器的视频编码。

translated by 谷歌翻译

Implicit Neural Video Compression

Yunfan Zhang , Ties van Rozendaal , Johann Brehmer , Markus Nagel , Taco Cohen

分类：机器学习 | 计算机视觉

2021-12-21

我们提出了一种压缩具有隐式神经表示的全分辨率视频序列的方法。每个帧表示为映射坐标位置到像素值的神经网络。我们使用单独的隐式网络来调制坐标输入，从而实现帧之间的有效运动补偿。与一个小的残余网络一起，这允许我们有效地相对于前一帧压缩p帧。通过使用学习的整数量化存储网络权重，我们进一步降低了比特率。我们呼叫隐式像素流（IPF）的方法，提供了几种超简化的既定神经视频编解码器：它不需要接收器可以访问预先磨普的神经网络，不使用昂贵的内插基翘曲操作，而不是需要单独的培训数据集。我们展示了神经隐式压缩对图像和视频数据的可行性。

translated by 谷歌翻译

Inter-Frame Compression for Dynamic Point Cloud Geometry Coding

Anique Akhtar , Zhu Li , Geert Van der Auwera

分类：计算机视觉

2022-07-25

有效的点云压缩对于虚拟和混合现实，自动驾驶和文化遗产等应用至关重要。在本文中，我们为动态点云几何压缩提出了一个基于深度学习的框架间编码方案。我们提出了一种有损的几何压缩方案，该方案通过使用新的预测网络，使用先前的框架来预测当前帧的潜在表示。我们提出的网络利用稀疏的卷积使用层次多尺度3D功能学习来使用上一个帧编码当前帧。我们在目标坐标上采用卷积来将上一个帧的潜在表示为当前帧的降采样坐标，以预测当前帧的特征嵌入。我们的框架通过使用学习的概率分解熵模型来压缩预测功能的残差和实际特征。在接收器中，解码器层次结构通过逐步重新嵌入功能嵌入来重建当前框架。我们将我们的模型与基于最先进的视频点云压缩（V-PCC）和基于几何的点云压缩（G-PCC）方案进行了比较，该方案由Moving Picture Experts Group（MPEG）标准化。我们的方法实现了91％以上的BD率Bjontegaard三角洲率）降低了G-PCC，针对V-PCC框架内编码模式的BD率降低了62％以上，而对于V-PC。使用HEVC，基于PCC P框架的框架间编码模式。

translated by 谷歌翻译

Neighbor Correspondence Matching for Flow-based Video Frame Synthesis

Zhaoyang Jia , Yan Lu , Houqiang Li

分类：计算机视觉

2022-07-14

视频框架合成由插值和外推组成，是一种必不可少的视频处理技术，可应用于各种情况。但是，大多数现有方法无法处理小物体或大型运动，尤其是在高分辨率视频（例如4K视频）中。为了消除此类局限性，我们引入了基于流动帧合成的邻居对应匹配（NCM）算法。由于当前的帧在视频框架合成中不可用，因此NCM以当前框架的方式进行，以在每个像素的空间型社区中建立多尺度对应关系。基于NCM的强大运动表示能力，我们进一步建议在异质的粗到细节方案中估算框架合成的中间流。具体而言，粗尺度模块旨在利用邻居的对应关系来捕获大型运动，而细尺度模块在计算上更有效地加快了估计过程。两个模块都经过逐步训练，以消除培训数据集和现实世界视频之间的分辨率差距。实验结果表明，NCM在多个基准测试中实现了最先进的性能。此外，NCM可以应用于各种实践场景，例如视频压缩，以实现更好的性能。

translated by 谷歌翻译