智能论文笔记

Bit-depth enhancement detection for compressed video

Nickolay Safonov , Dmitriy Vatolin

分类：计算机视觉

2022-11-09

In recent years, display intensity and contrast have increased considerably. Many displays support high dynamic range (HDR) and 10-bit color depth. Since high bit-depth is an emerging technology, video content is still largely shot and transmitted with a bit depth of 8 bits or less per color component. Insufficient bit-depths produce distortions called false contours or banding, and they are visible on high contrast screens. To deal with such distortions, researchers have proposed algorithms for bit-depth enhancement (dequantization). Such techniques convert videos with low bit-depth (LBD) to videos with high bit-depth (HBD). The quality of converted LBD video, however, is usually lower than that of the original HBD video, and many consumers prefer to keep the original HBD versions. In this paper, we propose an algorithm to determine whether a video has undergone conversion before compression. This problem is complex; it involves detecting outcomes of different dequantization algorithms in the presence of compression that strongly affects the least-significant bits (LSBs) in the video frames. Our algorithm can detect bit-depth enhancement and demonstrates good generalization capability, as it is able to determine whether a video has undergone processing by dequantization algorithms absent from the training dataset.

translated by 谷歌翻译

Restoration of User Videos Shared on Social Media

Hongming Luo , Fei Zhou , Kin-man Lam , Guoping Qiu

分类：计算机视觉

2022-08-18

在社交媒体平台上共享的用户视频通常会受到由未知专有处理程序引起的降解，这意味着它们的视觉质量比原始产品差。本文提出了一个新的一般视频修复框架，用于恢复社交媒体平台上共享的用户视频。与执行端到端映射的大多数基于学习的视频恢复方法相反，在该方法中，特征提取大部分被视为黑匣子，从某种意义上说，功能通常未知的角色，我们的新方法，称为视频通过自适应退化感测（投票）恢复，引入了降解功能图（DFM）的概念，以明确指导视频恢复过程。具体而言，对于每个视频框架，我们首先自适应地估算其DFM以提取代表难以恢复其不同区域的功能。然后，我们将DFM馈送到卷积神经网络（CNN）以计算层次结构降解功能以调节端到端视频恢复骨干网络，从而明确地将更多注意力引起到潜在的更难恢复领域的领域，这又要引起铅的领域。增强恢复性能。我们将解释投票框架的设计基本原理，并提出广泛的实验结果，以表明新的投票方法在定量和定性上都优于各种最新技术。此外，我们为在不同社交媒体平台上共享的用户视频的大规模现实世界数据库提供了贡献。代码和数据集可从https://github.com/luohongming/votes.git获得

translated by 谷歌翻译

NTIRE 2021 Challenge on Quality Enhancement of Compressed Video: Methods and Results

Ren Yang , Radu Timofte , Jing Liu , Yi Xu , Xinjian Zhang , Minyi Zhao , Shuigeng Zhou , Kelvin C. K. Chan , Shangchen Zhou , Xiangyu Xu

分类：计算机视觉

2021-04-21

本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战，重点是拟议的方法和结果。在此挑战中，采用了新的大型不同视频（LDV）数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频，而Track 3旨在增强X265压缩的视频，以固定的位速率压缩。此外，轨道1和3的质量提高了提高保真度（PSNR）的目标，以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段，分别提交了12个团队，8支球队和11支球队，分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页：https：//github.com/renyang-home/ntire21_venh

translated by 谷歌翻译

A Little Bit More: Bitplane-Wise Bit-Depth Recovery

Abhijith Punnappurath , Michael S. Brown

分类：计算机视觉

2020-05-03

成像传感器在10-12位的动态范围内将传入场景光数字化（即1024--4096色调值）。然后将传感器图像加工在相机上，最后量化为仅8位（即256个音调值），以符合普遍的编码标准。有许多重要的应用程序，例如高位深度显示和照片编辑，有利于恢复丢失的位深度。深度神经网络在该位深度重建任务中是有效的。给定量化的低位深度图像作为输入，现有的深度学习方法采用单次方法，该方法尝试直接估计高位深度图像，或（2）直接估计高的剩余物 - 和低位深度图像。相比之下，我们提出了一种培训和推理策略，可以恢复剩余图像位平平面。我们的BitPlane-Wise学习框架具有允许在训练期间进行多级监督的优势，并且能够使用简单的网络架构获得最先进的结果。我们在多个图像数据集上广泛地测试了我们提出的方法，并在以前的方法上证明了0.5db至2.3db psnr的改进，这取决于量化水平。

translated by 谷歌翻译

End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional Video Compression

M. Akın Yılmaz , A. Murat Tekalp

分类：计算机视觉

2021-12-17

传统的视频压缩（VC）方法基于运动补偿变换编码，并且由于端到端优化问题的组合性质，运动估计，模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真（R-D）优化非线性变换，运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是，双向编码优于顺序压缩，因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器（LHBDC），其结合了分层运动补偿预测和端到端优化的益处。实验结果表明，我们达到了迄今为止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比，我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器（“非常流”预设）以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具，例如学习屏蔽，流场附带和时间流量矢量预测等新颖工具，展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到

translated by 谷歌翻译

PeQuENet: Perceptual Quality Enhancement of Compressed Video with Adaptation- and Attention-based Network

Saiping Zhang , Luis Herranz , Marta Mrak , Marc Gorriz Blanch , Shuai Wan , Fuzheng Yang

分类：计算机视觉

2022-06-16

在本文中，我们提出了一个生成的对抗网络（GAN）框架，以增强压缩视频的感知质量。我们的框架包括单个模型中对不同量化参数（QP）的注意和适应。注意模块利用了可以捕获和对齐连续框架之间的远程相关性的全球接收场，这可能有益于提高视频感知质量。要增强的框架与其相邻的框架一起馈入深网，并在第一阶段的特征中提取不同深度的特征。然后提取的特征被馈入注意力块以探索全局的时间相关性，然后进行一系列上采样和卷积层。最后，通过利用相应的QP信息的QP条件适应模块处理所得的功能。这样，单个模型可用于增强对各种QP的适应性，而无需针对每个QP值的多个模型，同时具有相似的性能。实验结果表明，与最先进的压缩视频质量增强算法相比，所提出的PEQUENET的表现出色。

translated by 谷歌翻译

VideoFACT: Detecting Video Forgeries Using Attention, Scene Context, and Forensic Traces

Tai D. Nguyen , Shengbang Fang , Matthew C. Stamm

分类：计算机视觉 | 人工智能

2022-11-28

Fake videos represent an important misinformation threat. While existing forensic networks have demonstrated strong performance on image forgeries, recent results reported on the Adobe VideoSham dataset show that these networks fail to identify fake content in videos. In this paper, we propose a new network that is able to detect and localize a wide variety of video forgeries and manipulations. To overcome challenges that existing networks face when analyzing videos, our network utilizes both forensic embeddings to capture traces left by manipulation, context embeddings to exploit forensic traces' conditional dependencies upon local scene content, and spatial attention provided by a deep, transformer-based attention mechanism. We create several new video forgery datasets and use these, along with publicly available data, to experimentally evaluate our network's performance. These results show that our proposed network is able to identify a diverse set of video forgeries, including those not encountered during training. Furthermore, our results reinforce recent findings that image forensic networks largely fail to identify fake content in videos.

translated by 谷歌翻译

A High Resolution Multi-exposure Stereoscopic Image & Video Database of Natural Scenes

Rohit Choudhary , Mansi Sharma , Aditya Wadaskar

分类：计算机视觉

2022-06-22

近年来，Imbersive显示器（例如VR耳机，AR眼镜，多视图显示器，自由点电视）已成为一种新的展示技术，与传统显示相比，提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展，高动态范围（HDR）摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样，足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈，从而限制了观众的体验质量（QOE）。在本文中，我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集，该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获，并提供户外位置的复杂场景，例如花园，路边景观，节日场地，建筑物和室内地区，例如学术和居住区。提出的数据集可容纳宽深度范围，复杂的深度结构，使物体运动复杂化，照明变化，丰富的色彩动态，纹理差异，除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外，详细描述了捕获，对齐和校准多曝光立体视频和图像的过程。最后，我们讨论了有关HDR成像，深度估计，一致的音调映射和3D HDR编码的进度，挑战，潜在用例和未来研究机会。

translated by 谷歌翻译

Underwater enhancement based on a self-learning strategy and attention mechanism for high-intensity regions

Claudio D. Mello Jr. , Bryan U. Moreira , Paulo J. O. Evald , Paulo L. Drews Jr. , Silvia S. Botelho

分类：计算机视觉

2022-08-04

在水下活动期间获得的图像遭受了水的环境特性，例如浊度和衰减。这些现象会导致颜色失真，模糊和对比度减少。另外，不规则的环境光分布会导致色道不平衡和具有高强度像素的区域。最近的作品与水下图像增强有关，并基于深度学习方法，解决了缺乏生成合成基地真相的配对数据集。在本文中，我们提出了一种基于深度学习的水下图像增强的自我监督学习方法，不需要配对的数据集。提出的方法估计了水下图像中存在的降解。此外，自动编码器重建此图像，并使用估计的降解信息降解其输出图像。因此，该策略在训练阶段的损失函数中用降级版本代替了输出图像。此过程\ textIt {Misleads}学会补偿其他降解的神经网络。结果，重建的图像是输入图像的增强版本。此外，该算法还提出了一个注意模块，以减少通过颜色通道不平衡和异常区域在增强图像中产生的高强度区域。此外，提出的方法不需要基本真实。此外，仅使用真实的水下图像来训练神经网络，结果表明该方法在颜色保存，颜色铸造降低和对比度改进方面的有效性。

translated by 谷歌翻译

ARID: A New Dataset for Recognizing Action in the Dark

Yuecong Xu , Jianfei Yang , Haozhi Cao , Kezhi Mao , Jianxiong Yin , Simon See

分类：计算机视觉

2020-06-06

黑暗视频中的动作识别任务在各种情况下很有用，例如夜间夜间监视和自动驾驶。尽管在正常照明的视频的动作识别任务中取得了进展，但在黑暗中很少有人研究动作识别。这部分是由于缺乏足够的数据集来完成此类任务。在本文中，我们探讨了黑暗视频中动作识别的任务。我们通过收集一个新数据集：黑暗（ARID）数据集中的动作识别来弥合此任务缺乏数据的差距。它由3,780多个具有11个动作类别的视频剪辑组成。据我们所知，这是第一个针对黑暗视频中人类行为的数据集。为了进一步了解我们的干旱数据集，我们详细分析了干旱数据集，并在合成黑暗视频中表现出了必要性。此外，我们在数据集上基准了几种当前动作识别模型的性能，并探索了提高其性能的潜在方法。我们的结果表明，当前的动作识别模型和框架增强方法可能不是黑暗视频中动作识别任务的有效解决方案。

translated by 谷歌翻译

Task Oriented Video Coding: A Survey

Daniel Wood

分类：计算机视觉

2022-08-15

视频编码技术已不断改进，以更高的分辨率以更高的压缩比。但是，最先进的视频编码标准（例如H.265/HEVC和多功能视频编码）仍在设计中，该假设将被人类观看。随着深度神经网络在解决计算机视觉任务方面的巨大进步和成熟，越来越多的视频通过无人参与的深度神经网络直接分析。当计算机视觉应用程序使用压缩视频时，这种传统的视频编码标准设计并不是最佳的。尽管人类视觉系统对具有高对比度的内容一直敏感，但像素对计算机视觉算法的影响是由特定的计算机视觉任务驱动的。在本文中，我们探索并总结了计算机视觉任务的视频编码和新兴视频编码标准，机器的视频编码。

translated by 谷歌翻译

Skin feature point tracking using deep feature encodings

Jose Ramon Chang , Torbjörn E. M. Nordling

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-28

面部特征跟踪是成像跳芭式（BCG）的关键组成部分，其中需要精确定量面部关键点的位移，以获得良好的心率估计。皮肤特征跟踪能够在帕金森病中基于视频的电机降解量化。传统的计算机视觉算法包括刻度不变特征变换（SIFT），加速强大的功能（冲浪）和LUCAS-KANADE方法（LK）。这些长期代表了最先进的效率和准确性，但是当存在常见的变形时，如图所示，如图所示，如此。在过去的五年中，深度卷积神经网络对大多数计算机视觉任务的传统方法表现优于传统的传统方法。我们提出了一种用于特征跟踪的管道，其应用卷积堆积的AutoEncoder，以将图像中最相似的裁剪标识到包含感兴趣的特征的参考裁剪。 AutoEncoder学会将图像作物代表到特定于对象类别的深度特征编码。我们在面部图像上培训AutoEncoder，并验证其在手动标记的脸部和手视频中通常验证其跟踪皮肤功能的能力。独特的皮肤特征（痣）的跟踪误差是如此之小，因为我们不能排除他们基于$ \ chi ^ 2 $ -test的手动标签。对于0.6-4.2像素的平均误差，我们的方法在所有情况下都表现出了其他方法。更重要的是，我们的方法是唯一一个不分歧的方法。我们得出的结论是，我们的方法为特征跟踪，特征匹配和图像配准比传统算法创建更好的特征描述符。

translated by 谷歌翻译

Image quality assessment: from error visibility to structural similarity

分类：

Objective methods for assessing perceptual image quality have traditionally attempted to quantify the visibility of errors between a distorted image and a reference image using a variety of known properties of the human visual system. Under the assumption that human visual perception is highly adapted for extracting structural information from a scene, we introduce an alternative framework for quality assessment based on the degradation of structural information. As a specific example of this concept, we develop a Structural Similarity Index and demonstrate its promise through a set of intuitive examples, as well as comparison to both subjective ratings and state-of-the-art objective methods on a database of images compressed with JPEG and JPEG2000. 1

translated by 谷歌翻译

Enhanced Frame and Event-Based Simulator and Event-Based Video Interpolation Network

Adam Radomski , Andreas Georgiou , Thomas Debrunner , Chenghan Li , Luca Longinotti , Minwon Seo , Moosung Kwak , Chang-Woo Shin , Paul K. J. Park , Hyunsurk Eric Ryu

分类：计算机视觉

2021-12-17

基于快速的神经形态的视觉传感器（动态视觉传感器，DVS）可以与基于较慢的帧的传感器组合，以实现比使用例如固定运动近似的传统方法更高质量的帧间内插。光流。在这项工作中，我们展示了一个新的高级事件模拟器，可以产生由相机钻机录制的现实场景，该仪器具有位于固定偏移的任意数量的传感器。它包括具有现实图像质量降低效果的新型可配置帧的图像传感器模型，以及具有更精确的特性的扩展DVS模型。我们使用我们的模拟器培训一个新的重建模型，专为高FPS视频的端到端重建而设计。与以前发表的方法不同，我们的方法不需要帧和DVS相机具有相同的光学，位置或相机分辨率。它还不限于物体与传感器的固定距离。我们表明我们的模拟器生成的数据可用于训练我们的新模型，导致在与最先进的公共数据集上的公共数据集中的重建图像。我们还向传感器展示了真实传感器记录的数据。

translated by 谷歌翻译

A Compact Neural Network-based Algorithm for Robust Image Watermarking

Hong-Bo Xu , Rong Wang , Jia Wei , Shao-Ping Lu

分类：计算机视觉

2021-12-27

数字图像水印寻求保护数字媒体信息免受未经授权的访问，其中消息被嵌入到数字图像中并从中提取，甚至在各种数据处理下应用一些噪声或失真，包括有损图像压缩和交互式内容编辑。在用一些事先约束时，传统图像水印解决方案容易受到鲁棒性，而最近的基于深度学习的水印方法无法在特征编码器和解码器的各种单独管道下进行良好的信息丢失问题。在本文中，我们提出了一种新的数字图像水印解决方案，具有一个小巧的神经网络，名为可逆的水印网络（IWN）。我们的IWN架构基于单个可逆的神经网络（INN），这种双翼飞变传播框架使我们能够通过将它们作为彼此的一对逆问题同时解决信息嵌入和提取的挑战，并学习稳定的可逆性映射。为了增强我们的水印解决方案的稳健性，我们具体地引入了一个简单但有效的位消息归一化模块，以冷凝要嵌入的位消息，并且噪声层旨在模拟我们的iWN框架下的各种实际攻击。广泛的实验表明了我们在各种扭曲下的解决方案的优越性。

translated by 谷歌翻译

Implicit Neural Video Compression

Yunfan Zhang , Ties van Rozendaal , Johann Brehmer , Markus Nagel , Taco Cohen

分类：机器学习 | 计算机视觉

2021-12-21

我们提出了一种压缩具有隐式神经表示的全分辨率视频序列的方法。每个帧表示为映射坐标位置到像素值的神经网络。我们使用单独的隐式网络来调制坐标输入，从而实现帧之间的有效运动补偿。与一个小的残余网络一起，这允许我们有效地相对于前一帧压缩p帧。通过使用学习的整数量化存储网络权重，我们进一步降低了比特率。我们呼叫隐式像素流（IPF）的方法，提供了几种超简化的既定神经视频编解码器：它不需要接收器可以访问预先磨普的神经网络，不使用昂贵的内插基翘曲操作，而不是需要单独的培训数据集。我们展示了神经隐式压缩对图像和视频数据的可行性。

translated by 谷歌翻译

Scalable and Efficient Neural Speech Coding: A Hybrid Design

Kai Zhen , Jongmo Sung , Mi Suk Lee , Seungkwon Beak , Minje Kim

分类：机器学习

2021-03-27

我们提出了一种可扩展高效的神经波形编码系统，用于语音压缩。我们将语音编码问题作为一种自动汇总任务，其中卷积神经网络（CNN）在其前馈例程期间执行编码和解码作为神经波形编解码器（NWC）。所提出的NWC还将量化和熵编码定义为可培训模块，因此在优化过程期间处理编码伪像和比特率控制。通过将紧凑的模型组件引入NWC，如Gated Reseal Networks和深度可分离卷积，我们实现了效率。此外，所提出的模型具有可扩展的架构，跨模块残差学习（CMRL），以覆盖各种比特率。为此，我们采用残余编码概念来连接多个NWC自动汇总模块，其中每个NWC模块执行残差编码以恢复其上一模块已创建的任何重建损失。 CMRL也可以缩小以覆盖下比特率，因为它采用线性预测编码（LPC）模块作为其第一自动化器。混合设计通过将LPC的量化作为可分散的过程重新定义LPC和NWC集成，使系统培训端到端的方式。所提出的系统的解码器在低至中等比特率范围（12至20kbps）或高比特率（32kbps）中的两个NWC中的一个NWC（0.12百万个参数）。尽管解码复杂性尚不低于传统语音编解码器的复杂性，但是从其他神经语音编码器（例如基于WVENET的声码器）显着降低。对于宽带语音编码质量，我们的系统对AMR-WB的性能相当或卓越的性能，并在低和中等比特率下的速度试验话题上的表现。所提出的系统可以扩展到更高的比特率以实现近透明性能。

translated by 谷歌翻译

Deep Video Coding with Dual-Path Generative Adversarial Network

Tiesong Zhao , Weize Feng , Hongji Zeng , Yuzhen Niu , Jiaying Liu

分类：计算机视觉

2021-11-29

将基于深学习视频编码已经吸引了大量的关注它的巨大潜力排挤视频序列的时空冗余。本文提出了一种高效的编解码器，即双路径生成对抗性的基于网络的视频编解码器（DGVC）。首先，我们提出了一个双通道的增强与生成对抗网络（DPEG）重建压缩视频的详细信息。所述DPEG由一个$ \阿尔法$自动编码器和卷积长短期记忆（ConvLSTM），它具有大的感受域和多帧的引用，和$ \测试$利于结构特征重构的-path - 残余关注块的路径，这有利于局部纹理特征的重建。两条路径融合，并通过生成对抗性的流程协同训练。其次，我们重用两个运动补偿和质量增强模块，这是与运动估计进一步结合DPEG网络，并在我们的DGVC框架熵编码模块。第三，我们采用深视频压缩和提高了联合训练，进一步提高率失真（RD）性能。与X265 LDP非常快的方式相比，我们的DGVC由39.39％/ 54.92％在相同的PSNR / MS-SSIM，其通过一个胜过国家的本领域深视频编解码器降低平均比特每像素（BPP）相当幅度。

translated by 谷歌翻译

Towards Live Video Analytics with On-Drone Deeper-yet-Compatible Compression

Junpeng Guo , Chunyi Peng

分类：计算机视觉

2021-11-10

在这项工作中，我们呈现了DCC（更深层兼容的压缩），用于实时无人机的辅助边缘辅助视频分析的一个启用技术，内置于现有编解码器之上。DCC解决了一个重要的技术问题，以将流动的视频从无人机压缩到边缘，而不会严格地在边缘执行的视频分析任务的准确性和及时性。DCC通过流式视频中的每一位对视频分析同样有价值，这是对视频分析的同样有价值，这在传统的分析透视技术编解码器技术上打开了新的压缩室。我们利用特定的无人机的上下文和中级提示，从物体检测中追求保留分析质量所需的自适应保真度。我们在一个展示车辆检测应用中有原型DCC，并验证了其代表方案的效率。DCC通过基线方法减少9.5倍，在最先进的检测精度上，19-683％的速度减少了9.5倍。

translated by 谷歌翻译

A Review of Modern Approaches for Coronary Angiography Imaging Analysis

Maxim Popov , Temirgali Aimyshev , Eldar Ismailov , Ablay Bulegenov , Siamac Fazli

分类：计算机视觉

2022-09-28

冠心病（CHD）是现代世界中死亡的主要原因。用于诊断和治疗CHD的现代分析工具的开发正在从科学界受到极大的关注。基于深度学习的算法，例如分割网络和检测器，通过及时分析患者的血管造影来协助医疗专业人员，在协助医疗专业人员方面发挥着重要作用。本文着重于X射线冠状动脉造影（XCA），该血管造影被认为是CHD诊断和治疗中的“黄金标准”。首先，我们描述了XCA图像的公开可用数据集。然后，审查了图像预处理的经典和现代技术。此外，讨论了共同的框架选择技术，这是输入质量以及模型性能的重要因素。在以下两章中，我们讨论了现代血管分割和狭窄检测网络，最后是当前最新技术的开放问题和当前局限性。

translated by 谷歌翻译