图像裁剪是一种廉价而有效的恶意改变图像内容的操作。现有的裁剪检测机制分析了图像裁剪的基本痕迹,例如色差和渐晕,以发现种植攻击。但是,它们在常见的后处理攻击方面脆弱,通过删除此类提示,欺骗取证。此外,他们忽略了这样一个事实,即恢复裁剪的内容可以揭示出行为造成攻击的目的。本文提出了一种新型的强大水印方案,用于图像裁剪定位和恢复(CLR-NET)。我们首先通过引入不可察觉的扰动来保护原始图像。然后,模拟典型的图像后处理攻击以侵蚀受保护的图像。在收件人方面,我们预测裁剪面膜并恢复原始图像。我们提出了两个即插即用网络,以改善CLR-NET的现实鲁棒性,即细粒生成性JPEG模拟器(FG-JPEG)和Siamese图像预处理网络。据我们所知,我们是第一个解决图像裁剪本地化和整个图像从片段中恢复的综合挑战的人。实验表明,尽管存在各种类型的图像处理攻击,但CLR-NET可以准确地定位裁剪,并以高质量和忠诚度恢复裁剪区域的细节。
translated by 谷歌翻译
视频容易篡改攻击,从而改变含义并欺骗观众。以前的视频伪造检测方案找到了微小的线索来定位篡改区域。但是,攻击者可以通过使用视频压缩或模糊破坏此类线索来成功逃避监督。本文提出了一个视频水印网络,用于篡改本地化。我们共同训练一个基于3D-UNET的水印嵌入网络和一个预测篡改面罩的解码器。水印嵌入产生的扰动几乎是无法察觉的。考虑到没有现成的可区分的视频编解码器模拟器,我们建议通过结合其他典型攻击的模拟结果来模仿视频压缩,例如JPEG压缩和模糊,作为近似值。实验结果表明,我们的方法生成具有良好不可识别的水印视频,并且在攻击版本中可以稳健,准确地定位篡改区域。
translated by 谷歌翻译
深度学习在各种工业应用中取得了巨大成功。公司不希望他们的宝贵数据被恶意员工偷来培训盗版模式。他们也不希望竞争对手在线使用后分析的数据。我们提出了一种新的解决方案,在这种情况下,通过稳健地并可逆地将图像转换为对手图像。我们开发一个可逆的对抗性示例生成器(Raeg),对图像引入略微变化以欺骗传统的分类模型。尽管恶意攻击培训基于Deacened版本的受保护图像的盗版模型,但Raeg可以显着削弱这些模型的功能。同时,Raeg的可逆性确保了授权模型的表现。广泛的实验表明,Raeg可以通过比以前的方法更好地防止对抗对抗防御的轻微扭曲。
translated by 谷歌翻译
数字图像水印寻求保护数字媒体信息免受未经授权的访问,其中消息被嵌入到数字图像中并从中提取,甚至在各种数据处理下应用一些噪声或失真,包括有损图像压缩和交互式内容编辑。在用一些事先约束时,传统图像水印解决方案容易受到鲁棒性,而最近的基于深度学习的水印方法无法在特征编码器和解码器的各种单独管道下进行良好的信息丢失问题。在本文中,我们提出了一种新的数字图像水印解决方案,具有一个小巧的神经网络,名为可逆的水印网络(IWN)。我们的IWN架构基于单个可逆的神经网络(INN),这种双翼飞变传播框架使我们能够通过将它们作为彼此的一对逆问题同时解决信息嵌入和提取的挑战,并学习稳定的可逆性映射。为了增强我们的水印解决方案的稳健性,我们具体地引入了一个简单但有效的位消息归一化模块,以冷凝要嵌入的位消息,并且噪声层旨在模拟我们的iWN框架下的各种实际攻击。广泛的实验表明了我们在各种扭曲下的解决方案的优越性。
translated by 谷歌翻译
基于神经网络的图像压缩已经过度研究。模型稳健性很大程度上被忽视,但它对服务能够实现至关重要。我们通过向原始源图像注入少量噪声扰动来执行对抗攻击,然后使用主要学习的图像压缩模型来编码这些对抗示例。实验报告对逆势实例的重建中的严重扭曲,揭示了现有方法的一般漏洞,无论用于底层压缩模型(例如,网络架构,丢失功能,质量标准)和用于注射扰动的优化策略(例如,噪声阈值,信号距离测量)。后来,我们应用迭代对抗的FineTuning来细化掠夺模型。在每次迭代中,将随机源图像和对抗示例混合以更新底层模型。结果通过大大提高压缩模型稳健性来表明提出的FineTuning策略的有效性。总体而言,我们的方法是简单,有效和更广泛的,使其具有开发稳健的学习图像压缩解决方案的吸引力。所有材料都在HTTPS://njuvision.github.io/trobustn中公开访问,以便可重复研究。
translated by 谷歌翻译
Face Restoration (FR) aims to restore High-Quality (HQ) faces from Low-Quality (LQ) input images, which is a domain-specific image restoration problem in the low-level computer vision area. The early face restoration methods mainly use statistic priors and degradation models, which are difficult to meet the requirements of real-world applications in practice. In recent years, face restoration has witnessed great progress after stepping into the deep learning era. However, there are few works to study deep learning-based face restoration methods systematically. Thus, this paper comprehensively surveys recent advances in deep learning techniques for face restoration. Specifically, we first summarize different problem formulations and analyze the characteristic of the face image. Second, we discuss the challenges of face restoration. Concerning these challenges, we present a comprehensive review of existing FR methods, including prior based methods and deep learning-based methods. Then, we explore developed techniques in the task of FR covering network architectures, loss functions, and benchmark datasets. We also conduct a systematic benchmark evaluation on representative methods. Finally, we discuss future directions, including network designs, metrics, benchmark datasets, applications,etc. We also provide an open-source repository for all the discussed methods, which is available at https://github.com/TaoWangzj/Awesome-Face-Restoration.
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
图像超分辨率(SR)是重要的图像处理方法之一,可改善计算机视野领域的图像分辨率。在过去的二十年中,在超级分辨率领域取得了重大进展,尤其是通过使用深度学习方法。这项调查是为了在深度学习的角度进行详细的调查,对单像超分辨率的最新进展进行详细的调查,同时还将告知图像超分辨率的初始经典方法。该调查将图像SR方法分类为四个类别,即经典方法,基于学习的方法,无监督学习的方法和特定领域的SR方法。我们还介绍了SR的问题,以提供有关图像质量指标,可用参考数据集和SR挑战的直觉。使用参考数据集评估基于深度学习的方法。一些审查的最先进的图像SR方法包括增强的深SR网络(EDSR),周期循环gan(Cincgan),多尺度残留网络(MSRN),Meta残留密度网络(META-RDN) ,反复反射网络(RBPN),二阶注意网络(SAN),SR反馈网络(SRFBN)和基于小波的残留注意网络(WRAN)。最后,这项调查以研究人员将解决SR的未来方向和趋势和开放问题的未来方向和趋势。
translated by 谷歌翻译
无监督的深度学习最近证明了生产高质量样本的希望。尽管它具有促进图像着色任务的巨大潜力,但由于数据歧管和模型能力的高维度,性能受到限制。这项研究提出了一种新的方案,该方案利用小波域中的基于得分的生成模型来解决这些问题。通过利用通过小波变换来利用多尺度和多渠道表示,该模型可以共同有效地从堆叠的粗糙小波系数组件中了解较富裕的先验。该策略还降低了原始歧管的维度,并减轻了维度的诅咒,这对估计和采样有益。此外,设计了小波域中的双重一致性项,即数据一致性和结构一致性,以更好地利用着色任务。具体而言,在训练阶段,一组由小波系数组成的多通道张量被用作训练网络以denoising得分匹配的输入。在推论阶段,样品是通过具有数据和结构一致性的退火Langevin动力学迭代生成的。实验证明了所提出的方法在发电和着色质量方面的显着改善,尤其是在着色鲁棒性和多样性方面。
translated by 谷歌翻译
在低灯条件下捕获的图像遭受低可视性和各种成像伪影,例如真实噪音。现有的监督启示算法需要大量的像素对齐的训练图像对,这很难在实践中准备。虽然弱监督或无人监督的方法可以缓解这些挑战,但不使用配对的训练图像,由于缺乏相应的监督,一些现实世界的文物不可避免地被错误地放大。在本文中,而不是使用完美的对齐图像进行培训,我们创造性地使用未对准的现实世界图像作为指导,这很容易收集。具体地,我们提出了一个交叉图像解剖线程(CIDN),以分别提取来自低/常光图像的交叉图像亮度和图像特定内容特征。基于此,CIDN可以同时校正特征域中的亮度和抑制图像伪像,其在很大程度上将鲁棒性增加到像素偏移。此外,我们收集了一个新的低光图像增强数据集,包括具有现实世界腐败的未对准培训图像。实验结果表明,我们的模型在新建议的数据集和其他流行的低光数据集中实现了最先进的表演。
translated by 谷歌翻译
Online media data, in the forms of images and videos, are becoming mainstream communication channels. However, recent advances in deep learning, particularly deep generative models, open the doors for producing perceptually convincing images and videos at a low cost, which not only poses a serious threat to the trustworthiness of digital information but also has severe societal implications. This motivates a growing interest of research in media tampering detection, i.e., using deep learning techniques to examine whether media data have been maliciously manipulated. Depending on the content of the targeted images, media forgery could be divided into image tampering and Deepfake techniques. The former typically moves or erases the visual elements in ordinary images, while the latter manipulates the expressions and even the identity of human faces. Accordingly, the means of defense include image tampering detection and Deepfake detection, which share a wide variety of properties. In this paper, we provide a comprehensive review of the current media tampering detection approaches, and discuss the challenges and trends in this field for future research.
translated by 谷歌翻译
With the spread of tampered images, locating the tampered regions in digital images has drawn increasing attention. The existing image tampering localization methods, however, suffer from severe performance degradation when the tampered images are subjected to some post-processing, as the tampering traces would be distorted by the post-processing operations. The poor robustness against post-processing has become a bottleneck for the practical applications of image tampering localization techniques. In order to address this issue, this paper proposes a novel restoration-assisted framework for image tampering localization (ReLoc). The ReLoc framework mainly consists of an image restoration module and a tampering localization module. The key idea of ReLoc is to use the restoration module to recover a high-quality counterpart of the distorted tampered image, such that the distorted tampering traces can be re-enhanced, facilitating the tampering localization module to identify the tampered regions. To achieve this, the restoration module is optimized not only with the conventional constraints on image visual quality but also with a forensics-oriented objective function. Furthermore, the restoration module and the localization module are trained alternately, which can stabilize the training process and is beneficial for improving the performance. The proposed framework is evaluated by fighting against JPEG compression, the most commonly used post-processing. Extensive experimental results show that ReLoc can significantly improve the robustness against JPEG compression. The restoration module in a well-trained ReLoc model is transferable. Namely, it is still effective when being directly deployed with another tampering localization module.
translated by 谷歌翻译
在计算机视觉和邻近字段中,已广泛研究了盲图片脱毛(BID)。投标的现代方法可以分为两类:使用统计推断和数值优化处理单个实例的单个实体方法,以及数据驱动的方法,这些方法可以直接训练深度学习模型来直接删除未来实例。数据驱动的方法可以摆脱得出准确的模型模型的困难,但从根本上受到培训数据的多样性和质量的限制 - 收集足够表达和现实的培训数据是一个坚定的挑战。在本文中,我们专注于保持竞争力和必不可少的单一稳定方法。但是,大多数此类方法没有规定如何处理未知内核大小和实质性噪音,从而排除了实际部署。实际上,我们表明,当核大小被明确指定时,几种最新的(SOTA)单位方法是不稳定的,并且/或噪声水平很高。从积极的一面来看,我们提出了一种实用的出价方法,该方法对这两者都是稳定的,这是同类的。我们的方法建立在最新的思想,即通过整合物理模型和结构深度神经网络而没有额外的培训数据来解决反问题。我们引入了几种关键修改以实现所需的稳定性。与SOTA单位结构以及数据驱动的方法相比,对标准合成数据集以及现实世界中的NTIRE2020和REALBLUR数据集进行了广泛的经验测试。我们方法的代码可在:\ url {https://github.com/sun-unm/blind-image-deblurring}中获得。
translated by 谷歌翻译
在过去的几十年中,盲目的图像质量评估(BIQA)旨在准确地预测图像质量而无需任何原始参考信息,但一直在广泛关注。特别是,在深层神经网络的帮助下,取得了巨大进展。但是,对于夜间图像(NTI)的BIQA的研究仍然较少,通常患有复杂的真实扭曲,例如可见性降低,低对比度,添加噪声和颜色失真。这些多样化的真实降解特别挑战了有效的深神网络的设计,用于盲目NTI质量评估(NTIQE)。在本文中,我们提出了一个新颖的深层分解和双线性池网络(DDB-NET),以更好地解决此问题。 DDB-NET包含三个模块,即图像分解模块,一个特征编码模块和双线性池模块。图像分解模块的灵感来自Itinex理论,并涉及将输入NTI解耦到负责照明信息的照明层组件和负责内容信息的反射层组件。然后,编码模块的功能涉及分别植根于两个解耦组件的降解的特征表示。最后,通过将照明相关和与内容相关的降解作为两因素变化进行建模,将两个特征集组合在一起,将双线汇总在一起以形成统一的表示,以进行质量预测。在几个基准数据集上进行了广泛的实验,已对所提出的DDB-NET的优势得到了很好的验证。源代码将很快提供。
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
随着深度学习(DL)的出现,超分辨率(SR)也已成为一个蓬勃发展的研究领域。然而,尽管结果有希望,但该领域仍然面临需要进一步研究的挑战,例如,允许灵活地采样,更有效的损失功能和更好的评估指标。我们根据最近的进步来回顾SR的域,并检查最新模型,例如扩散(DDPM)和基于变压器的SR模型。我们对SR中使用的当代策略进行了批判性讨论,并确定了有前途但未开发的研究方向。我们通过纳入该领域的最新发展,例如不确定性驱动的损失,小波网络,神经体系结构搜索,新颖的归一化方法和最新评估技术来补充先前的调查。我们还为整章中的模型和方法提供了几种可视化,以促进对该领域趋势的全球理解。最终,这篇综述旨在帮助研究人员推动DL应用于SR的界限。
translated by 谷歌翻译
为了防止操纵图像内容(例如剪接,复制移动和删除),我们开发了一个渐进的时空通道相关网络(PSCC-NET),以检测和本地化图像操作。 PSCC-NET以两路程的过程处理图像:一条自上而下的路径,该路径提取本地和全局特征以及检测输入图像是否被操纵的自下而上的路径,并在多个尺度上估算其操纵掩码,每个尺度都在其中面具的条件是在前一个。与传统的编码器编码器和无流动结构不同,PSCC-NET在不同尺度上的功能具有密集的交叉连接,以粗到更细致的方式产生操纵罩。此外,空间通道相关模块(SCCM)捕获自下而上路径中的空间和渠道相关性,该路径赋予了整体提示,使网络能够应对广泛的操纵攻击。得益于轻巧的主链和渐进式机制,PSCC-NET可以在50+ fps下处理1,080p图像。广泛的实验证明了PSCC-NET优于最先进方法在检测和定位方面。
translated by 谷歌翻译
面部超分辨率(FSR),也称为面部幻觉,其旨在增强低分辨率(LR)面部图像以产生高分辨率(HR)面部图像的分辨率,是特定于域的图像超分辨率问题。最近,FSR获得了相当大的关注,并目睹了深度学习技术的发展炫目。迄今为止,有很少有基于深入学习的FSR的研究摘要。在本次调查中,我们以系统的方式对基于深度学习的FSR方法进行了全面审查。首先,我们总结了FSR的问题制定,并引入了流行的评估度量和损失功能。其次,我们详细说明了FSR中使用的面部特征和流行数据集。第三,我们根据面部特征的利用大致分类了现有方法。在每个类别中,我们从设计原则的一般描述开始,然后概述代表方法,然后讨论其中的利弊。第四,我们评估了一些最先进的方法的表现。第五,联合FSR和其他任务以及与FSR相关的申请大致介绍。最后,我们设想了这一领域进一步的技术进步的前景。在\ URL {https://github.com/junjun-jiang/face-hallucination-benchmark}上有一个策划的文件和资源的策划文件和资源清单
translated by 谷歌翻译
在线社交网络比以往任何时候都更加激发了互联网的通信,这使得在此类嘈杂渠道上传输秘密消息是可能的。在本文中,我们提出了一个名为CIS-NET的无封面图像隐志网络,该网络合成了直接在秘密消息上传输的高质量图像。 CIS-NET由四个模块组成,即生成,对抗,提取和噪声模块。接收器可以提取隐藏的消息而不会损失任何损失,即使图像已被JPEG压缩攻击扭曲。为了掩盖隐肌的行为,我们在个人资料照片和贴纸的背景下收集了图像,并相应地训练了我们的网络。因此,生成的图像更倾向于摆脱恶意检测和攻击。与先前的图像隐志方法相比,区分主要是针对各种攻击的鲁棒性和无损性。各种公共数据集的实验已经表现出抗坚果分析的卓越能力。
translated by 谷歌翻译
Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.
translated by 谷歌翻译