根据自我监督的方法,我们根据预先训练的深网络重新审视水印技术。我们提出了一种方法来将标记和二进制消息嵌入到其潜在空间中,利用在标记时间时使用数据增强。我们的方法可以在任何分辨率下运行,并在广泛的转换(旋转,作物,JPEG,对比度等)中创建水印稳健。它显着优于先前的零位方法,其对多比特水印的性能与最先进的编码器 - 解码器架构是对水印的端到端训练的端到端的平台。我们的实施和型号将公开可用。
translated by 谷歌翻译
数字图像水印寻求保护数字媒体信息免受未经授权的访问,其中消息被嵌入到数字图像中并从中提取,甚至在各种数据处理下应用一些噪声或失真,包括有损图像压缩和交互式内容编辑。在用一些事先约束时,传统图像水印解决方案容易受到鲁棒性,而最近的基于深度学习的水印方法无法在特征编码器和解码器的各种单独管道下进行良好的信息丢失问题。在本文中,我们提出了一种新的数字图像水印解决方案,具有一个小巧的神经网络,名为可逆的水印网络(IWN)。我们的IWN架构基于单个可逆的神经网络(INN),这种双翼飞变传播框架使我们能够通过将它们作为彼此的一对逆问题同时解决信息嵌入和提取的挑战,并学习稳定的可逆性映射。为了增强我们的水印解决方案的稳健性,我们具体地引入了一个简单但有效的位消息归一化模块,以冷凝要嵌入的位消息,并且噪声层旨在模拟我们的iWN框架下的各种实际攻击。广泛的实验表明了我们在各种扭曲下的解决方案的优越性。
translated by 谷歌翻译
图像裁剪是一种廉价而有效的恶意改变图像内容的操作。现有的裁剪检测机制分析了图像裁剪的基本痕迹,例如色差和渐晕,以发现种植攻击。但是,它们在常见的后处理攻击方面脆弱,通过删除此类提示,欺骗取证。此外,他们忽略了这样一个事实,即恢复裁剪的内容可以揭示出行为造成攻击的目的。本文提出了一种新型的强大水印方案,用于图像裁剪定位和恢复(CLR-NET)。我们首先通过引入不可察觉的扰动来保护原始图像。然后,模拟典型的图像后处理攻击以侵蚀受保护的图像。在收件人方面,我们预测裁剪面膜并恢复原始图像。我们提出了两个即插即用网络,以改善CLR-NET的现实鲁棒性,即细粒生成性JPEG模拟器(FG-JPEG)和Siamese图像预处理网络。据我们所知,我们是第一个解决图像裁剪本地化和整个图像从片段中恢复的综合挑战的人。实验表明,尽管存在各种类型的图像处理攻击,但CLR-NET可以准确地定位裁剪,并以高质量和忠诚度恢复裁剪区域的细节。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
机器的图像编码(ICM)旨在压缩图像进行AI任务分析,而不是满足人类的看法。学习一种既是一般(用于AI任务)的特征,也是紧凑的(用于压缩)的功能,这对于其成功而言至关重要。在本文中,我们试图通过学习通用功能,同时考虑压缩来开发ICM框架。我们将诸如无所不能功能和相应框架的功能命名为Omni-ICM。考虑到自我监督学习(SSL)提高了特征的概括,我们将其与压缩任务集成到OMNI-ICM框架中,以学习无所不能的功能。但是,在SSL中协调语义建模并在压缩中删除冗余是不平凡的,因此我们通过合作实例区分和熵最小化以自适应掉落的信息来设计新颖的信息过滤(如果)模块,以较弱相关的信息执行AI任务(例如,某些纹理冗余)。与以前的特定解决方案不同,Omni-ICM可以直接基于学习的无能功能的AI任务分析,而无需联合培训或额外的转换。尽管简单而直观,但Omni-ICM在多个基本愿景任务上大大优于现有的传统和基于学习的编解码器。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
深入学习被认为是可逆隐写术的有希望的解决方案。最近的最终学习的发展使得可以通过一对编码器和解码器神经网络绕过隐写操作的多个中间阶段。然而,这一框架是无法保证完美的可逆性,因为这种单片机械难以以黑匣子的形式来学习可逆计算的复杂逻辑。开发基于学习的可逆书签方案的更可靠的方法是通过分裂和征服范例。预测误差调制是一种建立的模块化框架,包括分析模块和编码模块。前者服务于分析像素相关性并预测像素强度,而后者专注于可逆编码机制。鉴于可逆性由编码模块独立管理,我们将专注于将神经网络纳入分析模块。本研究的目的是评估不同培训配置对预测神经网络的影响,并提供实用的见解。背景感知像素强度预测在可逆的隐写术中具有核心作用,并且可以被认为是低级计算机视觉任务。因此,我们可以采用最初为这种计算机视觉任务设计的神经网络模型来执行强度预测。此外,我们严格研究强度初始化对预测性能的影响以及双层预测的分布变换的影响。实验结果表明,通过先进的神经网络模型可以实现最先进的书签性能。
translated by 谷歌翻译
基金标记已广泛用于识别可以通过相机检测到的对象或嵌入式消息。主要是,现有的检测方法假设标记印刷在理想的平面表面上。由于光学/透视失真和运动模糊的各种成像伪像,标记通常无法识别。为了克服这些局限性,我们提出了一个新型的可变形基准标记系统,该系统由三个主要部分组成:首先,基准标记生成器会创建一组自由形式的颜色模式,以在唯一的视觉代码中编码大量的大规模信息。其次,一个可区分的图像模拟器创建了具有变形标记的影像现实主义场景图像的训练数据集,并在优化期间以可区分的方式渲染。渲染的图像包括带有镜面反射,光学失真,散焦和运动模糊,颜色改变,成像噪声以及标记的形状变形的逼真的阴影。最后,训练有素的标记探测器寻求感兴趣的区域,并通过反变形转换同时识别多个标记模式。可变形的标记创建者和探测器网络以端到端的方式通过可区分的光真逼真的渲染器共同优化,使我们能够以高精度来稳健地识别广泛的可变形标记。我们的可变形标记系统能够在〜29 fps中成功解码36位消息,并具有严重的形状变形。结果验证了我们的系统明显优于传统和数据驱动的标记方法。我们基于学习的标记系统打开了基准标记的新有趣应用,包括对人体的成本效益运动捕获,使用我们的基金标记阵列作为结构化的光模式进行主动3D扫描,以及强大的增强现实对象的虚拟物体在动态上进行虚拟对象渲染表面。
translated by 谷歌翻译
当前,借助监督学习方法,基于深度学习的视觉检查已取得了非常成功的成功。但是,在实际的工业场景中,缺陷样本的稀缺性,注释的成本以及缺乏缺陷的先验知识可能会使基于监督的方法无效。近年来,无监督的异常定位算法已在工业检查任务中广泛使用。本文旨在通过深入学习在工业图像中无视无视的异常定位中的最新成就来帮助该领域的研究人员。该调查回顾了120多个重要出版物,其中涵盖了异常定位的各个方面,主要涵盖了所审查方法的各种概念,挑战,分类法,基准数据集和定量性能比较。在审查迄今为止的成就时,本文提供了一些未来研究方向的详细预测和分析。这篇综述为对工业异常本地化感兴趣的研究人员提供了详细的技术信息,并希望将其应用于其他领域的异常本质。
translated by 谷歌翻译
尽管无条件的特征反演是许多图像合成应用的基础,但训练逆变器需要高计算预算,大型解码容量和强加的条件,例如自回旋先验。为了解决这些局限性,我们建议使用对抗强大的表示作为特征反演的感知原始。我们训练一个对抗性稳健的编码器,以提取分离和感知对齐的图像表示,使其容易逆转。通过使用编码器的镜像架构训练简单的发电机,我们实现了优于标准模型的卓越重建质量和概括。基于此,我们提出了一个具有对抗性的自动编码器,并展示了其在样式转移,图像denoisising和异常检测任务方面的改进性能。与最近的Imagenet特征反演方法相比,我们的模型的性能提高了,复杂性的性能明显较小。
translated by 谷歌翻译
对比学习在各种高级任务中取得了显着的成功,但是为低级任务提出了较少的方法。采用VANILLA对比学习技术采用直接为低级视觉任务提出的VANILLA对比度学习技术,因为所获得的全局视觉表现不足以用于需要丰富的纹理和上下文信息的低级任务。在本文中,我们提出了一种用于单图像超分辨率(SISR)的新型对比学习框架。我们从两个视角调查基于对比的学习的SISR:样品施工和特征嵌入。现有方法提出了一些天真的样本施工方法(例如,考虑到作为负样本的低质量输入以及作为正样品的地面真理),并且它们采用了先前的模型(例如,预先训练的VGG模型)来获得该特征嵌入而不是探索任务友好的。为此,我们向SISR提出了一个实用的对比学习框架,涉及在频率空间中产生许多信息丰富的正负样本。我们不是利用其他预先训练的网络,我们设计了一种从鉴别器网络继承的简单但有效的嵌入网络,并且可以用主SR网络迭代优化,使其成为任务最通报。最后,我们对我们的方法进行了广泛的实验评估,与基准方法相比,在目前的最先进的SISR方法中显示出高达0.21 dB的显着增益。
translated by 谷歌翻译
我们从统计依赖性角度接近自我监督的图像表示学习,提出与希尔伯特 - 施密特独立性标准(SSL-HSIC)自我监督的学习。 SSL-HSIC最大化图像和图像标识的变换表示之间的依赖性,同时最小化这些表示的核化方差。该框架产生了对Infonce的新了解,在不同转换之间的相互信息(MI)上的变分下限。虽然已知MI本身具有可能导致学习无意义的表示的病理学,但其绑定表现得更好:我们表明它隐含地近似于SSL-HSIC(具有略微不同的规范器)。我们的方法还向我们深入了解Byol,一种无与伦比的SSL方法,因为SSL-HSIC类似地了解了当地的样本邻居。 SSL-HSIC允许我们在批量大小中直接在时间线性上直接优化统计依赖性,而无需限制数据假设或间接相互信息估计。 SSL-HSIC培训或没有目标网络,SSL-HSIC与Imagenet的标准线性评估相匹配,半监督学习和转移到其他分类和视觉任务,如语义分割,深度估计和对象识别等。代码可在https://github.com/deepmind/ssl_hsic提供。
translated by 谷歌翻译
我们提出了一种保护生成对抗网络(GAN)的知识产权(IP)的水印方法。目的是为GAN模型加水印,以便GAN产生的任何图像都包含一个无形的水印(签名),其在图像中的存在可以在以后的阶段检查以进行所有权验证。为了实现这一目标,在发电机的输出上插入了预先训练的CNN水印解码块。然后通过包括水印损失项来修改发电机损耗,以确保可以从生成的图像中提取规定的水印。水印是通过微调嵌入的,其时间复杂性降低。结果表明,我们的方法可以有效地将无形的水印嵌入生成的图像中。此外,我们的方法是一种通用方法,可以使用不同的GAN体系结构,不同的任务和输出图像的不同分辨率。我们还证明了嵌入式水印的良好鲁棒性能与几个后处理,其中包括JPEG压缩,噪声添加,模糊和色彩转换。
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
基于神经网络的图像压缩已经过度研究。模型稳健性很大程度上被忽视,但它对服务能够实现至关重要。我们通过向原始源图像注入少量噪声扰动来执行对抗攻击,然后使用主要学习的图像压缩模型来编码这些对抗示例。实验报告对逆势实例的重建中的严重扭曲,揭示了现有方法的一般漏洞,无论用于底层压缩模型(例如,网络架构,丢失功能,质量标准)和用于注射扰动的优化策略(例如,噪声阈值,信号距离测量)。后来,我们应用迭代对抗的FineTuning来细化掠夺模型。在每次迭代中,将随机源图像和对抗示例混合以更新底层模型。结果通过大大提高压缩模型稳健性来表明提出的FineTuning策略的有效性。总体而言,我们的方法是简单,有效和更广泛的,使其具有开发稳健的学习图像压缩解决方案的吸引力。所有材料都在HTTPS://njuvision.github.io/trobustn中公开访问,以便可重复研究。
translated by 谷歌翻译
自我监督的视觉学习彻底改变了深度学习,成为域中的下一个重大挑战,并通过大型计算机视觉基准的监督方法迅速缩小了差距。随着当前的模型和培训数据成倍增长,解释和理解这些模型变得关键。我们研究了视力任务的自我监督学习领域中可解释的人工智能的问题,并提出了了解经过自学训练的网络及其内部工作的方法。鉴于自我监督的视觉借口任务的巨大多样性,我们缩小了对理解范式的关注,这些范式从同一图像的两种观点中学习,主要是旨在了解借口任务。我们的工作重点是解释相似性学习,并且很容易扩展到所有其他借口任务。我们研究了两个流行的自我监督视觉模型:Simclr和Barlow Twins。我们总共开发了六种可视化和理解这些模型的方法:基于扰动的方法(条件闭塞,上下文无形的条件闭塞和成对的闭塞),相互作用-CAM,特征可视化,模型差异可视化,平均变换和像素无形。最后,我们通过将涉及单个图像的监督图像分类系统量身定制的众所周知的评估指标来评估这些解释,并将其涉及两个图像的自我监督学习领域。代码为:https://github.com/fawazsammani/xai-ssl
translated by 谷歌翻译
Apple最近透露了它的深度感知散列系统的神经枢纽,以检测文件在文件上传到其iCloud服务之前的用户设备上的儿童性滥用材料(CSAM)。关于保护用户隐私和系统可靠性的公众批评很快就会出现。本文基于神经枢纽的深度感知哈希展示了第一综合实证分析。具体而言,我们表明当前深度感知散列可能不具有稳健性。对手可以通过应用图像的略微变化来操纵散列值,或者通过基于梯度的方法或简单地执行标准图像转换,强制或预防哈希冲突来操纵。这种攻击允许恶意演员轻松利用检测系统:从隐藏滥用材料到框架无辜的用户,一切都是可能的。此外,使用散列值,仍然可以对存储在用户设备上的数据进行推断。在我们的观点中,根据我们的结果,其目前形式的深度感知散列通常不适用于强大的客户端扫描,不应从隐私角度使用。
translated by 谷歌翻译
Although deep neural networks (DNNs) have achieved great success in many tasks, they can often be fooled by adversarial examples that are generated by adding small but purposeful distortions to natural examples. Previous studies to defend against adversarial examples mostly focused on refining the DNN models, but have either shown limited success or required expensive computation. We propose a new strategy, feature squeezing, that can be used to harden DNN models by detecting adversarial examples. Feature squeezing reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. By comparing a DNN model's prediction on the original input with that on squeezed inputs, feature squeezing detects adversarial examples with high accuracy and few false positives.This paper explores two feature squeezing methods: reducing the color bit depth of each pixel and spatial smoothing. These simple strategies are inexpensive and complementary to other defenses, and can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks.
translated by 谷歌翻译