数据失真通常在训练期间(例如混合和cutmix)和评估(例如形状纹理偏见和鲁棒性)中通常应用于视觉模型。此数据修改可以引入人造信息。通常认为所产生的人工制品对训练有害,而在分析模型时可以忽略不计。我们研究了这些假设,并得出结论,在某些情况下它们是毫无根据的,并导致结果不正确。具体而言,我们显示了当前的形状偏差识别方法和遮挡鲁棒性测量是有偏见的,并提出了后者的更公平的替代方法。随后,通过一系列实验,我们试图纠正和加强社区对增强如何影响视觉模型学习的看法。基于我们的经验结果,我们认为必须理解和利用人工制品的影响,而不是被消除。
translated by 谷歌翻译
社区缺乏理论知识的建立良好数据集的指导方针。我们分析了与数据相关的哪些方面有关的理论方向,并得出结论,从现有文献中导出的直觉是不正确和误导性的。使用经验反例,我们显示1)数据维度不一定是最小化的,2)在操纵数据时,保留分布是非必要的。这需要更具数据感知的理论理解。虽然在这项工作中没有探索,但我们建议研究数据修改对学习表现的影响,作为有前途的研究方向。
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
Overfitting is a problem in Convolutional Neural Networks (CNN) that causes poor generalization of models on unseen data. To remediate this problem, many new and diverse data augmentation methods (DA) have been proposed to supplement or generate more training data, and thereby increase its quality. In this work, we propose a new data augmentation algorithm: VoronoiPatches (VP). We primarily utilize non-linear recombination of information within an image, fragmenting and occluding small information patches. Unlike other DA methods, VP uses small convex polygon-shaped patches in a random layout to transport information around within an image. Sudden transitions created between patches and the original image can, optionally, be smoothed. In our experiments, VP outperformed current DA methods regarding model variance and overfitting tendencies. We demonstrate data augmentation utilizing non-linear re-combination of information within images, and non-orthogonal shapes and structures improves CNN model robustness on unseen data.
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
缺失或缺乏输入功能,是许多模型调试工具的基础概念。但是,在计算机视觉中,不能简单地从图像中删除像素。因此,一种倾向于诉诸启发式方法,例如涂黑像素,这反过来又可能引入调试过程中的偏见。我们研究了这样的偏见,特别是展示了基于变压器的架构如何使遗失性更自然地实施,哪些侧架来侧翼这些问题并提高了实践中模型调试的可靠性。我们的代码可从https://github.com/madrylab/missingness获得
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
我们提供了各种图像分类体系结构(卷积,视觉变压器和完全连接的MLP网络)和数据增强技术的详细评估。我们进行以下观察结果:(a)在没有数据增强的情况下,所有体系结构,包括卷积网络在翻译测试分布中评估时的性能下降。可以理解的是,对于非跨跨结构,分配准确性以及降解对变化都明显较差。 (b)在所有体系结构中,即使是$ 4 $ PIXEL随机农作物的最小增强也可以提高性能的稳健性,从而在测试数据中更大的图像大小($ 8 $ - $ 16 $像素)的更大幅度转移 - - 提出一种从增强性的元概括形式。对于非横线架构,虽然绝对精度仍然很低,但我们看到稳健性对大型翻译转移的稳定性有了显着改善。 (c)具有足够高级的增强($ 4 $ PIXEL CROP+RANDAGEMTANTY+RASANing+Mixup)管道,所有架构都可以训练以具有竞争性能,无论是在分发精度以及对大型翻译转移的推广方面。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
Modern deep neural networks can achieve high accuracy when the training distribution and test distribution are identically distributed, but this assumption is frequently violated in practice. When the train and test distributions are mismatched, accuracy can plummet. Currently there are few techniques that improve robustness to unforeseen data shifts encountered during deployment. In this work, we propose a technique to improve the robustness and uncertainty estimates of image classifiers. We propose AUGMIX, a data processing technique that is simple to implement, adds limited computational overhead, and helps models withstand unforeseen corruptions. AUGMIX significantly improves robustness and uncertainty measures on challenging image classification benchmarks, closing the gap between previous methods and the best possible performance in some cases by more than half.
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
我们介绍了几个新的数据集即想象的A / O和Imagenet-R以及合成环境和测试套件,我们称为CAOS。 Imagenet-A / O允许研究人员专注于想象成剩余的盲点。由于追踪稳健的表示,以特殊创建了ImageNet-R,因为表示不再简单地自然,而是包括艺术和其他演绎。 Caos Suite由Carla Simulator构建,允许包含异常物体,可以创建可重复的合成环境和用于测试稳健性的场景。所有数据集都是为测试鲁棒性和衡量鲁棒性的衡量进展而创建的。数据集已用于各种其他作品中,以衡量其具有鲁棒性的自身进步,并允许切向进展,这些进展不会完全关注自然准确性。鉴于这些数据集,我们创建了几种旨在推进鲁棒性研究的新方法。我们以最大Logit的形式和典型程度的形式构建简单的基线,并以深度的形式创建新的数据增强方法,从而提高上述基准。最大Logit考虑Logit值而不是SoftMax操作后的值,而微小的变化会产生明显的改进。典型程分将输出分布与类的后部分布进行比较。我们表明,除了分段任务之外,这将提高对基线的性能。猜测可能在像素级别,像素的语义信息比类级信息的语义信息不太有意义。最后,新的Deepaulment的新增强技术利用神经网络在彻底不同于先前使用的传统几何和相机的转换的图像上创建增强。
translated by 谷歌翻译
Training generative adversarial networks (GAN) using too little data typically leads to discriminator overfitting, causing training to diverge. We propose an adaptive discriminator augmentation mechanism that significantly stabilizes training in limited data regimes. The approach does not require changes to loss functions or network architectures, and is applicable both when training from scratch and when fine-tuning an existing GAN on another dataset. We demonstrate, on several datasets, that good results are now possible using only a few thousand training images, often matching StyleGAN2 results with an order of magnitude fewer images. We expect this to open up new application domains for GANs. We also find that the widely used CIFAR-10 is, in fact, a limited data benchmark, and improve the record FID from 5.59 to 2.42.
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
对抗性训练遭受了稳健的过度装备,这是一种现象,在训练期间鲁棒测试精度开始减少。在本文中,我们专注于通过使用常见的数据增强方案来减少强大的过度装备。我们证明,与先前的发现相反,当与模型重量平均结合时,数据增强可以显着提高鲁棒精度。此外,我们比较各种增强技术,并观察到空间组合技术适用于对抗性培训。最后,我们评估了我们在Cifar-10上的方法,而不是$ \ ell_ indty $和$ \ ell_2 $ norm-indeded扰动分别为尺寸$ \ epsilon = 8/255 $和$ \ epsilon = 128/255 $。与以前的最先进的方法相比,我们表现出+ 2.93%的绝对改善+ 2.93%,+ 2.16%。特别是,反对$ \ ell_ infty $ norm-indeded扰动尺寸$ \ epsilon = 8/255 $,我们的模型达到60.07%的强劲准确性而不使用任何外部数据。我们还通过这种方法实现了显着的性能提升,同时使用其他架构和数据集如CiFar-100,SVHN和TinyimageNet。
translated by 谷歌翻译
用于计算机视觉任务的深度神经网络在越来越安全 - 严重和社会影响的应用中部署,激励需要在各种,天然存在的成像条件下关闭模型性能的差距。在包括对抗机器学习的多种上下文中尤为色难地使用的鲁棒性,然后指在自然诱导的图像损坏或改变下保持模型性能。我们进行系统审查,以识别,分析和总结当前定义以及对计算机愿景深度学习中的非对抗鲁棒性的进展。我们发现,该研究领域已经收到了相对于对抗机器学习的不成比例地注意力,但存在显着的稳健性差距,这些差距通常表现在性能下降中与对抗条件相似。为了在上下文中提供更透明的稳健性定义,我们引入了数据生成过程的结构因果模型,并将非对抗性鲁棒性解释为模型在损坏的图像上的行为,其对应于来自未纳入数据分布的低概率样本。然后,我们确定提高神经网络鲁棒性的关键架构,数据增强和优化策略。这种稳健性的这种因果观察表明,目前文献中的常见做法,关于鲁棒性策略和评估,对应于因果概念,例如软干预导致成像条件的决定性分布。通过我们的调查结果和分析,我们提供了对未来研究如何可能介意这种明显和显着的非对抗的鲁棒性差距的观点。
translated by 谷歌翻译
我们识别普遍对抗扰动(UAP)的性质,将它们与标准的对抗性扰动区分开来。具体而言,我们表明,由投影梯度下降产生的靶向UAPS表现出两种人对齐的特性:语义局部性和空间不变性,标准的靶向对抗扰动缺乏。我们还证明,除标准对抗扰动之外,UAPS含有明显较低的泛化信号 - 即,UAPS在比标准的对抗的扰动的较小程度上利用非鲁棒特征。
translated by 谷歌翻译
我们向您展示一次(YOCO)进行数据增强。 Yoco将一张图像切成两片,并在每件零件中单独执行数据增强。应用YOCO改善了每个样品的增强的多样性,并鼓励神经网络从部分信息中识别对象。 Yoco享受无参数,轻松使用的属性,并免费提供几乎所有的增强功能。进行了彻底的实验以评估其有效性。我们首先证明Yoco可以无缝地应用于不同的数据增强,神经网络体系结构,并在CIFAR和Imagenet分类任务上带来性能提高,有时会超过传统的图像级增强。此外,我们显示了Yoco益处对比的预培训,以更强大的表示,可以更好地转移到多个下游任务。最后,我们研究了Yoco的许多变体,并经验分析了各个设置的性能。代码可在GitHub上找到。
translated by 谷歌翻译