It is no secret that deep learning models exhibit undesirable behaviors such as learning spurious correlations instead of learning correct relationships between input/output pairs. Prior works on robustness study datasets that mix low-level features to quantify how spurious correlations affect predictions instead of considering natural semantic factors due to limitations in accessing realistic datasets for comprehensive evaluation. To bridge this gap, in this paper we first investigate how natural background colors play a role as spurious features in image classification tasks by manually splitting the test sets of CIFAR10 and CIFAR100 into subgroups based on the background color of each image. We name our datasets CIFAR10-B and CIFAR100-B. We find that while standard CNNs achieve human-level accuracy, the subgroup performances are not consistent, and the phenomenon remains even after data augmentation (DA). To alleviate this issue, we propose FlowAug, a semantic DA method that leverages the decoupled semantic representations captured by a pre-trained generative flow. Experimental results show that FlowAug achieves more consistent results across subgroups than other types of DA methods on CIFAR10 and CIFAR100. Additionally, it shows better generalization performance. Furthermore, we propose a generic metric for studying model robustness to spurious correlations, where we take a macro average on the weighted standard deviations across different classes. Per our metric, FlowAug demonstrates less reliance on spurious correlations. Although this metric is proposed to study our curated datasets, it applies to all datasets that have subgroups or subclasses. Lastly, aside from less dependence on spurious correlations and better generalization on in-distribution test sets, we also show superior out-of-distribution results on CIFAR10.1 and competitive performances on CIFAR10-C and CIFAR100-C.
translated by 谷歌翻译
It is well established in neuroscience that color vision plays an essential part in the human visual perception system. Meanwhile, many novel designs for computer vision inspired by human vision have achieved success in a wide range of tasks and applications. Nonetheless, how color differences affect machine vision has not been well explored. Our work tries to bridge this gap between the human color vision aspect of visual recognition and that of the machine. To achieve this, we curate two datasets: CIFAR10-F and CIFAR100-F, which are based on the foreground colors of the popular CIFAR datasets. Together with CIFAR10-B and CIFAR100-B, the existing counterpart datasets with information on the background colors of CIFAR test sets, we assign each image based on its color contrast level per its foreground and background color labels and use this as a proxy to study how color contrast affects machine vision. We first conduct a proof-of-concept study, showing the effect of color difference and validate our datasets. Furthermore, on a broader level, an important characteristic of human vision is its robustness against ambient changes; therefore, drawing inspirations from ophthalmology and the robustness literature, we analogize contrast sensitivity from the human visual aspect to machine vision and complement the current robustness study using corrupted images with our CIFAR-CoCo datasets. In summary, motivated by neuroscience and equipped with the datasets we curate, we devise a new framework in two dimensions to perform extensive analyses on the effect of color contrast and corrupted images: (1) model architecture, (2) model size, to measure the perception ability of machine vision beyond total accuracy. We also explore how task complexity and data augmentation play a role in this setup. Our results call attention to new evaluation approaches for human-like machine perception.
translated by 谷歌翻译
数据增强是一种提高深神经网络(DNN)的鲁棒性的简单而有效的方法。多样性和硬度是数据增强的两个互补维度,以实现稳健性。例如,Augmix探讨了各种增强套的随机组成,以增强更广泛的覆盖,而对抗性培训产生过态度硬质样品以发现弱点。通过此激励,我们提出了一个数据增强框架,被称为奥古曼克,统一多样性和硬度的两个方面。 Augmax首先将多个增强运算符进行随机样本,然后学习所选操作员的对抗性混合物。作为更强大的数据增强形式,奥格梅纳队导致了一个明显的增强输入分布,使模型培训更具挑战性。为了解决这个问题,我们进一步设计了一个解散的归一化模块,称为Dubin(双批次和实例规范化),其解除了奥古曼克斯出现的实例 - 明智的特征异质性。实验表明,Augmax-Dubin将显着改善分配的鲁棒性,优于现有技术,在CiFar10-C,CiFar100-C,微小Imagenet-C和Imagenet-C上以3.03%,3.49%,1.82%和0.71%。可提供代码和预磨料模型:https://github.com/vita-group/augmax。
translated by 谷歌翻译
经过认证的稳健性保证衡量模型对测试时间攻击的稳健性,并且可以评估模型对现实世界中部署的准备情况。在这项工作中,我们批判性地研究了对基于随机平滑的认证方法的对抗鲁棒性如何在遇到配送外(OOD)数据的最先进的鲁棒模型时改变。我们的分析显示了这些模型的先前未知的漏洞,以低频OOD数据,例如与天气相关的损坏,使这些模型不适合在野外部署。为了缓解这个问题,我们提出了一种新的数据增强方案,Fourimix,产生增强以改善训练数据的光谱覆盖范围。此外,我们提出了一种新规范器,鼓励增强数据的噪声扰动的一致预测,以提高平滑模型的质量。我们发现Fouriermix增强有助于消除可认真强大的模型的频谱偏差,使其能够在一系列ood基准上实现明显更好的稳健性保证。我们的评估还在突出模型的光谱偏差时揭示了当前的OOD基准。为此,我们提出了一个全面的基准套件,其中包含来自光谱域中不同区域的损坏。对拟议套件上流行的增强方法培训的模型的评估突出了它们的光谱偏差,并建立了富硫克斯训练型模型在实现整个频谱上变化下的更好认证的鲁棒性担保的优势。
translated by 谷歌翻译
分发班次的稳健性对于部署现实世界中的机器学习模型至关重要。尽管如此必要的,但在定义导致这些变化的潜在机制以及评估跨多个不同的分发班次的稳健性的潜在机制很少。为此,我们介绍了一种框架,可实现各种分布换档的细粒度分析。我们通过评估在合成和现实世界数据集中分为五个类别的19个不同的方法来提供对当前最先进的方法的整体分析。总的来说,我们训练超过85架模型。我们的实验框架可以很容易地扩展到包括新方法,班次和数据集。我们发现,与以前的工作〜\ citep {gulrajani20}不同,该进度已经通过标准的ERM基线进行;特别是,在许多情况下,预先训练和增强(学习或启发式)提供了大的收益。但是,最好的方法在不同的数据集和班次上不一致。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
我们提出了自适应培训 - 一种统一的培训算法,通过模型预测动态校准并增强训练过程,而不会产生额外的计算成本 - 以推进深度神经网络的监督和自我监督的学习。我们分析了培训数据的深网络培训动态,例如随机噪声和对抗例。我们的分析表明,模型预测能够在数据中放大有用的基础信息,即使在没有任何标签信息的情况下,这种现象也会发生,突出显示模型预测可能会产生培训过程:自适应培训改善了深网络的概括在噪音下,增强自我监督的代表学习。分析还阐明了解深度学习,例如,在经验风险最小化和最新的自我监督学习算法的折叠问题中对最近发现的双重现象的潜在解释。在CIFAR,STL和Imagenet数据集上的实验验证了我们在三种应用中的方法的有效性:用标签噪声,选择性分类和线性评估进行分类。为了促进未来的研究,该代码已在HTTPS://github.com/layneh/Self-Aveptive-训练中公开提供。
translated by 谷歌翻译
最近,可以证明,部署适当的自学意义是增强监督学习表现的前瞻性方法。然而,由于以前的借口任务专门用于无监督的代表学习,因此并未完全利用自我意识的好处。为此,我们首先为此类辅助任务提供三个理想的属性,以协助监督目标。首先,任务需要指导模型学习丰富的功能。其次,涉及的自我规定的转换不应显着改变训练分布。第三,任务是对先前艺术的高适用性的轻便和通用。随后,为了展示现有的借口任务如何实现这些任务并针对监督学习量身定制,我们提出了一个简单的辅助自学任务,可以预测可本地化的旋转(LOROT)。我们的详尽实验验证了洛洛特(Lorot)的优点,这是根据稳健性和概括能力为监督学习量身定制的借口任务。我们的代码可在https://github.com/wjun0830/localizable-rotation上找到。
translated by 谷歌翻译
机器学习模型容易受到分数过失(OOD)的示例,这种问题引起了很多关注。但是,当前的方法缺乏对不同类型的OOD数据的完全理解:有一些良性的OOD数据可以适当地适应以增强学习性能,而其他MALIGN OOD数据将严重地退化分类结果。为了利用数据,本文提出了引擎盖方法,该方法可以利用每个图像实例中的内容和样式来识别良性和恶意数据。特别是,我们通过构建结构性因果模型来设计一个变异推理框架,以使因果关系和样式特征。随后,我们通过干预过程分别提高内容和样式,分别产生恶性和良性OOD数据。良性的OOD数据包含新型样式,但持有我们感兴趣的内容,并且可以利用它们来帮助培训风格不变的模型。相比之下,MALIGN OOD数据继承了未知内容,但通过检测它们可以提高模型的稳健性,以抗欺骗异常。得益于拟议的新型解开和数据增强技术,Hood可以有效地处理未知和开放环境中的OOD示例,在三个典型的OOD应用程序中,其有效性在包括OOD检测,开放设定的半监督学习和开放设定的三个典型OOD应用程序中得到了验证域适应。
translated by 谷歌翻译
分数(OOD)学习涉及培训和测试数据遵循不同分布的方案。尽管在机器学习中已经深入研究了一般的OOD问题,但图形OOD只是一个新兴领域。目前,缺少针对图形OOD方法评估的系统基准。在这项工作中,我们旨在为图表开发一个被称为GOOD的OOD基准。我们明确地在协变量和概念变化和设计数据拆分之间进行了区分,以准确反映不同的变化。我们考虑图形和节点预测任务,因为在设计变化时存在关键差异。总体而言,Good包含8个具有14个域选择的数据集。当与协变量,概念和无移位结合使用时,我们获得了42个不同的分裂。我们在7种常见的基线方法上提供了10种随机运行的性能结果。这总共导致294个数据集模型组合。我们的结果表明,分布和OOD设置之间的性能差距很大。我们的结果还阐明了通过不同方法的协变量和概念转移之间的不同性能趋势。我们的良好基准是一个不断增长的项目,并希望随着该地区的发展,数量和种类繁多。可以通过$ \ href {https://github.com/divelab/good/} {\ text {https://github.com/divelab/good/good/}} $访问良好基准。
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
现有的一些作品分别研究深神经网络的对抗或自然分布鲁棒性。但是,实际上,模型需要享受两种类型的鲁棒性,以确保可靠性。在这项工作中,我们弥合了这一差距,并表明实际上,对抗性和自然分配鲁棒性之间存在明确的权衡。我们首先考虑具有与核心和虚假功能不相交的高斯数据上的简单线性回归设置。在这种情况下,通过理论和经验分析,我们表明(i)使用$ \ ell_1 $和$ \ ell_2 $规范的对抗性培训增加了对虚假功能的模型依赖; (ii)对于$ \ ell_ \ infty $ versarial训练,仅在伪造功能的比例大于核心功能的范围时才会出现伪造的依赖; (iii)对抗训练可能会在降低分布鲁棒性方面具有意外的后果,特别是当新的测试域中更改虚假相关性时。接下来,我们使用二十个经过对抗训练的模型的测试套件提出了广泛的经验证据受过训练的对应物,验证了我们的理论结果。我们还表明,训练数据中的虚假相关性(保留在测试域中)可以改善对抗性的鲁棒性,表明先前的主张表明对抗性脆弱性植根于虚假相关性是不完整的。
translated by 谷歌翻译
已知现代深度神经网络模型将错误地将分布式(OOD)测试数据分类为具有很高信心的分数(ID)培训课程之一。这可能会对关键安全应用产生灾难性的后果。一种流行的缓解策略是训练单独的分类器,该分类器可以在测试时间检测此类OOD样本。在大多数实际设置中,在火车时间尚不清楚OOD的示例,因此,一个关键问题是:如何使用合成OOD样品来增加ID数据以训练这样的OOD检测器?在本文中,我们为称为CNC的OOD数据增强提出了一种新颖的复合腐败技术。 CNC的主要优点之一是,除了培训集外,它不需要任何固定数据。此外,与当前的最新技术(SOTA)技术不同,CNC不需要在测试时间进行反向传播或结合,从而使我们的方法在推断时更快。我们与过去4年中主要会议的20种方法进行了广泛的比较,表明,在OOD检测准确性和推理时间方面,使用基于CNC的数据增强训练的模型都胜过SOTA。我们包括详细的事后分析,以研究我们方法成功的原因,并确定CNC样本的较高相对熵和多样性是可能的原因。我们还通过对二维数据集进行零件分解分析提供理论见解,以揭示(视觉和定量),我们的方法导致ID类别周围的边界更紧密,从而更好地检测了OOD样品。源代码链接:https://github.com/cnc-ood
translated by 谷歌翻译
卷积神经网络(CNN)在基准数据集上实现了出色的分割精度,在该数据集中,训练和测试集来自同一领域,但它们的性能可以大大降低看不见的域,这阻碍了CNN在许多临床场景中的部署。大多数现有作品通过收集多域数据集进行培训来改善模型外(OOD)的鲁棒性,这很昂贵,由于隐私和后勤问题,这很昂贵,可能并不总是可行的。在这项工作中,我们专注于仅使用单域数据集提高模型鲁棒性。我们提出了一个名为MaxStyle的新型数据增强框架,该框架最大程度地提高了模型OOD性能的样式增强功能。它将辅助风格的图像解码器附加到用于鲁棒特征学习和数据增强的分割网络。重要的是,MaxStyle通过通过噪音扩大样式空间并通过对抗性训练来扩大样式空间并搜索潜在特征的最差案例样式组成,从而增强了图像样式多样性和硬度的增强数据。通过对多个公共心脏和前列腺MR数据集进行了广泛的实验,我们证明了MaxStyle可显着改善对看不见的腐败的稳健性,以及在两个低 - 不知名的位点和未知的图像序列之间的共同分布变化以及共同的分布变化。和高训练数据设置。可以在https://github.com/cherise215/maxstyle上找到该代码。
translated by 谷歌翻译
现代神经网络Excel在图像分类中,但它们仍然容易受到常见图像损坏,如模糊,斑点噪音或雾。最近的方法关注这个问题,例如Augmix和Deepaulment,引入了在预期运行的防御,以期望图像损坏分布。相比之下,$ \ ell_p $ -norm界限扰动的文献侧重于针对最坏情况损坏的防御。在这项工作中,我们通过提出防范内人来调和两种方法,这是一种优化图像到图像模型的参数来产生对外损坏的增强图像的技术。我们理论上激发了我们的方法,并为其理想化版本的一致性以及大纲领提供了足够的条件。我们的分类机器在预期对CiFar-10-C进行的常见图像腐败基准上提高了最先进的,并改善了CIFAR-10和ImageNet上的$ \ ell_p $ -norm有界扰动的最坏情况性能。
translated by 谷歌翻译
深度网络模型在配送(ID)数据上卓越地表现,但可以显着失败,在分销(OOD)数据上。虽然开发方法专注于改善ood泛化,但已经有很少的注意力来评估模型以处理ood数据的能力。本研究致力于分析实验ID试验和设计ood试验范式的问题,以准确评估实际性能。我们的分析基于引入的三种类型的分配转移来基于为生成ood数据进行分类。主要观察包括:(1)ID测试既不反映单个型号的实际性能也没有比较OOD数据下的不同模型。 (2)ID试验失败可以归因于所学到的边际和有条件的杂散相关性来自相应的分布换档。基于此,我们提出了新的OOD测试范式来评估模型的概念化能力,以说明数据,并讨论如何使用OCT测试结果来查找模型的错误以指导模型调试。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
最近证明,接受SGD训练的神经网络优先依赖线性预测的特征,并且可以忽略复杂的,同样可预测的功能。这种简单性偏见可以解释他们缺乏分布(OOD)的鲁棒性。学习任务越复杂,统计工件(即选择偏见,虚假相关性)的可能性就越大比学习的机制更简单。我们证明可以减轻简单性偏差并改善了OOD的概括。我们使用对其输入梯度对齐的惩罚来训练一组类似的模型以不同的方式拟合数据。我们从理论和经验上展示了这会导致学习更复杂的预测模式的学习。 OOD的概括从根本上需要超出I.I.D.示例,例如多个培训环境,反事实示例或其他侧面信息。我们的方法表明,我们可以将此要求推迟到独立的模型选择阶段。我们获得了SOTA的结果,可以在视觉域偏置数据和概括方面进行视觉识别。该方法 - 第一个逃避简单性偏见的方法 - 突出了需要更好地理解和控制深度学习中的归纳偏见。
translated by 谷歌翻译
尽管最近通过剩余网络的代表学习中的自我监督方法取得了进展,但它们仍然对ImageNet分类基准进行了高度的监督学习,限制了它们在性能关键设置中的适用性。在MITROVIC等人的现有理论上洞察中建立2021年,我们提出了RELICV2,其结合了明确的不变性损失,在各种适当构造的数据视图上具有对比的目标。 Relicv2在ImageNet上实现了77.1%的前1个分类准确性,使用线性评估使用Reset50架构和80.6%,具有较大的Reset型号,优于宽边缘以前的最先进的自我监督方法。最值得注意的是,RelicV2是使用一系列标准Reset架构始终如一地始终优先于类似的对比较中的监督基线的第一个表示学习方法。最后,我们表明,尽管使用Reset编码器,Relicv2可与最先进的自我监控视觉变压器相媲美。
translated by 谷歌翻译
机器学习模型与虚假相关性的脆弱性主要在监督学习(SL)的背景下进行了讨论。但是,缺乏对虚假相关性如何影响流行的自学学习(SSL)和基于自动编码器模型(AE)的表现的见解。在这项工作中,我们通过评估这些模型在现实世界和合成分配变化数据集上的性能来阐明这一点。在观察到线性头可能容易受到虚假相关性的观察之后,我们使用对分布外(OOD)数据训练的线性头制定了一种新颖的评估方案,以将预训练模型的性能隔离为潜在的偏差用于评估的线性头。通过这种新方法,我们表明SSL模型始终比AE和SL模型在OOD概括方面始终更健壮,因此在OOD概括方面更好。
translated by 谷歌翻译