本文增加了基于基准的基本工作,基于深度学习(DL)分类器的鲁棒性。我们创新了一种新的基准测试方法,以评估DL分类器的稳健性。此外,我们介绍了一种新的四象限统计可视化工具,包括最小精度,最大精度,平均准确性和变异系数,用于基准DL分类器的鲁棒性。为了测量强大的DL分类器,我们创建了一个全面的69个基准测试图像集,包括一个清洁集合,单因素扰动设置,并设置具有双因素扰动条件。收集实验结果后,我们首先报告使用双因素扰动图像提高了DL分类器的鲁棒性和准确性。双因素扰动包括(1)在两个序列中施加的两种数字扰动(盐和辣椒噪声和高斯噪声),​​(2)在两个序列中施加的一个数字扰动(盐和胡椒噪声)和几何扰动(旋转) 。所有源代码,相关图像集和初步数据,数字都在GitHub网站上共享,以支持未来的学术研究和行业项目。 Web资源位于https://github.com/caperock/robustai
translated by 谷歌翻译
In this paper we establish rigorous benchmarks for image classifier robustness. Our first benchmark, IMAGENET-C, standardizes and expands the corruption robustness topic, while showing which classifiers are preferable in safety-critical applications. Then we propose a new dataset called IMAGENET-P which enables researchers to benchmark a classifier's robustness to common perturbations. Unlike recent robustness research, this benchmark evaluates performance on common corruptions and perturbations not worst-case adversarial perturbations. We find that there are negligible changes in relative corruption robustness from AlexNet classifiers to ResNet classifiers. Afterward we discover ways to enhance corruption and perturbation robustness. We even find that a bypassed adversarial defense provides substantial common perturbation robustness. Together our benchmarks may aid future work toward networks that robustly generalize.
translated by 谷歌翻译
在为临床应用设计诊断模型时,至关重要的是要确保模型在各种图像损坏方面的稳健性。在此,建立了易于使用的基准,以评估神经网络在损坏的病理图像上的性能。具体而言,通过将九种类型的常见损坏注入验证图像来生成损坏的图像。此外,两个分类和一个排名指标旨在评估腐败下的预测和信心表现。在两个结果的基准数据集上进行了评估,我们发现(1)各种深神经网络模型的准确性降低(两倍是清洁图像上的误差的两倍)和对损坏图像的不可靠置信度估计; (2)验证和测试错误之间的相关性较低,同时用我们的基准替换验证集可以增加相关性。我们的代码可在https://github.com/superjamessyx/robustness_benchmark上找到。
translated by 谷歌翻译
对共同腐败的稳健性的文献表明对逆势培训是否可以提高这种环境的性能,没有达成共识。 First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions improving both accuracy and calibration.然后,我们解释了为什么对抗性训练比具有简单高斯噪声的数据增强更好地表现,这被观察到是对共同腐败的有意义的基线。与此相关,我们确定了高斯增强过度适用于用于培训的特定标准偏差的$ \ sigma $ -oviting现象,这对培训具有显着不利影响的普通腐败精度。我们讨论如何缓解这一问题,然后如何通过学习的感知图像贴片相似度引入对抗性训练的有效放松来进一步增强$ \ ell_p $普发的培训。通过对CiFar-10和Imagenet-100的实验,我们表明我们的方法不仅改善了$ \ ell_p $普发的培训基线,而且还有累积的收益与Augmix,Deepaulment,Ant和Sin等数据增强方法,导致普通腐败的最先进的表现。我们的实验代码在HTTPS://github.com/tml-epfl/adv-training - 窗子上公开使用。
translated by 谷歌翻译
鲁棒性是机器学习(ML)分类器的基本支柱,实质上确定了它们的可靠性。因此,评估分类器鲁棒性的方法至关重要。在这项工作中,我们解决了评估腐败鲁棒性的挑战,该方式允许在给定数据集上可比性和解释性。我们提出了一种测试数据增强方法,该方法使用稳健性距离$ \ epsilon $从数据集中衍生的最小类分隔距离。由此产生的MSCR(平均统计损坏鲁棒性)允许对不同分类器在腐败鲁棒性方面进行特定于数据集的比较。 MSCR值是可以解释的,因为它代表了由于统计损坏而避免了准确性损失的分类器。在2D和图像数据上,我们表明度量标准反映了分类器鲁棒性的不同级别。此外,我们通过训练和测试不同级别的噪声测试分类器观察到分类器中意外的最佳精度。虽然研究人员经常在训练健壮的模型时经常报道准确性的重大权衡,但我们加强了这样一种观点,即准确性和腐败鲁棒性之间的权衡并不是固有的。我们的结果表明,通过简单数据增强,稳健性训练已经可以稍微提高准确性。
translated by 谷歌翻译
We study how robust current ImageNet models are to distribution shifts arising from natural variations in datasets. Most research on robustness focuses on synthetic image perturbations (noise, simulated weather artifacts, adversarial examples, etc.), which leaves open how robustness on synthetic distribution shift relates to distribution shift arising in real data. Informed by an evaluation of 204 ImageNet models in 213 different test conditions, we find that there is often little to no transfer of robustness from current synthetic to natural distribution shift. Moreover, most current techniques provide no robustness to the natural distribution shifts in our testbed. The main exception is training on larger and more diverse datasets, which in multiple cases increases robustness, but is still far from closing the performance gaps. Our results indicate that distribution shifts arising in real data are currently an open research problem. We provide our testbed and data as a resource for future work at https://modestyachts.github.io/imagenet-testbed/.
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
Deep neural networks achieve high prediction accuracy when the train and test distributions coincide. In practice though, various types of corruptions occur which deviate from this setup and cause severe performance degradations. Few methods have been proposed to address generalization in the presence of unforeseen domain shifts. In particular, digital noise corruptions arise commonly in practice during the image acquisition stage and present a significant challenge for current robustness approaches. In this paper, we propose a diverse Gaussian noise consistency regularization method for improving robustness of image classifiers under a variety of noise corruptions while still maintaining high clean accuracy. We derive bounds to motivate and understand the behavior of our Gaussian noise consistency regularization using a local loss landscape analysis. We show that this simple approach improves robustness against various unforeseen noise corruptions by 4.2-18.4% over adversarial training and other strong diverse data augmentation baselines across several benchmarks. Furthermore, when combined with state-of-the-art diverse data augmentation techniques, experiments against state-of-the-art show our method further improves robustness accuracy by 3.7% and uncertainty calibration by 5.5% for all common corruptions on several image classification benchmarks.
translated by 谷歌翻译
现代神经网络Excel在图像分类中,但它们仍然容易受到常见图像损坏,如模糊,斑点噪音或雾。最近的方法关注这个问题,例如Augmix和Deepaulment,引入了在预期运行的防御,以期望图像损坏分布。相比之下,$ \ ell_p $ -norm界限扰动的文献侧重于针对最坏情况损坏的防御。在这项工作中,我们通过提出防范内人来调和两种方法,这是一种优化图像到图像模型的参数来产生对外损坏的增强图像的技术。我们理论上激发了我们的方法,并为其理想化版本的一致性以及大纲领提供了足够的条件。我们的分类机器在预期对CiFar-10-C进行的常见图像腐败基准上提高了最先进的,并改善了CIFAR-10和ImageNet上的$ \ ell_p $ -norm有界扰动的最坏情况性能。
translated by 谷歌翻译
野外的深度学习(DL)的成功采用需要模型:(1)紧凑,(2)准确,(3)强大的分布换档。不幸的是,同时满足这些要求的努力主要是不成功的。这提出了一个重要问题:无法创建紧凑,准确,强大的深神经网络(卡)基础?为了回答这个问题,我们对流行的模型压缩技术进行了大规模分析,该技术揭示了几种有趣模式。值得注意的是,与传统的修剪方法相比(例如,微调和逐渐修剪),我们发现“彩票式风格”方法令人惊讶地用于生产卡,包括二进制牌。具体而言,我们能够创建极其紧凑的卡,与其较大的对应物相比,具有类似的测试精度和匹配(或更好)的稳健性 - 仅通过修剪和(可选)量化。利用卡的紧凑性,我们开发了一种简单的域 - 自适应测试时间合并方法(卡片 - 甲板),它使用门控模块根据与测试样本的光谱相似性动态地选择相应的卡片。该拟议的方法建立了一个“赢得胜利”的卡片,即在CiFar-10-C精度(即96.8%标准和92.75%的鲁棒)和CiFar-100- C精度(80.6%标准和71.3%的稳健性),内存使用率比非压缩基线(Https://github.com/robustbench/robustbench提供的预制卡和卡片 - 甲板)。最后,我们为我们的理论支持提供了理论支持经验研究结果。
translated by 谷歌翻译
自主和半自动车辆的感知算法可以遇到具有错误物体检测的情况,例如路上的对象错误分类,这可能导致安全违规和可能致命的后果。虽然对象检测算法和在线度量学习的稳健性具有很大的工作,但对基准评分指标几乎没有研究,以确定可能错误分类的任何可能指标。强调探索在线采取这些评分指标的潜力,以便允许AV使基于感知的决定进行实时约束。在这项工作中,我们探讨了哪些指标作为在线指示符时,当感知算法和对象检测器发生故障时。我们的工作提供了关于在线指标的更好设计原则和特征的洞察力,以准确评估物体探测器的可信度。我们的方法采用了非对抗和现实的图像扰动,我们评估了各种定量度量。我们发现离线指标可以设计成考虑到真实世界的腐败,例如恶劣的天气状况,并且这些指标的分析可以为设计在线指标提供SEGUE。这是一个明确的下一步,因为它可以允许无错误的自主车辆感知和更安全的时间 - 关键和安全关键决策。
translated by 谷歌翻译
Modern deep neural networks can achieve high accuracy when the training distribution and test distribution are identically distributed, but this assumption is frequently violated in practice. When the train and test distributions are mismatched, accuracy can plummet. Currently there are few techniques that improve robustness to unforeseen data shifts encountered during deployment. In this work, we propose a technique to improve the robustness and uncertainty estimates of image classifiers. We propose AUGMIX, a data processing technique that is simple to implement, adds limited computational overhead, and helps models withstand unforeseen corruptions. AUGMIX significantly improves robustness and uncertainty measures on challenging image classification benchmarks, closing the gap between previous methods and the best possible performance in some cases by more than half.
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
在将人重新识别(REID)模型部署在安全关键型应用程序中时,它是关键,以了解模型的鲁棒性,以反对不同的图像损坏阵列。但是,当前对人的评估Reid仅考虑干净数据集的性能,并忽略各种损坏方案中的图像。在这项工作中,我们全面建立了六种Reid基准,用于学习腐败不变的代表。在Reid领域,我们是第一个在单个和跨模式数据集中开展腐败腐败的彻底研究,包括市场-1501,CUHK03,MSMT17,REGDB,SYSU-MM01。在再现和检查最近的REID方法的鲁棒性能后,我们有一些观察结果:1)基于变压器的模型对损坏的图像更加强大,与基于CNN的模型相比,2)增加了随机擦除的概率(常用的增强方法)伤害模型腐败鲁棒性,3)交叉数据集泛化改善腐败鲁棒性增加。通过分析上述观察,我们提出了一个强大的基线,对单一和跨型号的内部数据集,实现了对不同腐败的改善的鲁棒性。我们的代码可在https://github.com/minghuichen43/cil -reid上获得。
translated by 谷歌翻译
经过认证的稳健性保证衡量模型对测试时间攻击的稳健性,并且可以评估模型对现实世界中部署的准备情况。在这项工作中,我们批判性地研究了对基于随机平滑的认证方法的对抗鲁棒性如何在遇到配送外(OOD)数据的最先进的鲁棒模型时改变。我们的分析显示了这些模型的先前未知的漏洞,以低频OOD数据,例如与天气相关的损坏,使这些模型不适合在野外部署。为了缓解这个问题,我们提出了一种新的数据增强方案,Fourimix,产生增强以改善训练数据的光谱覆盖范围。此外,我们提出了一种新规范器,鼓励增强数据的噪声扰动的一致预测,以提高平滑模型的质量。我们发现Fouriermix增强有助于消除可认真强大的模型的频谱偏差,使其能够在一系列ood基准上实现明显更好的稳健性保证。我们的评估还在突出模型的光谱偏差时揭示了当前的OOD基准。为此,我们提出了一个全面的基准套件,其中包含来自光谱域中不同区域的损坏。对拟议套件上流行的增强方法培训的模型的评估突出了它们的光谱偏差,并建立了富硫克斯训练型模型在实现整个频谱上变化下的更好认证的鲁棒性担保的优势。
translated by 谷歌翻译
本文对实例分割模型进行了全面评估,这些模型与现实世界图像损坏以及室外图像集合,例如与培训数据集不同的设置捕获的图像。室外图像评估显示了模型的概括能力,现实世界应用的一个基本方面以及广泛研究的域适应性主题。当设计用于现实世界应用程序的实例分割模型并选择现成的预期模型以直接用于手头的任务时,这些提出的鲁棒性和泛化评估很重要。具体而言,这项基准研究包括最先进的网络架构,网络骨架,标准化层,从头开始训练的模型,从头开始与预处理的网络以及多任务培训对稳健性和概括的影响。通过这项研究,我们获得了一些见解。例如,我们发现组归一化增强了跨损坏的网络的鲁棒性,其中图像内容保持不变,但损坏却添加在顶部。另一方面,分批归一化改善了图像特征统计信息在不同数据集上的概括。我们还发现,单阶段探测器比其训练大小不太概括到更大的图像分辨率。另一方面,多阶段探测器可以轻松地用于不同尺寸的图像上。我们希望我们的全面研究能够激发更强大和可靠的实例细分模型的发展。
translated by 谷歌翻译
聚集到基准中的综合损坏经常用于测量神经网络的鲁棒性与分布换档。然而,对综合腐败基准的鲁棒性并不总是预测现实世界应用中遇到的分销班次的鲁棒性。在本文中,我们提出了一种构建综合腐败基准的方法,使鲁棒性估计与对现实世界分布班次的鲁棒性更相关。使用重叠的标准,我们将合成腐败分成了有助于更好地理解神经网络的鲁棒性的类别。根据这些类别,我们确定三个相关参数,以便在构建(1)代表类别的腐败基准时考虑到(1)代表类别,(2)其相对平衡,(3)所考虑的规模基准。在这样做时,我们建立了新的合成腐败选择,这些选择比现有的综合腐败基准更具预测到自然腐败的鲁棒性。
translated by 谷歌翻译
卷积神经网络(CNN)的鲁棒性存在一些问题。例如,可以通过向输入中添加少量噪声来更改CNN的预测,当输入分布通过在训练过程中从未见过的转换移动时,CNN的性能会降解(例如,模糊效应)。有一些方法可以用二进制嵌入替代像素值,以解决对抗性扰动的问题,从而成功改善了鲁棒性。在这项工作中,我们将像素提出到二进制嵌入(P2BE)以提高CNN的鲁棒性。P2BE是一种可学习的二进制嵌入方法,而不是先前的手工编码的二进制嵌入方法。P2BE在训练过程中未显示的对抗性扰动和视觉损坏方面的其他二进制嵌入方法优于其他二进制嵌入方法。
translated by 谷歌翻译
用于计算机视觉任务的深度神经网络在越来越安全 - 严重和社会影响的应用中部署,激励需要在各种,天然存在的成像条件下关闭模型性能的差距。在包括对抗机器学习的多种上下文中尤为色难地使用的鲁棒性,然后指在自然诱导的图像损坏或改变下保持模型性能。我们进行系统审查,以识别,分析和总结当前定义以及对计算机愿景深度学习中的非对抗鲁棒性的进展。我们发现,该研究领域已经收到了相对于对抗机器学习的不成比例地注意力,但存在显着的稳健性差距,这些差距通常表现在性能下降中与对抗条件相似。为了在上下文中提供更透明的稳健性定义,我们引入了数据生成过程的结构因果模型,并将非对抗性鲁棒性解释为模型在损坏的图像上的行为,其对应于来自未纳入数据分布的低概率样本。然后,我们确定提高神经网络鲁棒性的关键架构,数据增强和优化策略。这种稳健性的这种因果观察表明,目前文献中的常见做法,关于鲁棒性策略和评估,对应于因果概念,例如软干预导致成像条件的决定性分布。通过我们的调查结果和分析,我们提供了对未来研究如何可能介意这种明显和显着的非对抗的鲁棒性差距的观点。
translated by 谷歌翻译
深度学习方法通​​过依靠极大的大量参数化神经网络来提供许多应用程序的最先进性能。但是,此类网络已被证明非常脆弱,并不能很好地概括为新用途案例,并且通常很难在资源有限的平台上部署。模型修剪,即减少网络的大小,是一种广泛采用的策略,可以导致更健壮和可推广的网络 - 通常较小的数量级,具有相同甚至改善的性能。尽管有许多用于修剪模型的启发式方法,但我们对修剪过程的理解仍然有限。实证研究表明,某些启发式方法可以改善性能,而另一些可以使模型更脆或具有其他副作用。这项工作旨在阐明不同的修剪方法如何改变网络的内部功能表示以及对模型性能的相应影响。为了提供模型特征空间的有意义的比较和表征,我们使用三个几何指标,这些指标是从共同采用的分类损失中分解的。使用这些指标,我们设计了一个可视化系统,以突出修剪对模型预测以及潜在功能嵌入的影响。所提出的工具为探索和研究修剪方法以及修剪和原始模型之间的差异提供了一个环境。通过利用我们的可视化,ML研究人员不仅可以识别模型修剪和数据损坏的样本,而且还可以获得有关某些修剪模型如何实现出色鲁棒性能的见解和解释。
translated by 谷歌翻译