与人类相比,即使是最先进的深度学习模型也缺乏基本能力。已经提出了多重比较范例来探索人类与深度学习之间的区别。尽管大多数比较都取决于受数学转变启发的腐败,但很少有人在人类认知现象上具有基础。在这项研究中,我们提出了一种基于毗邻的光栅幻觉的新型腐败方法,这是在人类和广泛的动物物种中广泛发现的视觉现象。腐败方法破坏了梯度定义的边界,并使用彼此毗邻的线光栅产生了虚幻轮廓的感知。我们应用了MNIST,高分辨率MNIST和Silhouette对象图像的方法。对腐败的各种深度学习模型进行了测试,包括从头开始训练的模型和通过ImageNet或各种数据增强技术预测的109个模型。我们的结果表明,即使对于最先进的深度学习模型,将光栅腐败毗邻也是挑战性的,因为大多数模型都是随机猜测的。我们还发现,深度指示技术可以极大地改善固定光栅幻觉的鲁棒性。早期层的可视化表明,更好的性能模型表现出更强的终端特性,这与神经科学发现一致。为了验证腐败方法,涉及24名人类受试者以对损坏数据集进行分类。
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
在过去的几年中,人类视力与卷积神经网络(CNN)之间越来越多的相似之处。然而,香草CNN通常在推广到对抗性或分布(OOD)示例的概括方面表现出卓越的性能。对抗训练是一种领先的学习算法,用于提高CNN在对抗和OOD数据上的鲁棒性;但是,对这些属性,特别是形状偏差和内部特征知之甚少,在对抗性CNN中学到的内部特征。在本文中,我们进行了一项彻底的系统研究,以了解形状偏差和一些内部机制,以使Alexnet,Googlenet和Resnet-50模型的普遍性通过对抗训练进行了训练。我们发现,尽管标准成像网分类器具有较强的纹理偏见,但它们的R对应物很大程度上依赖形状。值得注意的是,对抗性训练在“鲁棒性” CNN的过程中诱导了隐藏的神经元的三个简单偏见。也就是说,R网络中的每个卷积神经元经常会更改以检测(1)像素的平滑模式,即一种机制,该机制可以阻止高频噪声通过网络; (2)更多较低级别的功能,即纹理和颜色(而不是对象);(3)输入类型较少。我们的发现揭示了有趣的机制,这些机制使网络更具对抗性,并解释了一些最新发现,例如,为什么R网络从更大的容量中受益(Xie等,2020),并且可以在图像合成中充当强大的图像(Santurkar et eT) Al。2019)。
translated by 谷歌翻译
本文对实例分割模型进行了全面评估,这些模型与现实世界图像损坏以及室外图像集合,例如与培训数据集不同的设置捕获的图像。室外图像评估显示了模型的概括能力,现实世界应用的一个基本方面以及广泛研究的域适应性主题。当设计用于现实世界应用程序的实例分割模型并选择现成的预期模型以直接用于手头的任务时,这些提出的鲁棒性和泛化评估很重要。具体而言,这项基准研究包括最先进的网络架构,网络骨架,标准化层,从头开始训练的模型,从头开始与预处理的网络以及多任务培训对稳健性和概括的影响。通过这项研究,我们获得了一些见解。例如,我们发现组归一化增强了跨损坏的网络的鲁棒性,其中图像内容保持不变,但损坏却添加在顶部。另一方面,分批归一化改善了图像特征统计信息在不同数据集上的概括。我们还发现,单阶段探测器比其训练大小不太概括到更大的图像分辨率。另一方面,多阶段探测器可以轻松地用于不同尺寸的图像上。我们希望我们的全面研究能够激发更强大和可靠的实例细分模型的发展。
translated by 谷歌翻译
Continual Learning (CL) is a field dedicated to devise algorithms able to achieve lifelong learning. Overcoming the knowledge disruption of previously acquired concepts, a drawback affecting deep learning models and that goes by the name of catastrophic forgetting, is a hard challenge. Currently, deep learning methods can attain impressive results when the data modeled does not undergo a considerable distributional shift in subsequent learning sessions, but whenever we expose such systems to this incremental setting, performance drop very quickly. Overcoming this limitation is fundamental as it would allow us to build truly intelligent systems showing stability and plasticity. Secondly, it would allow us to overcome the onerous limitation of retraining these architectures from scratch with the new updated data. In this thesis, we tackle the problem from multiple directions. In a first study, we show that in rehearsal-based techniques (systems that use memory buffer), the quantity of data stored in the rehearsal buffer is a more important factor over the quality of the data. Secondly, we propose one of the early works of incremental learning on ViTs architectures, comparing functional, weight and attention regularization approaches and propose effective novel a novel asymmetric loss. At the end we conclude with a study on pretraining and how it affects the performance in Continual Learning, raising some questions about the effective progression of the field. We then conclude with some future directions and closing remarks.
translated by 谷歌翻译
深度神经网络在计算机视觉中的许多任务中设定了最先进的,但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下,哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明,这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里,我们成功利用了多任务学习方法的这些归纳偏差:我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层(V1)中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现,尽管在训练期间没有这些扭曲,但猴子V1数据的共同训练导致鲁棒性增加。此外,我们表明,我们的网络的鲁棒性非常接近Oracle网络的稳定性,其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明,随着鲁布利的改善,网络的表示变得更加大脑。使用新颖的约束重建分析,我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比,我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图,用于想象成像图像,我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感,让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言,我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径,并为我们转移的影响提供了新的分析。
translated by 谷歌翻译
人类严重依赖于形状信息来识别对象。相反,卷积神经网络(CNNS)偏向于纹理。这也许是CNNS易受对抗性示例的影响的主要原因。在这里,我们探索如何将偏差纳入CNN,以提高其鲁棒性。提出了两种算法,基于边缘不变,以中等难以察觉的扰动。在第一个中,分类器在具有边缘图作为附加信道的图像上进行前列地培训。在推断时间,边缘映射被重新计算并连接到图像。在第二算法中,训练了条件GaN,以将边缘映射从干净和/或扰动图像转换为清洁图像。推断在与输入的边缘图对应的生成图像上完成。超过10个数据集的广泛实验证明了算法对FGSM和$ \ ELL_ infty $ PGD-40攻击的有效性。此外,我们表明a)边缘信息还可以使其他对抗训练方法有益,并且B)在边缘增强输入上培训的CNNS对抗自然图像损坏,例如运动模糊,脉冲噪声和JPEG压缩,而不是仅培训的CNNS RGB图像。从更广泛的角度来看,我们的研究表明,CNN不会充分占对鲁棒性至关重要的图像结构。代码可用:〜\ url {https://github.com/aliborji/shapedefense.git}。
translated by 谷歌翻译
我们介绍了几个新的数据集即想象的A / O和Imagenet-R以及合成环境和测试套件,我们称为CAOS。 Imagenet-A / O允许研究人员专注于想象成剩余的盲点。由于追踪稳健的表示,以特殊创建了ImageNet-R,因为表示不再简单地自然,而是包括艺术和其他演绎。 Caos Suite由Carla Simulator构建,允许包含异常物体,可以创建可重复的合成环境和用于测试稳健性的场景。所有数据集都是为测试鲁棒性和衡量鲁棒性的衡量进展而创建的。数据集已用于各种其他作品中,以衡量其具有鲁棒性的自身进步,并允许切向进展,这些进展不会完全关注自然准确性。鉴于这些数据集,我们创建了几种旨在推进鲁棒性研究的新方法。我们以最大Logit的形式和典型程度的形式构建简单的基线,并以深度的形式创建新的数据增强方法,从而提高上述基准。最大Logit考虑Logit值而不是SoftMax操作后的值,而微小的变化会产生明显的改进。典型程分将输出分布与类的后部分布进行比较。我们表明,除了分段任务之外,这将提高对基线的性能。猜测可能在像素级别,像素的语义信息比类级信息的语义信息不太有意义。最后,新的Deepaulment的新增强技术利用神经网络在彻底不同于先前使用的传统几何和相机的转换的图像上创建增强。
translated by 谷歌翻译
尽管对图像分类任务的表现令人印象深刻,但深网络仍然难以概括其数据的许多常见损坏。为解决此漏洞,事先作品主要专注于提高其培训管道的复杂性,以多样性的名义结合多种方法。然而,在这项工作中,我们逐步回来并遵循原则的方法来实现共同腐败的稳健性。我们提出了一个普遍的数据增强方案,包括最大熵图像变换的简单系列。我们展示了Prime优于现有技术的腐败鲁棒性,而其简单和即插即用性质使其能够与其他方法结合以进一步提升其稳健性。此外,我们分析了对综合腐败图像混合策略的重要性,并揭示了在共同腐败背景下产生的鲁棒性准确性权衡的重要性。最后,我们表明我们的方法的计算效率允许它在线和离线数据增强方案轻松使用。
translated by 谷歌翻译
深度神经网络(DNN)已被广泛用于计算机视觉任务,例如图像分类,对象检测和分割。尽管最近的研究表明它们易受输入图像中手动数字扰动或失真的脆弱性。网络的准确性受到培训数据集的数据分布的极大影响。缩放原始图像会创建分布数据,这使其成为欺骗网络的对抗性攻击。在这项工作中,我们通过通过不同的倍数将ImageNet挑战数据集的子集缩放出一个子集,从而提出了一个缩放分数数据集Imagenet-C。我们工作的目的是研究缩放图像对高级DNN的性能的影响。我们对所提出的Imagenet-CS进行了几个最新的深神网络体系结构进行实验,结果显示缩放大小和准确性下降之间存在显着的正相关。此外,根据RESNET50体系结构,我们展示了一些关于最近提出的强大训练技术和策略(例如Augmix,Revisiting and Ranstorize of Al Of Awmiting and Normorizer of Un Imagenet-cs)的测试。实验结果表明,这些强大的训练技术可以改善网络对缩放转换的鲁棒性。
translated by 谷歌翻译
深度神经网络在图像分类中Excel Excel,但它们对输入扰动的性能比人类感知更强。在这项工作中,我们可以通过在深卷积网络中纳入脑激发的经常性动态来探讨此缺点是否可以部分地解决。我们从神经科学的一个受欢迎的框架中获取灵感:“预测编码”。在分层模型的每层,生成反馈'预测'(即,重建)前一层中的活动模式。重建错误用于迭代地更新时间间隔内的网络的表示,并通过自然图像数据集来优化网络的反馈权重 - 一种无监督的培训形式。我们展示将此策略实施到两个流行的网络中,VGG16和高效网络,从而提高了对各种损坏和对抗的攻击的鲁棒性。我们假设其他前馈网络可以类似地受益于所提出的框架。为了在这种方向上促进研究,我们提供称为PRIGEIFY的基于开放的Pytorch的包,其可用于实施和研究预测编码动态在任何卷积神经网络中的影响。
translated by 谷歌翻译
视觉变压器(VIT)在各种机器视觉问题上表现出令人印象深刻的性能。这些模型基于多头自我关注机制,可以灵活地参加一系列图像修补程序以编码上下文提示。一个重要问题是在给定贴片上参加图像范围内的上下文的这种灵活性是如何促进在自然图像中处理滋扰,例如,严重的闭塞,域移位,空间置换,对抗和天然扰动。我们通过广泛的一组实验来系统地研究了这个问题,包括三个vit家族和具有高性能卷积神经网络(CNN)的比较。我们展示和分析了vit的以下迷恋性质:(a)变压器对严重闭塞,扰动和域移位高度稳健,例如,即使在随机堵塞80%的图像之后,也可以在想象中保持高达60%的前1个精度。内容。 (b)与局部纹理的偏置有抗闭锁的强大性能,与CNN相比,VITS对纹理的偏置显着偏差。当受到适当训练以编码基于形状的特征时,VITS展示与人类视觉系统相当的形状识别能力,以前在文献中无与伦比。 (c)使用VIT来编码形状表示导致准确的语义分割而没有像素级监控的有趣后果。 (d)可以组合从单VIT模型的现成功能,以创建一个功能集合,导致传统和几枪学习范例的一系列分类数据集中的高精度率。我们显示VIT的有效特征是由于自我关注机制可以实现灵活和动态的接受领域。
translated by 谷歌翻译
虽然一些卷积神经网络(CNNS)在对象分类中超过了人类的视觉能力,但它们通常努力识别以不同类型的常见噪声模式损坏的图像中的对象,突出了这一系列模型的主要限制。最近,已经表明,在CNNS前面模拟主视觉皮质(V1)导致对这些图像扰动的鲁棒性的小改进。在本研究中,我们从观察到v1模型的不同变体显示特定腐败类型的增益。然后,我们使用合奏技术构建一个新模型,该技术将多个单独模型与不同的V1前端变体组合。该模型集合利用每个腐败类别的鲁棒性的显着改善,平均优于38%的基础模型。最后,我们表明使用蒸馏,可以将集合模型中的知识部分压缩成具有V1前端的单个模型。虽然这里使用的合并和蒸馏技术几乎没有生物学,但是这里呈现的结果表明,通过组合V1中不同神经元电路的特定强度,可以改善CNN的鲁棒性,用于广泛的扰动。
translated by 谷歌翻译
In this paper we establish rigorous benchmarks for image classifier robustness. Our first benchmark, IMAGENET-C, standardizes and expands the corruption robustness topic, while showing which classifiers are preferable in safety-critical applications. Then we propose a new dataset called IMAGENET-P which enables researchers to benchmark a classifier's robustness to common perturbations. Unlike recent robustness research, this benchmark evaluates performance on common corruptions and perturbations not worst-case adversarial perturbations. We find that there are negligible changes in relative corruption robustness from AlexNet classifiers to ResNet classifiers. Afterward we discover ways to enhance corruption and perturbation robustness. We even find that a bypassed adversarial defense provides substantial common perturbation robustness. Together our benchmarks may aid future work toward networks that robustly generalize.
translated by 谷歌翻译
对共同腐败的稳健性的文献表明对逆势培训是否可以提高这种环境的性能,没有达成共识。 First, we show that, when used with an appropriately selected perturbation radius, $\ell_p$ adversarial training can serve as a strong baseline against common corruptions improving both accuracy and calibration.然后,我们解释了为什么对抗性训练比具有简单高斯噪声的数据增强更好地表现,这被观察到是对共同腐败的有意义的基线。与此相关,我们确定了高斯增强过度适用于用于培训的特定标准偏差的$ \ sigma $ -oviting现象,这对培训具有显着不利影响的普通腐败精度。我们讨论如何缓解这一问题,然后如何通过学习的感知图像贴片相似度引入对抗性训练的有效放松来进一步增强$ \ ell_p $普发的培训。通过对CiFar-10和Imagenet-100的实验,我们表明我们的方法不仅改善了$ \ ell_p $普发的培训基线,而且还有累积的收益与Augmix,Deepaulment,Ant和Sin等数据增强方法,导致普通腐败的最先进的表现。我们的实验代码在HTTPS://github.com/tml-epfl/adv-training - 窗子上公开使用。
translated by 谷歌翻译
不变性于广泛的图像损坏,例如翘曲,噪声或颜色移位,是在计算机视觉中建立强大模型的一个重要方面。最近,已经提出了几种新的数据增强,从而显着提高了Imagenet-C的性能,这是这种腐败的基准。但是,对数据增强和测试时间损坏之间的关系仍然缺乏基本的理解。为此,我们开发了图像变换的一个特征空间,然后在增强和损坏之间使用该空间中的新措施,称为最小示例距离,以演示相似性和性能之间的强相关性。然后,当测试时间损坏被对来自Imagenet-C中的测试时间损坏被采样时,我们调查最近的数据增强并观察腐败鲁棒性的重大退化。我们的结果表明,通过对感知同类增强的培训来提高测试错误,数据增强可能不会超出现有的基准。我们希望我们的结果和工具将允许更强大的进展,以提高对图像损坏的稳健性。我们在https://github.com/facebookresearch/augmentation - 窗子提供代码。
translated by 谷歌翻译
近年来,卷积神经网络(CNNS)已成功应用于许多领域。然而,这种深层神经模型仍然被视为大多数任务中的黑匣子。此问题的基本问题之一是了解图像识别任务中最有影响力的特点以及它们是由CNN处理的方式。众所周知,CNN模型将低级功能组合以形成复杂的形状,直到物体可以容易地分类,然而,最近的几项研究表明,纹理特征比其他特征更重要。在本文中,我们假设某些功能的重要性根据特定任务,即特定任务表现出特征偏差而变化。我们设计了基于人类直觉的两个分类任务,以培训深度神经模型来识别预期的偏见。我们设计了包括许多任务来测试reset和densenet模型的这些偏差的实验。从结果中,我们得出结论(1)某些功能的综合效果通常比任何单一特征更具影响力; (2)在不同的任务中,神经模型可以执行不同的偏见,即我们可以设计特定任务,以使神经模型偏向于特定的预期特征。
translated by 谷歌翻译
We study how robust current ImageNet models are to distribution shifts arising from natural variations in datasets. Most research on robustness focuses on synthetic image perturbations (noise, simulated weather artifacts, adversarial examples, etc.), which leaves open how robustness on synthetic distribution shift relates to distribution shift arising in real data. Informed by an evaluation of 204 ImageNet models in 213 different test conditions, we find that there is often little to no transfer of robustness from current synthetic to natural distribution shift. Moreover, most current techniques provide no robustness to the natural distribution shifts in our testbed. The main exception is training on larger and more diverse datasets, which in multiple cases increases robustness, but is still far from closing the performance gaps. Our results indicate that distribution shifts arising in real data are currently an open research problem. We provide our testbed and data as a resource for future work at https://modestyachts.github.io/imagenet-testbed/.
translated by 谷歌翻译
边缘检测是许多计算机视觉应用的基础。最先进的国家主要依赖于两个决定性因素的深度学习:数据集内容和网络的体系结构。大多数公共可用数据集未策划边缘检测任务。在这里,我们为此约束提供解决方案。首先,我们认为边缘,轮廓和边界尽管它们重叠,是需要单独的基准数据集的三个不同的视觉功能。为此,我们介绍了一个新的边缘数据集。其次,我们提出了一种新颖的架构,称为边缘检测(Dexined)的密集极端成立网络,可以从划痕的情况下培训,而没有任何预先训练的重量。Dexined优于所呈现的数据集中的其他算法。它还概括到其他数据集没有任何微调。由于IT输出的更锐利和更精细的边缘,所以更高的Dexined质量也显着显着。
translated by 谷歌翻译