The many successes of deep neural networks (DNNs) over the past decade have largely been driven by computational scale rather than insights from biological intelligence. Here, we explore if these trends have also carried concomitant improvements in explaining the visual strategies humans rely on for object recognition. We do this by comparing two related but distinct properties of visual strategies in humans and DNNs: where they believe important visual features are in images and how they use those features to categorize objects. Across 84 different DNNs trained on ImageNet and three independent datasets measuring the where and the how of human visual strategies for object recognition on those images, we find a systematic trade-off between DNN categorization accuracy and alignment with human visual strategies for object recognition. State-of-the-art DNNs are progressively becoming less aligned with humans as their accuracy improves. We rectify this growing issue with our neural harmonizer: a general-purpose training routine that both aligns DNN and human visual strategies and improves categorization accuracy. Our work represents the first demonstration that the scaling laws that are guiding the design of DNNs today have also produced worse models of human vision. We release our code and data at https://serre-lab.github.io/Harmonization to help the field build more human-like DNNs.
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
深度卷积神经网络(DCNN)最初是受生物视觉原理的启发,已演变为对象识别的最佳当前计算模型,因此表明在整个与神经图像和神经时间序列数据的比较中,都表明了与腹视觉途径的强大结构和功能并行性。随着深度学习的最新进展似乎降低了这种相似性,计算神经科学面临挑战,以逆转工程,以获得有用模型的生物学合理性。虽然先前的研究表明,生物学启发的体系结构能够扩大模型的人类风格,但在本研究中,我们研究了一种纯粹的数据驱动方法。我们使用人类的眼睛跟踪数据来直接修改训练示例,从而指导模型在自然图像中对象识别期间的视觉注意力朝着或远离人类固定的焦点。我们通过GARGCAM显着性图比较和验证不同的操纵类型(即标准,类人类和非人类的注意力)与人类参与者的眼动数据。我们的结果表明,与人类相比,所提出的指导焦点操作的作用是在负方向上的意图,而非人类样模型则集中在明显不同的图像部分上。观察到的效果是高度类别特异性的,它通过动画和面部的存在增强,仅在完成前馈处理后才开发,并表明对面部检测产生了强烈的影响。然而,使用这种方法,没有发现人类的类似性。讨论了公开视觉注意力在DCNN中的可能应用,并讨论了对面部检测理论的进一步影响。
translated by 谷歌翻译
深度加强学习(RL)算法是解决Visuomotor决策任务的强大工具。然而,训练有素的型号往往难以解释,因为它们被代表为端到端的深神经网络。在本文中,我们通过分析他们在任务执行期间参加的像素来阐明这种训练有素的模型的内部工作,并将它们与执行相同任务的人类参加的像素进行比较。为此,我们调查以下两个问题,以至于我们以前尚未研究过。 1)RL代理商和人类在执行相同的任务时如何相似是如何? 2)这些学习的陈述中的相似性和差异如何解释RL代理人对这些任务的表现?具体而言,我们在学习玩Atari Games时比较RL代理人的显着图,反对人类专家的视觉模型。此外,我们分析了深度RL算法的超参数如何影响培训代理的学习的表示和显着性图。所提供的见解有可能通知新的算法来关闭人类专家和RL代理商之间的性能差距。
translated by 谷歌翻译
视觉理解需要了解场景中对象之间的复杂视觉关系。在这里,我们寻求描述抽象视觉推理的计算需求。我们通过系统地评估现代深度卷积神经网络(CNNS)的能力来学习解决“综合视觉推理测试”(SVRT)挑战,是二十三个视觉推理问题的集合。我们的分析揭示了视觉推理任务的新型分类,这可以通过关系类型(相同的与空间关系判断)和用于构成基本规则的关系数量来解释。先前的认知神经科学工作表明,注意力在人类的视觉推理能力中发挥着关键作用。为了测试这一假设,我们将CNN扩展了基于空间和基于特征的注意力机制。在第二系列实验中,我们评估了这些注意网络学习解决SVRT挑战的能力,并发现所产生的架构在解决这些视觉推理任务中最艰难的架构。最重要的是,对个人任务的相应改进部分地解释了我们的新型分类法。总体而言,这项工作提供了视觉推理的粒度计算账户,并产生关于基于特征的与空间关注的差异需求的可测试神经科学预测,具体取决于视觉推理问题的类型。
translated by 谷歌翻译
图像分类器通常在其测试设置精度上进行评分,但高精度可以屏蔽微妙类型的模型故障。我们发现高分卷积神经网络(CNNS)在流行的基准上表现出令人不安的病理,即使在没有语义突出特征的情况下,即使在没有语义突出特征的情况下也能够显示高精度。当模型提供没有突出的输入功能而无突出的频率决定时,我们说分类器已经过度解释了它的输入,找到了太多的课程 - 以对人类荒谬的模式。在这里,我们展示了在CiFar-10和Imagenet上培训的神经网络患有过度诠释,我们发现CIFAR-10上的模型即使在屏蔽95%的输入图像中,人类不能在剩余像素子集中辨别出突出的特征。我们介绍了批量梯度SIS,一种用于发现复杂数据集的足够输入子集的新方法,并使用此方法显示故事中的边界像素的充分性以进行培训和测试。虽然这些模式在现实世界部署中移植了潜在的模型脆弱性,但它们实际上是基准的有效统计模式,单独就足以实现高测试精度。与对手示例不同,过度解释依赖于未修改的图像像素。我们发现合奏和输入辍学可以帮助缓解过度诠释。
translated by 谷歌翻译
精确了解人造网络中为何对某些刺激作出反应的单位会致力于解释人工智能的一步。一个广泛使用的方法对此目标是通过激活最大化来可视化单元响应。这些合成特征可视化被声称提供了具有关于导致单元被激活的图像特征的精确信息的人类 - 在其他替代方案中具有强烈激活的自然数据集样本的优点。如果人类确实获得了可视化的因果洞察,这应该使它们能够预测干预的效果,例如如何遮挡图像的某些斑块(例如,狗的头部)改变单位的激活。在这里,我们通过询问人类来确定两个方形遮挡中的哪一个来测试这个假设,导致单元的激活更大。具有专家的大规模众群实验和测量结果表明,平均奥拉等人的激活特征可视化。 (2017)确实帮助人类对此任务(68美元\ PM 4 $%的准确性;没有任何可视化的基线表现为60份\ PM 3 $%)。然而,它们不提供其他可视化(例如DataSet样本)的任何实质性优势,其产生类似的性能(66美元,PM3 $%至67美元\ PM3 $%准确性)。我们联合起来,提出了一个客观的心理物理任务来量化单位级别解释性方法对人类的益处,并且没有证据表明,广泛使用的特征可视化方法提供了比简单的替代可视化的单位激活更好的“因果理解”。
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
各种工作表明,图像的令人难忘性在人们中一致,因此可以被视为图像的内在特性。使用计算机视觉模型,我们可以对人们记住或忘记做出具体的预测。虽然老工作已经使用了现在过时的深度学习架构来预测图像令人难忘,但该领域的创新使我们的新技术适用于这个问题。在这里,我们提出并评估了五个替代的深度学习模型,在过去五年中利用现场开发的替代深度学习模型,这主要是引入残余神经网络,这旨在允许模型在令人难忘的估计过程中使用语义信息。通过构建的组合数据集进行了本领域的先前状态测试这些新模型,以优化类别内和跨类别预测。我们的研究结果表明,关键的令人难忘网络夸大了其概括性,并在其培训集上被过度了。我们的新模型优于此前的模型,导致我们得出结论,残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们使新的最先进的模型容易获得研究界,允许内存研究人员对更广泛的图像上的难忘性进行预测。
translated by 谷歌翻译
Deep learning has triggered the current rise of artificial intelligence and is the workhorse of today's machine intelligence. Numerous success stories have rapidly spread all over science, industry and society, but its limitations have only recently come into focus. In this perspective we seek to distil how many of deep learning's problem can be seen as different symptoms of the same underlying problem: shortcut learning. Shortcuts are decision rules that perform well on standard benchmarks but fail to transfer to more challenging testing conditions, such as real-world scenarios. Related issues are known in Comparative Psychology, Education and Linguistics, suggesting that shortcut learning may be a common characteristic of learning systems, biological and artificial alike. Based on these observations, we develop a set of recommendations for model interpretation and benchmarking, highlighting recent advances in machine learning to improve robustness and transferability from the lab to real-world applications. This is the preprint version of an article that has been published by Nature Machine Intelligence
translated by 谷歌翻译
深度神经网络在计算机视觉中的许多任务中设定了最先进的,但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下,哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明,这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里,我们成功利用了多任务学习方法的这些归纳偏差:我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层(V1)中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现,尽管在训练期间没有这些扭曲,但猴子V1数据的共同训练导致鲁棒性增加。此外,我们表明,我们的网络的鲁棒性非常接近Oracle网络的稳定性,其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明,随着鲁布利的改善,网络的表示变得更加大脑。使用新颖的约束重建分析,我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比,我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图,用于想象成像图像,我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感,让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言,我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径,并为我们转移的影响提供了新的分析。
translated by 谷歌翻译
已经提出了多种解释性方法和理论评价分数。然而,尚不清楚:(1)这些方法有多有用的现实情景和(2)理论措施如何预测人类实际使用方法的有用性。为了填补这一差距,我们在规模中进行了人类的心理物理学实验,以评估人类参与者(n = 1,150)以利用代表性归因方法学习预测不同图像分类器的决定的能力。我们的结果表明,用于得分的理论措施可解释方法的反映在现实世界方案中的个人归因方法的实际实用性不佳。此外,个人归因方法帮助人类参与者预测分类器的决策的程度在分类任务和数据集中广泛变化。总体而言,我们的结果突出了该领域的根本挑战 - 建议致力于开发更好的解释方法和部署人以人为本的评估方法。我们将制定框架的代码可用于缓解新颖解释性方法的系统评估。
translated by 谷歌翻译
视觉搜索是几乎任何日常人类目标与环境的目标互动的重要组成部分。如今,几种算法能够在简单的观察期间预测凝视位置,但是很少有模型试图在自然场景中视觉搜索期间模拟人类行为。此外,这些模型在其设计中差异很大,并且在评估它们的数据集和度量标准中展示了不同的差异。因此,需要一个参考点,每个模型可以测试,并且可以从哪里导出潜在的改进。在目前的工作中,我们在自然场景中选择公开的最先进的视觉搜索模型,并在不同的数据集中评估它们,采用相同的指标来估算其与人类受试者的效率和相似性。特别是,我们通过与基于神经网络的视觉搜索模型的组合来提出对理想贝叶斯搜索者的改进,使其能够概括到其他数据集。目前的工作揭示了当前模型的局限性以及如何通过组合方法来实现潜在的改进。此外,它向前移动了为迫切需要基准测试数据和指标的解决方案,以支持更多一般人类视觉搜索计算模型的开发。
translated by 谷歌翻译
人类在解析和灵活地理解复杂的视觉场景的能力方面继续大大胜过现代AI系统。注意力和记忆是已知的两个系统,它们在我们选择性地维护和操纵与行为相关的视觉信息的能力中起着至关重要的作用,以解决一些最具挑战性的视觉推理任务。在这里,我们介绍了一种新颖的体系结构,用于视觉推理的认知科学文献,基于记忆和注意力(视觉)推理(MAREO)架构。 Mareo实例化了一个主动视觉理论,该理论认为大脑通过学习结合以前学习的基本视觉操作以形成更复杂的视觉例程来在构成中解决复杂的视觉推理问题。 Mareo学会通过注意力转移序列来解决视觉推理任务,以路由并通过多头变压器模块将与任务相关的视觉信息保持在存储库中。然后,通过训练有素的专用推理模块来部署视觉例程,以判断场景中对象之间的各种关系。对四种推理任务的实验证明了Mareo以强大和样品有效的方式学习视觉例程的能力。
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
As the societal impact of Deep Neural Networks (DNNs) grows, the goals for advancing DNNs become more complex and diverse, ranging from improving a conventional model accuracy metric to infusing advanced human virtues such as fairness, accountability, transparency (FaccT), and unbiasedness. Recently, techniques in Explainable Artificial Intelligence (XAI) are attracting considerable attention, and have tremendously helped Machine Learning (ML) engineers in understanding AI models. However, at the same time, we started to witness the emerging need beyond XAI among AI communities; based on the insights learned from XAI, how can we better empower ML engineers in steering their DNNs so that the model's reasonableness and performance can be improved as intended? This article provides a timely and extensive literature overview of the field Explanation-Guided Learning (EGL), a domain of techniques that steer the DNNs' reasoning process by adding regularization, supervision, or intervention on model explanations. In doing so, we first provide a formal definition of EGL and its general learning paradigm. Secondly, an overview of the key factors for EGL evaluation, as well as summarization and categorization of existing evaluation procedures and metrics for EGL are provided. Finally, the current and potential future application areas and directions of EGL are discussed, and an extensive experimental study is presented aiming at providing comprehensive comparative studies among existing EGL models in various popular application domains, such as Computer Vision (CV) and Natural Language Processing (NLP) domains.
translated by 谷歌翻译
阅读和驾驶等日常任务的核心是主动对象识别。目前无法合并时间来阻碍建模此类任务的尝试。人们在速度和准确性之间表现出灵活的权衡,而这种权衡是至关重要的人类技能。深层神经网络已成为预测人类对象识别峰值和神经活动的有前途的候选人。但是,建模时间维度,即速度准确性权衡(SAT),对于它们作为人类如何识别对象的有用计算模型至关重要。为此,我们在这里介绍了第一个大规模(148个观察者,4个神经网络,8个任务)数据集,该数据集是识别Imagenet图像时速度准确性折衷(SAT)。在每个人类试验中,哔哔声表示所需的反应时间,在显示图像后以固定的延迟发出声音,并且观察者的响应仅在哔哔声附近发生时才计算。在一系列块中,我们测试了许多蜂鸣延迟,即反应时间。我们观察到人类的准确性随反应时间的增加而增加,并继续将其特征与能够推理时间自适应计算的几个动态神经网络的行为进行比较。我们将FLOPS作为反应时间的模拟,我们将网络与人类在曲线拟合误差,类别相关性和曲线陡度中进行比较,并得出结论,级联的动态神经网络是对象识别任务中人类反应时间的有希望的模型。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
卷积神经网络(CNNS)容易受到对抗的攻击,将微型噪声添加到图像中的现象可以欺骗CNNS被错误分类。因为这种噪声对人类观察者几乎是不可察觉的,所以假设生物视觉对抗对抗性攻击是鲁棒性的。尽管具有这种明显的鲁棒性差异,但CNN是目前是生物视觉的最佳模型,揭示了脑部响应对抗性图像的响应方式的差距。实际上,对正常情况下的生物视觉尚未测量对逆势攻击的敏感性,也没有专门用于影响生物视觉的攻击方法。我们研究了对抗性攻击对灵长类动物视力的影响,测量猴神经元反应和人类行为。通过从一个类别(例如人面)来修改图像来创建对抗性图像,看起来像目标类别(例如猴子面),同时限制像素值改变。我们通过几种攻击方法测试了三次攻击方向,包括使用CNN对抗性图像并使用基于CNN的预测模型来指导猴子视觉神经元反应。我们认为广泛的图像变化大幅度,涉及攻击成功率高达> 90%。我们发现为CNN设计的对抗性图像在攻击灵长类动物视觉时无效。即使在考虑最佳的攻击方法时,灵长类动物的视觉也比CNN的集合攻击更强大,而不是CNN的集合,需要超过100倍的图像改变以成功攻击。单个攻击方法和图像的成功与猴子神经元和人类行为之间相关,但在分类和CNN分类之间不太相关。始终如一地,当在自然图像培训时,基于CNN的神经元模型并未概括地解释对对抗性图像的神经元反应。
translated by 谷歌翻译