The many successes of deep neural networks (DNNs) over the past decade have largely been driven by computational scale rather than insights from biological intelligence. Here, we explore if these trends have also carried concomitant improvements in explaining the visual strategies humans rely on for object recognition. We do this by comparing two related but distinct properties of visual strategies in humans and DNNs: where they believe important visual features are in images and how they use those features to categorize objects. Across 84 different DNNs trained on ImageNet and three independent datasets measuring the where and the how of human visual strategies for object recognition on those images, we find a systematic trade-off between DNN categorization accuracy and alignment with human visual strategies for object recognition. State-of-the-art DNNs are progressively becoming less aligned with humans as their accuracy improves. We rectify this growing issue with our neural harmonizer: a general-purpose training routine that both aligns DNN and human visual strategies and improves categorization accuracy. Our work represents the first demonstration that the scaling laws that are guiding the design of DNNs today have also produced worse models of human vision. We release our code and data at https://serre-lab.github.io/Harmonization to help the field build more human-like DNNs.
translated by 谷歌翻译
如今,视觉变压器是图像分类任务的事实上的偏好。分类任务有两种类别,即细粒度和粗粒。在细粒度的分类中,由于子类之间的相似性高度相似,因此必须发现细微的差异。当我们降低图像以节省与视觉变压器(VIT)相关的计算成本时,这种区别通常会丢失。在这项工作中,我们介绍了深入的分析,并描述了开发用于从标本室纸的细粒度分类系统的关键组成部分。我们广泛的实验分析表明,需要更好的增强技术以及现代神经网络处理更高维图像的能力。我们还介绍了一个称为“ Anciformer”的卷积变压器体系结构,该体系结构与流行的视觉变压器(Convit)不同,可以处理更高的分辨率图像,而不会爆炸记忆和计算成本。我们还介绍了一种新颖的,改进的预处理技术,称为Presizer,以更好地调整图像大小,同时保留其原始纵横比,这对于对天然植物进行分类至关重要。借助我们简单而有效的方法,我们在202X和Inatorist 2019数据集上实现了SOTA。
translated by 谷歌翻译
人类视野的一个基本组成部分是我们解析复杂的视觉场景并判断其组成物体之间的关系的能力。近年来,随着最先进的系统在其中一些基准上达到人类的准确性,近年来,视觉推理的AI基准驱动了快速进步。然而,就样本效率而言,人类和AI系统学习新的视觉推理任务的样本效率仍然存在。人类在学习方面的非凡效率至少部分归因于其利用组成性的能力,以便他们可以在学习新任务时有效利用先前获得的知识。在这里,我们介绍了一种新颖的视觉推理基准组成视觉关系(CVR),以推动发展更多数据有效学习算法的进步。我们从流体智能和非语言推理测试中汲取灵感,并描述一种新的方法,用于创建抽象规则和相关图像数据集的组成。我们提出的基准包括跨任务规则的样本效率,概括和转移的度量,以及利用组合性的能力。我们系统地评估现代神经体系结构,发现令人惊讶的是,在大多数数据制度中,卷积架构在所有性能指标中都超过了基于变压器的体系结构。但是,即使在使用自学意见书学习信息性的视觉表示之后,与人类相比,所有计算模型的数据效率要少得多。总体而言,我们希望我们的挑战能够激发人们对可以学会利用构图朝着更高效学习的神经体系结构发展的兴趣。
translated by 谷歌翻译
人类在解析和灵活地理解复杂的视觉场景的能力方面继续大大胜过现代AI系统。注意力和记忆是已知的两个系统,它们在我们选择性地维护和操纵与行为相关的视觉信息的能力中起着至关重要的作用,以解决一些最具挑战性的视觉推理任务。在这里,我们介绍了一种新颖的体系结构,用于视觉推理的认知科学文献,基于记忆和注意力(视觉)推理(MAREO)架构。 Mareo实例化了一个主动视觉理论,该理论认为大脑通过学习结合以前学习的基本视觉操作以形成更复杂的视觉例程来在构成中解决复杂的视觉推理问题。 Mareo学会通过注意力转移序列来解决视觉推理任务,以路由并通过多头变压器模块将与任务相关的视觉信息保持在存储库中。然后,通过训练有素的专用推理模块来部署视觉例程,以判断场景中对象之间的各种关系。对四种推理任务的实验证明了Mareo以强大和样品有效的方式学习视觉例程的能力。
translated by 谷歌翻译
当今最先进的机器学习型号几乎无法审查。解释性方法的主要挑战是通过揭示导致给定决定的策略,通过表征其内部状态或研究基础数据表示来帮助研究人员开放这些黑匣子。为了应对这一挑战,我们开发了Xplique:一种用于解释性的软件库,其中包括代表性的解释性方法以及相关的评估指标。它与最受欢迎的学习库之一接口:Tensorflow以及其他图书馆,包括Pytorch,Scikit-Learn和Theano。该代码是根据MIT许可证获得许可的,可在Github.com/deel-ai/xplique上免费获得。
translated by 谷歌翻译
长期以来,对新概念的强大概括一直是人类智力的独特特征。然而,深层生成模型的最新进展已导致神经体系结构能够从单个训练示例中综合新的视觉概念实例。但是,这些模型与人之间的更精确比较是不可能的,因为生成模型的现有性能指标(即FID,IS,可能性)不适合单次生成场景。在这里,我们提出了一个新框架,以评估沿两个轴的单发生成模型:样本可识别性与多样性(即类内变异性)。使用此框架,我们对Omniglot手写数据集上的代表性单弹性生成模型进行系统评估。我们首先表明类似GAN的模型属于多样性可识别性空间的相对端。对关键模型参数效果的广泛分析进一步表明,空间注意力和上下文集成对多样性可识别性的权衡具有线性贡献。相比之下,解散将模型沿抛物线曲线运输,该模型可用于最大化识别率。使用多样性可识别性框架,我们能够识别紧密近似人类数据的模型和参数。
translated by 谷歌翻译
深度强化学习已经证明了通过梯度下降调整的神经网络的潜力,以解决良好的环境中的复杂任务。但是,这些神经系统是缓慢的学习者,生产专门的药物,没有任何机制,无法继续学习培训课程。相反,生物突触可塑性是持久和多种多样的,并被认为在执行功能中起关键作用,例如工作记忆和认知灵活性,可能支持更高效和更通用的学习能力。受此启发的启发,我们建议建立具有动态权重的网络,能够不断执行自反射修改,这是其当前突触状态和动作奖励反馈的函数,而不是固定的网络配置。最终的模型,Metods(用于元优化的动力突触)是一种广泛适用的元强制学习系统,能够在代理策略空间中学习有效而强大的控制规则。具有动态突触的单层可以执行单次学习,将导航原则概括为看不见的环境,并表现出强大的学习自适应运动策略的能力,并与以前的元强化学习方法进行了比较。
translated by 谷歌翻译
已经提出了多种解释性方法和理论评价分数。然而,尚不清楚:(1)这些方法有多有用的现实情景和(2)理论措施如何预测人类实际使用方法的有用性。为了填补这一差距,我们在规模中进行了人类的心理物理学实验,以评估人类参与者(n = 1,150)以利用代表性归因方法学习预测不同图像分类器的决定的能力。我们的结果表明,用于得分的理论措施可解释方法的反映在现实世界方案中的个人归因方法的实际实用性不佳。此外,个人归因方法帮助人类参与者预测分类器的决策的程度在分类任务和数据集中广泛变化。总体而言,我们的结果突出了该领域的根本挑战 - 建议致力于开发更好的解释方法和部署人以人为本的评估方法。我们将制定框架的代码可用于缓解新颖解释性方法的系统评估。
translated by 谷歌翻译
我们描述了一种新颖的归因方法,它基于敏感性分析并使用Sobol指数。除了模拟图像区域的个人贡献之外,索尔索尔指标提供了一种有效的方法来通过方差镜头捕获图像区域与其对神经网络的预测的贡献之间的高阶相互作用。我们描述了一种通过使用扰动掩模与有效估计器耦合的扰动掩模来计算用于高维问题的这些指标的方法,以处理图像的高维度。重要的是,我们表明,与其他黑盒方法相比,该方法对视觉(和语言模型)的标准基准测试的标准基准有利地导致了有利的分数 - 甚至超过最先进的白色的准确性 - 需要访问内部表示的箱方法。我们的代码是免费的:https://github.com/fel-thomas/sobol-attribution-method
translated by 谷歌翻译
视觉理解需要了解场景中对象之间的复杂视觉关系。在这里,我们寻求描述抽象视觉推理的计算需求。我们通过系统地评估现代深度卷积神经网络(CNNS)的能力来学习解决“综合视觉推理测试”(SVRT)挑战,是二十三个视觉推理问题的集合。我们的分析揭示了视觉推理任务的新型分类,这可以通过关系类型(相同的与空间关系判断)和用于构成基本规则的关系数量来解释。先前的认知神经科学工作表明,注意力在人类的视觉推理能力中发挥着关键作用。为了测试这一假设,我们将CNN扩展了基于空间和基于特征的注意力机制。在第二系列实验中,我们评估了这些注意网络学习解决SVRT挑战的能力,并发现所产生的架构在解决这些视觉推理任务中最艰难的架构。最重要的是,对个人任务的相应改进部分地解释了我们的新型分类法。总体而言,这项工作提供了视觉推理的粒度计算账户,并产生关于基于特征的与空间关注的差异需求的可测试神经科学预测,具体取决于视觉推理问题的类型。
translated by 谷歌翻译