深度卷积神经网络(DCNN)最初是受生物视觉原理的启发,已演变为对象识别的最佳当前计算模型,因此表明在整个与神经图像和神经时间序列数据的比较中,都表明了与腹视觉途径的强大结构和功能并行性。随着深度学习的最新进展似乎降低了这种相似性,计算神经科学面临挑战,以逆转工程,以获得有用模型的生物学合理性。虽然先前的研究表明,生物学启发的体系结构能够扩大模型的人类风格,但在本研究中,我们研究了一种纯粹的数据驱动方法。我们使用人类的眼睛跟踪数据来直接修改训练示例,从而指导模型在自然图像中对象识别期间的视觉注意力朝着或远离人类固定的焦点。我们通过GARGCAM显着性图比较和验证不同的操纵类型(即标准,类人类和非人类的注意力)与人类参与者的眼动数据。我们的结果表明,与人类相比,所提出的指导焦点操作的作用是在负方向上的意图,而非人类样模型则集中在明显不同的图像部分上。观察到的效果是高度类别特异性的,它通过动画和面部的存在增强,仅在完成前馈处理后才开发,并表明对面部检测产生了强烈的影响。然而,使用这种方法,没有发现人类的类似性。讨论了公开视觉注意力在DCNN中的可能应用,并讨论了对面部检测理论的进一步影响。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
深度卷积神经网络(DCNN)已成为生物对象识别的最新计算模型。他们的杰出成功帮助了Vision Science打破了新的基础。因此,最近的努力已经开始将这一成就转移到生物面部识别领域。在这方面,可以通过比较面部选择性生物学区域和神经元与人造层和单位进行比较来研究面部检测。同样,可以通过体内和硅面空间表示的比较来检查面部识别。在这个迷你审查中,我们总结了第一批研究。我们认为DCNN是有用的模型,它遵循生物面部识别的一般分层组织。在两个聚光灯下,我们强调了这些模型的独特科学贡献。首先,DCNN中有关面部检测的研究表明,基本面部选择性会通过前馈过程自动出现。其次,DCNN中有关面部识别的研究表明,这项挑战需要经验和其他生成机制。综上所述,由于这种新颖的计算方法能够密切控制倾向(即体系结构)和经验(即培训数据),因此这也可以为关于生物面部识别的底物的长期辩论提供详细介绍。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
The many successes of deep neural networks (DNNs) over the past decade have largely been driven by computational scale rather than insights from biological intelligence. Here, we explore if these trends have also carried concomitant improvements in explaining the visual strategies humans rely on for object recognition. We do this by comparing two related but distinct properties of visual strategies in humans and DNNs: where they believe important visual features are in images and how they use those features to categorize objects. Across 84 different DNNs trained on ImageNet and three independent datasets measuring the where and the how of human visual strategies for object recognition on those images, we find a systematic trade-off between DNN categorization accuracy and alignment with human visual strategies for object recognition. State-of-the-art DNNs are progressively becoming less aligned with humans as their accuracy improves. We rectify this growing issue with our neural harmonizer: a general-purpose training routine that both aligns DNN and human visual strategies and improves categorization accuracy. Our work represents the first demonstration that the scaling laws that are guiding the design of DNNs today have also produced worse models of human vision. We release our code and data at https://serre-lab.github.io/Harmonization to help the field build more human-like DNNs.
translated by 谷歌翻译
许多领域的研究表明,转移学习(TL)非常适合提高具有少量样品的数据集中深度学习(DL)模型的性能。这种经验成功引发了对具有功能神经影像数据的认知解码分析的应用的兴趣。这里,我们系统地评估了从全脑功能磁共振成像(FMRI)数据的认知状态(例如,观看面部或房屋图像)的解码的TL。我们首先在大型公共FMRI数据集中预先列出两个DL架构,随后在独立实验任务和完全独立的数据集中评估其性能。预先训练的模型始终如一地达到更高的解码精度,并且通常需要较少的训练时间和数据,而不是模型变形,这些模型变体没有预先接受培训,明确强调预制培训的好处。我们证明,这些益处是由于预先训练的模型在使用新数据培训时重用了许多学习功能的这些益处,从而深入了解导致预训练的好处的机制。然而,在解释预先训练模型的解码决策时,我们还通过DL模型对全脑认知解码进行了差别挑战,因为这些已经学会了在不可预见的情况下利用FMRI数据和识别单个认知状态的违反直觉方式。
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
视觉搜索是一项普遍存在的,通常挑战日常任务,是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性,使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制,我们提出了一种占据目标的计算模型和将搜索图像作为输入,并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训,则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何,而无需特定于任务培训,而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。
translated by 谷歌翻译
人类不断受到他人的行为和观点的影响。至关重要的是,人类之间的社会影响是由互惠构成的:我们更多地遵循一直在考虑我们意见的人的建议。在当前的工作中,我们研究了与社会类人机器人互动时相互影响的影响是否可以出现。在一项联合任务中,人类参与者和人形机器人进行了感知估计,然后在观察伴侣的判断后可以公开修改它们。结果表明,赋予机器人表达和调节其对人类判断的易感水平的能力代表了双刃剑。一方面,当机器人遵循他们的建议时,参与者对机器人的能力失去了信心。另一方面,参与者不愿透露他们对易感机器人缺乏信心,这表明出现了支持人类机器人合作的社会影响力的相互机制。
translated by 谷歌翻译
深度神经网络在计算机视觉中的许多任务中设定了最先进的,但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下,哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明,这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里,我们成功利用了多任务学习方法的这些归纳偏差:我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层(V1)中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现,尽管在训练期间没有这些扭曲,但猴子V1数据的共同训练导致鲁棒性增加。此外,我们表明,我们的网络的鲁棒性非常接近Oracle网络的稳定性,其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明,随着鲁布利的改善,网络的表示变得更加大脑。使用新颖的约束重建分析,我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比,我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图,用于想象成像图像,我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感,让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言,我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径,并为我们转移的影响提供了新的分析。
translated by 谷歌翻译
我们在动态环境中跟踪多个物体的能力使我们能够执行日常任务,例如驾驶,运动运动和在拥挤的购物中心行走。尽管有关多个对象跟踪(MOT)任务的三十年文献,但基本和交织的神经机制仍然知之甚少。在这里,我们研究了脑电图(EEG)神经相关性及其在3D-MOT任务的三个阶段的变化,即识别,跟踪和回忆。我们记录了24名参与者的脑电图活动,而他们执行了3D-MOT任务,其中有1、2或3个目标,其中一些试验被横向进行,有些则没有。我们观察到从跟踪到回忆时,集中注意力与工作记忆过程之间似乎是一种交接。我们的发现表明,在跟踪过程中,从额叶区域的三角洲和theta频率有很强的抑制作用,随后在召回过程中对这些相同频率的激活强烈(重新)激活。我们的结果还显示了在识别阶段和召回阶段的对侧延迟活性(CDA),但在跟踪过程中没有。
translated by 谷歌翻译
科学家经常使用观察时间序列数据来研究从气候变化到民间冲突再到大脑活动的复杂自然过程。但是对这些数据的回归分析通常假定简单的动态。深度学习的最新进展使从语音理解到核物理学再到竞争性游戏的复杂过程模型的表现实现了令人震惊的改进。但是深度学习通常不用于科学分析。在这里,我们通过证明可以使用深度学习,不仅可以模仿,而且可以分析复杂的过程,在保留可解释性的同时提供灵活的功能近似。我们的方法 - 连续时间反向逆转回归神经网络(CDRNN) - 放宽标准简化的假设(例如,线性,平稳性和同质性)对于许多自然系统来说是不可信的,并且可能会严重影响数据的解释。我们评估CDRNNS对人类语言处理,这是一个具有复杂连续动态的领域。我们证明了行为和神经影像数据中预测可能性的显着改善,我们表明CDRNN可以在探索性分析中灵活发现新型模式,在确认分析中对可能的混杂性提供强有力的控制,并打开否则就可以使用这些问题来进行研究,这些问题否则就可以使用这些问题来进行研究,而这些问题否则就可以使用这些问题进行研究,而这些问题否则就可以使用这些问题进行研究。观察数据。
translated by 谷歌翻译
生物视觉系统的神经基础在实验上研究很具有挑战性,特别是因为相对于视觉输入,神经元活性变得越来越非线性。人工神经网络(ANN)可以为改善我们对这一复杂系统的理解提供各种目标,不仅充当硅中新假设产生的感觉皮层的预测数字双胞胎,而且还融合了生物启发的建筑主题,以逐步桥接桥梁生物和机器视觉之间的差距。该鼠标最近已成为研究视觉信息处理的流行模型系统,但是尚未确定识别鼠标视觉系统最新模型的标准化大规模基准。为了填补这一空白,我们提出了感官基准竞赛。我们从小鼠初级视觉皮层中收集了一个大规模数据集,其中包含七个小鼠的28,000多个神经元的反应,并通过数千个自然图像刺激,以及同时的行为测量,包括跑步速度,瞳孔扩张和眼动。基准挑战将基于固定测试集​​中神经元响应的预测性能对模型进行对模型,其中包括两个模型输入的轨道,仅限于刺激(感觉到)或刺激加行为(感觉符号+)。我们提供一个起始套件,以降低进入障碍的障碍,包括教程,预训练的基线模型以及带有一条线命令以进行数据加载和提交的API。我们希望将其视为定期挑战和数据发布的起点,也是衡量鼠标视觉系统及其他大规模神经系统识别模型中进度的标准工具。
translated by 谷歌翻译
解释视觉场景的含义不仅需要识别其成分对象,还需要对象相互关系的丰富语义表征。在这里,我们通过将现代计算技术应用于复杂自然场景引起的人类脑反应的大规模7T fMRI数据集,研究视觉语义转换的神经机制。使用通过将语言深度学习模型应用于人类生成的场景描述获得的语义嵌入,我们确定了编码语义场景描述的大脑区域的广泛分布网络。重要的是,这些语义嵌入比传统对象类别标签更好地解释了这些区域的活动。此外,尽管参与者没有积极从事语义任务,但它们还是活动的有效预测指标,这表明Visuo-Semantic转换是默认的视觉方式。为了支持这种观点,我们表明,可以直接通过大脑活动模式直接将场景字幕的高度精确重建。最后,经过语义嵌入训练的经常性卷积神经网络进一步超过了语义嵌入在预测大脑活动时的语义嵌入,从而提供了大脑视觉语义转换的机械模型。这些实验和计算结果在一起表明,将视觉输入转换为丰富的语义场景描述可能是视觉系统的核心目标,并且将重点放在这一新目标上可能会导致改进人类大脑中视觉信息处理的模型。
translated by 谷歌翻译
卷积神经网络(CNNS)容易受到对抗的攻击,将微型噪声添加到图像中的现象可以欺骗CNNS被错误分类。因为这种噪声对人类观察者几乎是不可察觉的,所以假设生物视觉对抗对抗性攻击是鲁棒性的。尽管具有这种明显的鲁棒性差异,但CNN是目前是生物视觉的最佳模型,揭示了脑部响应对抗性图像的响应方式的差距。实际上,对正常情况下的生物视觉尚未测量对逆势攻击的敏感性,也没有专门用于影响生物视觉的攻击方法。我们研究了对抗性攻击对灵长类动物视力的影响,测量猴神经元反应和人类行为。通过从一个类别(例如人面)来修改图像来创建对抗性图像,看起来像目标类别(例如猴子面),同时限制像素值改变。我们通过几种攻击方法测试了三次攻击方向,包括使用CNN对抗性图像并使用基于CNN的预测模型来指导猴子视觉神经元反应。我们认为广泛的图像变化大幅度,涉及攻击成功率高达> 90%。我们发现为CNN设计的对抗性图像在攻击灵长类动物视觉时无效。即使在考虑最佳的攻击方法时,灵长类动物的视觉也比CNN的集合攻击更强大,而不是CNN的集合,需要超过100倍的图像改变以成功攻击。单个攻击方法和图像的成功与猴子神经元和人类行为之间相关,但在分类和CNN分类之间不太相关。始终如一地,当在自然图像培训时,基于CNN的神经元模型并未概括地解释对对抗性图像的神经元反应。
translated by 谷歌翻译
Taking advice from others requires confidence in their competence. This is important for interaction with peers, but also for collaboration with social robots and artificial agents. Nonetheless, we do not always have access to information about others' competence or performance. In these uncertain environments, do our prior beliefs about the nature and the competence of our interacting partners modulate our willingness to rely on their judgments? In a joint perceptual decision making task, participants made perceptual judgments and observed the simulated estimates of either a human participant, a social humanoid robot or a computer. Then they could modify their estimates based on this feedback. Results show participants' belief about the nature of their partner biased their compliance with its judgments: participants were more influenced by the social robot than human and computer partners. This difference emerged strongly at the very beginning of the task and decreased with repeated exposure to empirical feedback on the partner's responses, disclosing the role of prior beliefs in social influence under uncertainty. Furthermore, the results of our functional task suggest an important difference between human-human and human-robot interaction in the absence of overt socially relevant signal from the partner: the former is modulated by social normative mechanisms, whereas the latter is guided by purely informational mechanisms linked to the perceived competence of the partner.
translated by 谷歌翻译
这篇理论文章研究了如何在计算机中构建类似人类的工作记忆和思维过程。应该有两个工作记忆存储,一个类似于关联皮层中的持续点火,另一个类似于大脑皮层中的突触增强。这些商店必须通过环境刺激或内部处理产生的新表示不断更新。它们应该连续更新,并以一种迭代的方式进行更新,这意味着在下一个状态下,应始终保留一组共同工作中的某些项目。因此,工作记忆中的一组概念将随着时间的推移逐渐发展。这使每个状态都是对先前状态的修订版,并导致连续的状态与它们所包含的一系列表示形式重叠和融合。随着添加新表示形式并减去旧表示形式,在这些更改过程中,有些保持活跃几秒钟。这种持续活动,类似于人工复发性神经网络中使用的活动,用于在整个全球工作区中传播激活能量,以搜索下一个关联更新。结果是能够朝着解决方案或目标前进的联想连接的中间状态链。迭代更新在这里概念化为信息处理策略,一种思想流的计算和神经生理决定因素以及用于设计和编程人工智能的算法。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译