阅读和驾驶等日常任务的核心是主动对象识别。目前无法合并时间来阻碍建模此类任务的尝试。人们在速度和准确性之间表现出灵活的权衡,而这种权衡是至关重要的人类技能。深层神经网络已成为预测人类对象识别峰值和神经活动的有前途的候选人。但是,建模时间维度,即速度准确性权衡(SAT),对于它们作为人类如何识别对象的有用计算模型至关重要。为此,我们在这里介绍了第一个大规模(148个观察者,4个神经网络,8个任务)数据集,该数据集是识别Imagenet图像时速度准确性折衷(SAT)。在每个人类试验中,哔哔声表示所需的反应时间,在显示图像后以固定的延迟发出声音,并且观察者的响应仅在哔哔声附近发生时才计算。在一系列块中,我们测试了许多蜂鸣延迟,即反应时间。我们观察到人类的准确性随反应时间的增加而增加,并继续将其特征与能够推理时间自适应计算的几个动态神经网络的行为进行比较。我们将FLOPS作为反应时间的模拟,我们将网络与人类在曲线拟合误差,类别相关性和曲线陡度中进行比较,并得出结论,级联的动态神经网络是对象识别任务中人类反应时间的有希望的模型。
translated by 谷歌翻译
视觉搜索是一项普遍存在的,通常挑战日常任务,是通过寻找家中的汽车钥匙或在人群中的朋友。一些经典搜索任务的有趣性属性是一种不对称性,使得在分散的人B中找到目标A可以比找到A中的B.为了阐明对视觉搜索中的不对称负责的机制,我们提出了一种占据目标的计算模型和将搜索图像作为输入,并在找到目标之前产生一系列眼睛移动。该模型将偏心依赖性视觉识别与目标相关的自上而下的提示集成在一起。我们将六种范式搜索任务中的人类行为与人类显示不对称的案式进行比较。如果没有先前接触刺激或任务特定的培训,则该模型提供了搜索不对称的合理机制。我们假设搜索不对称的极性来自自然环境的经验。我们通过培训模型在想象中的增强版本的模型进行测试,其中自然图像的偏差被移除或逆转。根据训练协议,搜索不对称的极性消失或被改变。本研究强调了神经网络模型可以出现古典感知特性如何,而无需特定于任务培训,而是由于馈送到模型的发育饮食的统计特性。所有源代码和数据都在https://github.com/kreimanlab/visualsearchaseSearmmetry上公开使用。
translated by 谷歌翻译
虽然深馈神经网络与灵长类动物视觉系统共享一些特征,但一个关键区别是他们的动态。深网络通常在串行阶段操作,其中每个层在处理开始于后续层之前完成其计算。相反,生物系统具有级联动力学:信息从所有层的神经元并行地传播,但是逐渐发生变速器,即使在馈送架构中也逐渐发生速度准确性贸易。我们通过构造级联的RESNET来探讨生物学激活的并行硬件的后果,其中每个残差块具有传播延迟,但所有块以状态方式更新。由于通过跳过连接传输的信息避免了延迟,所以架构的功能深度随着时间的推移而增加,因此随时通过内部处理时间来改善的任何时间预测。我们介绍了一个时间差异的培训损失,通过标准损耗实现了严格卓越的速度准确性概况,并使级联架构能够以最先进的任何时间预测方法。级联体系结构具有迷恋属性,包括:它比非典型实例更快地分类典型实例;对于持久性和瞬态噪声比传统的reset来说更强大;其时变输出跟踪提供了一种可以利用以改善信息处理和推理的信号。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
人类识别对象何时已知或当前新颖的能力胜过所有开放式识别算法。通过心理学视觉心理物理学的方法和过程来衡量的人类感知可以为计算机视觉中的视觉识别任务中的新颖性提供附加的数据流。例如,人类受试者的测量反应时间可以提供有关是否可能与新颖的样本相混淆的洞察力。在这项工作中,我们设计并进行了大规模的行为实验,该实验收集了超过200,000种与物体识别相关的人类反应时间测量。收集的数据指示的反应时间在样本级别的对象之间有意义地变化。因此,我们设计了一种新的心理物理损失函数,该函数在深网中与人类行为保持一致性,该函数在不同图像中显示出可变的反应时间。与生物学愿景一样,这种方法使我们能够在标记有限的培训数据的制度中实现良好的开放式识别性能。通过使用来自ImageNet的数据的实验,当训练具有这种新配方的多尺度登记材料时,可以观察到显着改善:经过损失功能训练的模型可显着提高TOP-1验证精度7%,对已知样品的TOP-1测试准确性提高18% ,以及未知样品的TOP-1测试精度33%。我们将我们的方法与文献中的10种开放式识别方法进行了比较,这些方法在多个指标上的表现都优于。
translated by 谷歌翻译
精确了解人造网络中为何对某些刺激作出反应的单位会致力于解释人工智能的一步。一个广泛使用的方法对此目标是通过激活最大化来可视化单元响应。这些合成特征可视化被声称提供了具有关于导致单元被激活的图像特征的精确信息的人类 - 在其他替代方案中具有强烈激活的自然数据集样本的优点。如果人类确实获得了可视化的因果洞察,这应该使它们能够预测干预的效果,例如如何遮挡图像的某些斑块(例如,狗的头部)改变单位的激活。在这里,我们通过询问人类来确定两个方形遮挡中的哪一个来测试这个假设,导致单元的激活更大。具有专家的大规模众群实验和测量结果表明,平均奥拉等人的激活特征可视化。 (2017)确实帮助人类对此任务(68美元\ PM 4 $%的准确性;没有任何可视化的基线表现为60份\ PM 3 $%)。然而,它们不提供其他可视化(例如DataSet样本)的任何实质性优势,其产生类似的性能(66美元,PM3 $%至67美元\ PM3 $%准确性)。我们联合起来,提出了一个客观的心理物理任务来量化单位级别解释性方法对人类的益处,并且没有证据表明,广泛使用的特征可视化方法提供了比简单的替代可视化的单位激活更好的“因果理解”。
translated by 谷歌翻译
深度神经网络在图像分类中Excel Excel,但它们对输入扰动的性能比人类感知更强。在这项工作中,我们可以通过在深卷积网络中纳入脑激发的经常性动态来探讨此缺点是否可以部分地解决。我们从神经科学的一个受欢迎的框架中获取灵感:“预测编码”。在分层模型的每层,生成反馈'预测'(即,重建)前一层中的活动模式。重建错误用于迭代地更新时间间隔内的网络的表示,并通过自然图像数据集来优化网络的反馈权重 - 一种无监督的培训形式。我们展示将此策略实施到两个流行的网络中,VGG16和高效网络,从而提高了对各种损坏和对抗的攻击的鲁棒性。我们假设其他前馈网络可以类似地受益于所提出的框架。为了在这种方向上促进研究,我们提供称为PRIGEIFY的基于开放的Pytorch的包,其可用于实施和研究预测编码动态在任何卷积神经网络中的影响。
translated by 谷歌翻译
深度神经网络在计算机视觉中的许多任务中设定了最先进的,但它们的概括对象扭曲的能力令人惊讶地是脆弱的。相比之下,哺乳动物视觉系统对广泛的扰动是强大的。最近的工作表明,这种泛化能力可以通过在整个视觉皮层中的视觉刺激的表示中编码的有用的电感偏差来解释。在这里,我们成功利用了多任务学习方法的这些归纳偏差:我们共同训练了深度网络以进行图像分类并预测猕猴初级视觉皮层(V1)中的神经活动。我们通过测试其对图像扭曲的鲁棒性来衡量我们网络的分发广泛性能力。我们发现,尽管在训练期间没有这些扭曲,但猴子V1数据的共同训练导致鲁棒性增加。此外,我们表明,我们的网络的鲁棒性非常接近Oracle网络的稳定性,其中架构的部分在嘈杂的图像上直接培训。我们的结果还表明,随着鲁布利的改善,网络的表示变得更加大脑。使用新颖的约束重建分析,我们调查了我们的大脑正规网络更加强大的原因。与我们仅对图像分类接受培训的基线网络相比,我们的共同训练网络对内容比噪声更敏感。使用深度预测的显着性图,用于想象成像图像,我们发现我们的猴子共同训练的网络对场景中的突出区域倾向更敏感,让人想起V1在对象边界的检测中的作用和自下而上的角色显着性。总体而言,我们的工作扩大了从大脑转移归纳偏见的有前途的研究途径,并为我们转移的影响提供了新的分析。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
{g} {ustav} Fechner 1860年的心理物理学描述,即对其刺激的感觉的测量,被广泛认为是现代心理科学的出现。在心理物理学中,研究人员的参数会改变刺激的某些方面,并衡量人类受试者对该刺激的经历的变化;这样做可以深入了解感觉与唤起它的物理输入之间的关系。这种方法在感知域中大量使用,包括信号检测,阈值测量和理想的观察者分析。像视觉科学这样的科学领域始终依靠心理物理学的方法和程序,但是现在,机器学习研究人员对它们的越来越多,通过在生物学和人工感知之间扩大重叠\ cite \ cite {rojas2011automation {scheireratom,scheirer2014Perceptial2014Perceptual,Escalera2014ChaleAr2014Chalearearearearearnnag,Zhangy2018Agic, grieggs2021measuring}。由行为测量所指导的机器感知,而不是仅限于任意分配人类标签的指导,具有为人工智能进一步进步的巨大潜力。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译
各种工作表明,图像的令人难忘性在人们中一致,因此可以被视为图像的内在特性。使用计算机视觉模型,我们可以对人们记住或忘记做出具体的预测。虽然老工作已经使用了现在过时的深度学习架构来预测图像令人难忘,但该领域的创新使我们的新技术适用于这个问题。在这里,我们提出并评估了五个替代的深度学习模型,在过去五年中利用现场开发的替代深度学习模型,这主要是引入残余神经网络,这旨在允许模型在令人难忘的估计过程中使用语义信息。通过构建的组合数据集进行了本领域的先前状态测试这些新模型,以优化类别内和跨类别预测。我们的研究结果表明,关键的令人难忘网络夸大了其概括性,并在其培训集上被过度了。我们的新模型优于此前的模型,导致我们得出结论,残差网络在令人难忘的回归中占据了更简单的卷积神经网络。我们使新的最先进的模型容易获得研究界,允许内存研究人员对更广泛的图像上的难忘性进行预测。
translated by 谷歌翻译
神经记录的进展现在在前所未有的细节中研究神经活动的机会。潜在的变量模型(LVMS)是用于分析各种神经系统和行为的丰富活动的有希望的工具,因为LVM不依赖于活动与外部实验变量之间的已知关系。然而,目前缺乏标准化目前阻碍了对神经元群体活性的LVM进行的进展,导致采用临时方式进行和比较方法。为协调这些建模工作,我们为神经人群活动的潜在变量建模介绍了基准套件。我们从认知,感官和机动领域策划了四种神经尖峰活动的数据集,以促进适用于这些地区各地的各种活动的模型。我们将无监督的评估视为用于评估数据集的模型的共同框架,并应用几个显示基准多样性的基线。我们通过评估释放此基准。 http://neurallatents.github.io.
translated by 谷歌翻译
尽管当前的视觉算法在许多具有挑战性的任务上都表现出色,但尚不清楚他们如何理解现实世界环境的物理动态。在这里,我们介绍了Physion,一种数据集和基准,用于严格评估预测物理场景如何随着时间而发展的能力。我们的数据集具有对各种物理现象的现实模拟,包括刚性和软体体碰撞,稳定的多对象配置,滚动,滑动和弹丸运动,因此比以前的基准提供了更全面的挑战。我们使用Physion来基准一套模型,其体系结构,学习目标,投入输出结构和培训数据各不相同。同时,我们在同一场景上获得了人类预测行为的精确测量,从而使我们能够直接评估任何模型能够近似人类行为的效果。我们发现,学习以对象为中心的表示的视觉算法通常优于那些没有人的表现,但仍未达到人类绩效。另一方面,绘制具有直接访问物理状态信息的神经网络的表现效果更好,并且做出与人类制作的预测更相似。这些结果表明,提取场景的物理表征是在视力算法中实现人类水平和类似人类的物理理解的主要瓶颈。我们已公开发布了所有数据和代码,以促进使用物理以完全可重现的方式对其他模型进行基准测试,从而使对视觉算法的进度进行系统的评估,这些算法像人们一样坚固地了解物理环境。
translated by 谷歌翻译
People learning new concepts can often generalize successfully from just a single example, yet machine learning algorithms typically require tens or hundreds of examples to perform with similar accuracy. People can also use learned concepts in richer ways than conventional algorithms-for action, imagination, and explanation. We present a computational model that captures these human learning abilities for a large class of simple visual concepts: handwritten characters from the world's alphabets. The model represents concepts as simple programs that best explain observed examples under a Bayesian criterion. On a challenging one-shot classification task, the model achieves human-level performance while outperforming recent deep learning approaches. We also present several "visual Turing tests" probing the model's creative generalization abilities, which in many cases are indistinguishable from human behavior.
translated by 谷歌翻译
Convolutional Neural Networks (CNNs) are commonly thought to recognise objects by learning increasingly complex representations of object shapes. Some recent studies suggest a more important role of image textures. We here put these conflicting hypotheses to a quantitative test by evaluating CNNs and human observers on images with a texture-shape cue conflict. We show that ImageNettrained CNNs are strongly biased towards recognising textures rather than shapes, which is in stark contrast to human behavioural evidence and reveals fundamentally different classification strategies. We then demonstrate that the same standard architecture (ResNet-50) that learns a texture-based representation on ImageNet is able to learn a shape-based representation instead when trained on 'Stylized-ImageNet', a stylized version of ImageNet. This provides a much better fit for human behavioural performance in our well-controlled psychophysical lab setting (nine experiments totalling 48,560 psychophysical trials across 97 observers) and comes with a number of unexpected emergent benefits such as improved object detection performance and previously unseen robustness towards a wide range of image distortions, highlighting advantages of a shape-based representation.
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
卷积神经网络(CNNS)容易受到对抗的攻击,将微型噪声添加到图像中的现象可以欺骗CNNS被错误分类。因为这种噪声对人类观察者几乎是不可察觉的,所以假设生物视觉对抗对抗性攻击是鲁棒性的。尽管具有这种明显的鲁棒性差异,但CNN是目前是生物视觉的最佳模型,揭示了脑部响应对抗性图像的响应方式的差距。实际上,对正常情况下的生物视觉尚未测量对逆势攻击的敏感性,也没有专门用于影响生物视觉的攻击方法。我们研究了对抗性攻击对灵长类动物视力的影响,测量猴神经元反应和人类行为。通过从一个类别(例如人面)来修改图像来创建对抗性图像,看起来像目标类别(例如猴子面),同时限制像素值改变。我们通过几种攻击方法测试了三次攻击方向,包括使用CNN对抗性图像并使用基于CNN的预测模型来指导猴子视觉神经元反应。我们认为广泛的图像变化大幅度,涉及攻击成功率高达> 90%。我们发现为CNN设计的对抗性图像在攻击灵长类动物视觉时无效。即使在考虑最佳的攻击方法时,灵长类动物的视觉也比CNN的集合攻击更强大,而不是CNN的集合,需要超过100倍的图像改变以成功攻击。单个攻击方法和图像的成功与猴子神经元和人类行为之间相关,但在分类和CNN分类之间不太相关。始终如一地,当在自然图像培训时,基于CNN的神经元模型并未概括地解释对对抗性图像的神经元反应。
translated by 谷歌翻译
解释视觉场景的含义不仅需要识别其成分对象,还需要对象相互关系的丰富语义表征。在这里,我们通过将现代计算技术应用于复杂自然场景引起的人类脑反应的大规模7T fMRI数据集,研究视觉语义转换的神经机制。使用通过将语言深度学习模型应用于人类生成的场景描述获得的语义嵌入,我们确定了编码语义场景描述的大脑区域的广泛分布网络。重要的是,这些语义嵌入比传统对象类别标签更好地解释了这些区域的活动。此外,尽管参与者没有积极从事语义任务,但它们还是活动的有效预测指标,这表明Visuo-Semantic转换是默认的视觉方式。为了支持这种观点,我们表明,可以直接通过大脑活动模式直接将场景字幕的高度精确重建。最后,经过语义嵌入训练的经常性卷积神经网络进一步超过了语义嵌入在预测大脑活动时的语义嵌入,从而提供了大脑视觉语义转换的机械模型。这些实验和计算结果在一起表明,将视觉输入转换为丰富的语义场景描述可能是视觉系统的核心目标,并且将重点放在这一新目标上可能会导致改进人类大脑中视觉信息处理的模型。
translated by 谷歌翻译
科学家经常使用观察时间序列数据来研究从气候变化到民间冲突再到大脑活动的复杂自然过程。但是对这些数据的回归分析通常假定简单的动态。深度学习的最新进展使从语音理解到核物理学再到竞争性游戏的复杂过程模型的表现实现了令人震惊的改进。但是深度学习通常不用于科学分析。在这里,我们通过证明可以使用深度学习,不仅可以模仿,而且可以分析复杂的过程,在保留可解释性的同时提供灵活的功能近似。我们的方法 - 连续时间反向逆转回归神经网络(CDRNN) - 放宽标准简化的假设(例如,线性,平稳性和同质性)对于许多自然系统来说是不可信的,并且可能会严重影响数据的解释。我们评估CDRNNS对人类语言处理,这是一个具有复杂连续动态的领域。我们证明了行为和神经影像数据中预测可能性的显着改善,我们表明CDRNN可以在探索性分析中灵活发现新型模式,在确认分析中对可能的混杂性提供强有力的控制,并打开否则就可以使用这些问题来进行研究,这些问题否则就可以使用这些问题来进行研究,而这些问题否则就可以使用这些问题进行研究,而这些问题否则就可以使用这些问题进行研究。观察数据。
translated by 谷歌翻译