深度卷积神经网络(DCNN)已成为生物对象识别的最新计算模型。他们的杰出成功帮助了Vision Science打破了新的基础。因此,最近的努力已经开始将这一成就转移到生物面部识别领域。在这方面,可以通过比较面部选择性生物学区域和神经元与人造层和单位进行比较来研究面部检测。同样,可以通过体内和硅面空间表示的比较来检查面部识别。在这个迷你审查中,我们总结了第一批研究。我们认为DCNN是有用的模型,它遵循生物面部识别的一般分层组织。在两个聚光灯下,我们强调了这些模型的独特科学贡献。首先,DCNN中有关面部检测的研究表明,基本面部选择性会通过前馈过程自动出现。其次,DCNN中有关面部识别的研究表明,这项挑战需要经验和其他生成机制。综上所述,由于这种新颖的计算方法能够密切控制倾向(即体系结构)和经验(即培训数据),因此这也可以为关于生物面部识别的底物的长期辩论提供详细介绍。
translated by 谷歌翻译
深度卷积神经网络(DCNN)最初是受生物视觉原理的启发,已演变为对象识别的最佳当前计算模型,因此表明在整个与神经图像和神经时间序列数据的比较中,都表明了与腹视觉途径的强大结构和功能并行性。随着深度学习的最新进展似乎降低了这种相似性,计算神经科学面临挑战,以逆转工程,以获得有用模型的生物学合理性。虽然先前的研究表明,生物学启发的体系结构能够扩大模型的人类风格,但在本研究中,我们研究了一种纯粹的数据驱动方法。我们使用人类的眼睛跟踪数据来直接修改训练示例,从而指导模型在自然图像中对象识别期间的视觉注意力朝着或远离人类固定的焦点。我们通过GARGCAM显着性图比较和验证不同的操纵类型(即标准,类人类和非人类的注意力)与人类参与者的眼动数据。我们的结果表明,与人类相比,所提出的指导焦点操作的作用是在负方向上的意图,而非人类样模型则集中在明显不同的图像部分上。观察到的效果是高度类别特异性的,它通过动画和面部的存在增强,仅在完成前馈处理后才开发,并表明对面部检测产生了强烈的影响。然而,使用这种方法,没有发现人类的类似性。讨论了公开视觉注意力在DCNN中的可能应用,并讨论了对面部检测理论的进一步影响。
translated by 谷歌翻译
在面部识别领域,一方面猕猴神经生理学与人类电生理学之间存在令人困惑的时序差异。猕猴中的单个单位记录已显示出100毫秒刺激发作以内的外部视觉皮层中的面部身份特定响应。但是,在人类的脑电图和梅格实验中,据报道,与不熟悉和熟悉的面孔相对应的神经活动之间存在一致的区别,大约在250毫秒内出现。这表明可能存在迄今未发现的人类电生理痕迹的面部熟悉感的早期相关性。我们在这里报告了使用模式分类技术在密集的MEG录音中成功搜索这种相关性。我们的分析表明,早在刺激发作后85毫秒内,面部熟悉程度的标记。图像的低级属性(例如亮度和颜色分布)无法解释这种早期新兴响应差异。这些结果有助于调和人类和猕猴的数据,并提供有关熟悉面部感知的神经机制的线索。
translated by 谷歌翻译
Humans and animals have the ability to continually acquire, fine-tune, and transfer knowledge and skills throughout their lifespan. This ability, referred to as lifelong learning, is mediated by a rich set of neurocognitive mechanisms that together contribute to the development and specialization of our sensorimotor skills as well as to long-term memory consolidation and retrieval. Consequently, lifelong learning capabilities are crucial for computational systems and autonomous agents interacting in the real world and processing continuous streams of information. However, lifelong learning remains a long-standing challenge for machine learning and neural network models since the continual acquisition of incrementally available information from non-stationary data distributions generally leads to catastrophic forgetting or interference. This limitation represents a major drawback for state-of-the-art deep neural network models that typically learn representations from stationary batches of training data, thus without accounting for situations in which information becomes incrementally available over time. In this review, we critically summarize the main challenges linked to lifelong learning for artificial learning systems and compare existing neural network approaches that alleviate, to different extents, catastrophic forgetting. Although significant advances have been made in domain-specific learning with neural networks, extensive research efforts are required for the development of robust lifelong learning on autonomous agents and robots. We discuss well-established and emerging research motivated by lifelong learning factors in biological systems such as structural plasticity, memory replay, curriculum and transfer learning, intrinsic motivation, and multisensory integration.
translated by 谷歌翻译
深度卷积神经网络(DCNNS)在面部识别方面已经达到了人类水平的准确性(Phillips等,2018),尽管目前尚不清楚它们如何准确地区分高度相似的面孔。在这里,人类和DCNN执行了包括相同双胞胎在内的具有挑战性的面貌匹配任务。参与者(n = 87)查看了三种类型的面孔图像:同一身份,普通冒名顶替对(来自相似人口组的不同身份)和双胞胎冒名顶替对(相同的双胞胎兄弟姐妹)。任务是确定对是同一个人还是不同的人。身份比较在三个观点区分条件下进行了测试:额叶至额叶,额叶至45度,额叶为90度。在每个观点 - 差异条件下评估了从双胞胎突变器和一般冒险者区分匹配的身份对的准确性。人类对于一般撞击对比双重射手对更准确,准确性下降,一对图像之间的观点差异增加。通过介绍给人类的同一图像对测试了经过训练的面部识别的DCNN(Ranjan等,2018)。机器性能反映了人类准确性的模式,但除了一种条件以外,所有人的性能都处于或尤其是所有人的表现。在所有图像对类型中,比较了人与机器的相似性得分。该项目级别的分析表明,在九种图像对类型中的六种中,人类和机器的相似性等级显着相关[范围r = 0.38至r = 0.63],这表明人类对面部相似性的感知和DCNN之间的一般协议。这些发现还有助于我们理解DCNN的表现,以区分高度介绍面孔,表明DCNN在人类或以上的水平上表现出色,并暗示了人类和DCNN使用的特征之间的均等程度。
translated by 谷歌翻译
人类的物体感知能力令人印象深刻,当试图开发具有类似机器人的解决方案时,这变得更加明显。从人类如何将视觉和触觉用于对象感知和相关任务的灵感中,本文总结了机器人应用的多模式对象感知的当前状态。它涵盖了生物学灵感,传感器技术,数据集以及用于对象识别和掌握的感觉数据处理的各个方面。首先,概述了多模式对象感知的生物学基础。然后讨论了传感技术和数据收集策略。接下来,介绍了主要计算方面的介绍,突出显示了每个主要应用领域的一些代表性文章,包括对象识别,传输学习以及对象操纵和掌握。最后,在每个领域的当前进步中,本文概述了有希望的新研究指示。
translated by 谷歌翻译
In modern face recognition, the conventional pipeline consists of four stages: detect ⇒ align ⇒ represent ⇒ classify. We revisit both the alignment step and the representation step by employing explicit 3D face modeling in order to apply a piecewise affine transformation, and derive a face representation from a nine-layer deep neural network. This deep network involves more than 120 million parameters using several locally connected layers without weight sharing, rather than the standard convolutional layers. Thus we trained it on the largest facial dataset to-date, an identity labeled dataset of four million facial images belonging to more than 4,000 identities. The learned representations coupling the accurate model-based alignment with the large facial database generalize remarkably well to faces in unconstrained environments, even with a simple classifier. Our method reaches an accuracy of 97.35% on the Labeled Faces in the Wild (LFW) dataset, reducing the error of the current state of the art by more than 27%, closely approaching human-level performance.
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
深度学习的高级面部识别以实现前所未有的准确性。但是,了解面部的本地部分如何影响整体识别性能仍然不清楚。除其他外,面部掉期已经进行了实验,但只是为了整个脸。在本文中,我们建议交换面部零件,以剥夺不同面部零件(例如眼睛,鼻子和嘴巴)的识别相关性。在我们的方法中,通过拟合3D先验来交换从源面转换为目标的零件,该零件在零件之间建立密集的像素对应关系,同时还要处理姿势差异。然后,无缝克隆用于在映射的源区域和目标面的形状和肤色之间获得平滑的过渡。我们设计了一个实验协议,该协议使我们能够在通过深网进行分类时得出一些初步结论,表明眼睛和眉毛区域的突出性。可在https://github.com/clferrari/facepartsswap上找到代码
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
Many theories, based on neuroscientific and psychological empirical evidence and on computational concepts, have been elaborated to explain the emergence of consciousness in the central nervous system. These theories propose key fundamental mechanisms to explain consciousness, but they only partially connect such mechanisms to the possible functional and adaptive role of consciousness. Recently, some cognitive and neuroscientific models try to solve this gap by linking consciousness to various aspects of goal-directed behaviour, the pivotal cognitive process that allows mammals to flexibly act in challenging environments. Here we propose the Representation Internal-Manipulation (RIM) theory of consciousness, a theory that links the main elements of consciousness theories to components and functions of goal-directed behaviour, ascribing a central role for consciousness to the goal-directed manipulation of internal representations. This manipulation relies on four specific computational operations to perform the flexible internal adaptation of all key elements of goal-directed computation, from the representations of objects to those of goals, actions, and plans. Finally, we propose the concept of `manipulation agency' relating the sense of agency to the internal manipulation of representations. This allows us to propose that the subjective experience of consciousness is associated to the human capacity to generate and control a simulated internal reality that is vividly perceived and felt through the same perceptual and emotional mechanisms used to tackle the external world.
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译
解释视觉场景的含义不仅需要识别其成分对象,还需要对象相互关系的丰富语义表征。在这里,我们通过将现代计算技术应用于复杂自然场景引起的人类脑反应的大规模7T fMRI数据集,研究视觉语义转换的神经机制。使用通过将语言深度学习模型应用于人类生成的场景描述获得的语义嵌入,我们确定了编码语义场景描述的大脑区域的广泛分布网络。重要的是,这些语义嵌入比传统对象类别标签更好地解释了这些区域的活动。此外,尽管参与者没有积极从事语义任务,但它们还是活动的有效预测指标,这表明Visuo-Semantic转换是默认的视觉方式。为了支持这种观点,我们表明,可以直接通过大脑活动模式直接将场景字幕的高度精确重建。最后,经过语义嵌入训练的经常性卷积神经网络进一步超过了语义嵌入在预测大脑活动时的语义嵌入,从而提供了大脑视觉语义转换的机械模型。这些实验和计算结果在一起表明,将视觉输入转换为丰富的语义场景描述可能是视觉系统的核心目标,并且将重点放在这一新目标上可能会导致改进人类大脑中视觉信息处理的模型。
translated by 谷歌翻译
大脑中的类别选择性描述了脑皮质的某些空间局部区域区域倾向于从特定有限类别鲁棒地和选择性地响应刺激。类别选择性的最熟知的示例之一是梭形面积区域(FFA),其在与物体或其他通用刺激相比时优先对面部的图像响应于面部的较低时间皮层的面积。在这项工作中,我们利用新引进的地形变形式自动拓码以无监督方式模拟此类局部类别选择性的出现。通过实验,我们展示了我们的模型产生的空间密集的神经集群,通过COHEN的D度量的可视化图选择性地面临面部,身体和地点。我们将模型与相关的监督方法进行比较,即Lee等人的地形深层人工神经网络(TDANN),并讨论理论和经验相似之处。最后,我们展示了初步结果,表明我们的模型产生了越来越抽象的类别的嵌套空间层次,类似于人类腹侧颞型皮质的观察。
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
人类和其他动物学会从感觉体验中提取一般概念,没有大量的教学。这种能力被认为是睡眠的离线状态,如睡眠,以前的经验在全身重放。然而,梦想的特征创造性本质表明,学习语义表示可能超越仅仅重播以前的经历。我们通过实施由生成的对冲网络(GANS)启发的皮质架构来支持这一假设。我们模型中的学习是在三种不同的全球脑状态下组织,模仿清醒,NREM和REM睡眠,优化不同但互补的客观功能。我们在自然图像的标准数据集上培训模型,并评估学习符号的质量。我们的结果表明,通过对抗睡眠期间通过对抗梦想产生新的虚拟感官输入对于提取语义概念至关重要,同时通过在NREM睡眠期间通过扰动梦想重放剧集的集更记忆,提高了潜在表示的鲁棒性。该模型在睡眠状态,记忆重放和梦想中提供了一种新的计算透视,并提出了GAN的皮质实施。
translated by 谷歌翻译
长期以来,面部识别一直是人工智能领域的一个积极研究领域,尤其是自近年来深度学习的兴起以来。在某些实际情况下,每个身份只有一个可以培训的样本。在这种情况下的面部识别被称为单个样本识别,并对深层模型的有效培训构成了重大挑战。因此,近年来,研究人员试图释放更多的深度学习潜力,并在单个样本情况下提高模型识别性能。尽管已经对传统的单个样本面部识别方法进行了几项全面的调查,但这些评论很少涉及新兴的基于深度学习的方法。因此,我们将重点放在本文中的基于深度学习的方法上,将其分类为虚拟示例方法和通用学习方法。在前一种类别中,生成虚拟图像或虚拟特征以使深层模型的训练受益。在后者中,使用了其他多样本通用集。通用学习方法有三种类型:结合传统方法和深度特征,改善损失功能并改善网络结构,所有这些都涵盖了我们的分析。此外,我们回顾了通常用于评估单个样本面部识别模型的面部数据集,并继续比较不同类型的模型的结果。此外,我们讨论了现有的单个样本面部识别方法的问题,包括虚拟样本方法中的身份信息保存,通用学习方法中的域适应性。此外,我们认为开发无监督的方法是一个有希望的未来方向,并指出语义差距是需要进一步考虑的重要问题。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
在流行媒体中,人造代理商的意识出现与同时实现人类或超人水平智力的那些相同的代理之间通常存在联系。在这项工作中,我们探讨了意识和智力之间这种看似直观的联系的有效性和潜在应用。我们通过研究与三种当代意识功能理论相关的认知能力:全球工作空间理论(GWT),信息生成理论(IGT)和注意力模式理论(AST)。我们发现,这三种理论都将有意识的功能专门与人类领域将军智力的某些方面联系起来。有了这个见解,我们转向人工智能领域(AI),发现尽管远未证明一般智能,但许多最先进的深度学习方法已经开始纳入三个功能的关键方面理论。确定了这一趋势后,我们以人类心理时间旅行的激励例子来提出方式,其中三种理论中每种理论的见解都可以合并为一个单一的统一和可实施的模型。鉴于三种功能理论中的每一种都可以通过认知能力来实现这一可能,因此,具有精神时间旅行的人造代理不仅具有比当前方法更大的一般智力,而且还与我们当前对意识功能作用的理解更加一致在人类中,这使其成为AI研究的有希望的近期目标。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译