最初受生物神经网络(BNN)启发的人工神经网络(ANN)在许多任务(例如视觉表示学习)中取得了巨大的成功。但是,由于缺乏有效的工具来链接和互为两个不同的域,并且缺乏代表的一般有效的框架,ANN和BNN中的视觉表示之间是否存在语义相关性/连接仍然很大程度上尚未探索。 BNN中的视觉语义,例如人类功能性脑网络(FBN)。为了回答这个问题,我们提出了一个新颖的计算框架,即同步激活(同步性),以基于自然主义的功能磁共振成像(NFMRI)数据来对人脑中的ANN和BNN之间的视觉表示空间和语义进行。通过这种方法,我们能够在第一次以人类脑成像得出的生物学上有意义的描述中对神经元进行注释。我们在两个公开观看的NFMRI数据集上评估了同步操作框架。该实验证明了a)FBN中视觉表示与各种卷积神经网络(CNN)模型中的视觉表示之间的显着相关性和相似性; b)CNN的视觉表示与BNN的相似性与其在图像分类任务中的性能之间的紧密关系。总体而言,我们的研究介绍了一个一般有效的范式,以融入ANN和BNNS,并为未来的研究提供新的见解,例如脑启发的人工智能。
translated by 谷歌翻译
多模式学习,尤其是大规模的多模式预训练,在过去的几年中已经迅速发展,并带来了人工智能(AI)的最大进步。尽管具有有效性,但了解多模式预训练模型的潜在机制仍然是一个巨大的挑战。揭示此类模型的解释性可能会使AI领域中新型学习范式的突破。为此,鉴于人脑的多模式性质,我们建议借助非侵入性脑成像技术(例如功能磁共振成像(fMRI))探索多模式学习模型的解释性。具体而言,我们首先提出了1500万个图像文本对预训练的新设计的多模式基础模型,该模型在各种认知下游任务中显示出强烈的多模式理解和概括能力。此外,从神经编码的角度来看(基于我们的基础模型),我们发现,与单峰相比,经过多模式训练的视觉和舌编码器都更像脑状。特别是,我们确定了许多大脑区域,其中多模式训练的编码器表现出更好的神经编码性能。这与现有有关探索大脑多感觉整合的研究的发现是一致的。因此,我们认为,多模式基础模型是神经科学家研究人脑中多模式信号处理机制的更合适的工具。我们的发现还证明了多模式基础模型作为理想的计算模拟器的潜力,以促进脑和大脑的AI研究。
translated by 谷歌翻译
解释视觉场景的含义不仅需要识别其成分对象,还需要对象相互关系的丰富语义表征。在这里,我们通过将现代计算技术应用于复杂自然场景引起的人类脑反应的大规模7T fMRI数据集,研究视觉语义转换的神经机制。使用通过将语言深度学习模型应用于人类生成的场景描述获得的语义嵌入,我们确定了编码语义场景描述的大脑区域的广泛分布网络。重要的是,这些语义嵌入比传统对象类别标签更好地解释了这些区域的活动。此外,尽管参与者没有积极从事语义任务,但它们还是活动的有效预测指标,这表明Visuo-Semantic转换是默认的视觉方式。为了支持这种观点,我们表明,可以直接通过大脑活动模式直接将场景字幕的高度精确重建。最后,经过语义嵌入训练的经常性卷积神经网络进一步超过了语义嵌入在预测大脑活动时的语义嵌入,从而提供了大脑视觉语义转换的机械模型。这些实验和计算结果在一起表明,将视觉输入转换为丰富的语义场景描述可能是视觉系统的核心目标,并且将重点放在这一新目标上可能会导致改进人类大脑中视觉信息处理的模型。
translated by 谷歌翻译
许多领域的研究表明,转移学习(TL)非常适合提高具有少量样品的数据集中深度学习(DL)模型的性能。这种经验成功引发了对具有功能神经影像数据的认知解码分析的应用的兴趣。这里,我们系统地评估了从全脑功能磁共振成像(FMRI)数据的认知状态(例如,观看面部或房屋图像)的解码的TL。我们首先在大型公共FMRI数据集中预先列出两个DL架构,随后在独立实验任务和完全独立的数据集中评估其性能。预先训练的模型始终如一地达到更高的解码精度,并且通常需要较少的训练时间和数据,而不是模型变形,这些模型变体没有预先接受培训,明确强调预制培训的好处。我们证明,这些益处是由于预先训练的模型在使用新数据培训时重用了许多学习功能的这些益处,从而深入了解导致预训练的好处的机制。然而,在解释预先训练模型的解码决策时,我们还通过DL模型对全脑认知解码进行了差别挑战,因为这些已经学会了在不可预见的情况下利用FMRI数据和识别单个认知状态的违反直觉方式。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
Brain decoding is a field of computational neuroscience that uses measurable brain activity to infer mental states or internal representations of perceptual inputs. Therefore, we propose a novel approach to brain decoding that also relies on semantic and contextual similarity. We employ an fMRI dataset of natural image vision and create a deep learning decoding pipeline inspired by the existence of both bottom-up and top-down processes in human vision. We train a linear brain-to-feature model to map fMRI activity features to visual stimuli features, assuming that the brain projects visual information onto a space that is homeomorphic to the latent space represented by the last convolutional layer of a pretrained convolutional neural network, which typically collects a variety of semantic features that summarize and highlight similarities and differences between concepts. These features are then categorized in the latent space using a nearest-neighbor strategy, and the results are used to condition a generative latent diffusion model to create novel images. From fMRI data only, we produce reconstructions of visual stimuli that match the original content very well on a semantic level, surpassing the state of the art in previous literature. We evaluate our work and obtain good results using a quantitative semantic metric (the Wu-Palmer similarity metric over the WordNet lexicon, which had an average value of 0.57) and perform a human evaluation experiment that resulted in correct evaluation, according to the multiplicity of human criteria in evaluating image similarity, in over 80% of the test set.
translated by 谷歌翻译
过去几十年来看,越来越多地采用的非侵入性神经影像学技术越来越大的进步,以检查人脑发展。然而,这些改进并不一定是更复杂的数据分析措施,能够解释功能性大脑发育的机制。例如,从单变量(大脑中的单个区域)转变为多变量(大脑中的多个区域)分析范式具有重要意义,因为它允许调查不同脑区之间的相互作用。然而,尽管对发育大脑区域之间的相互作用进行了多变量分析,但应用了人工智能(AI)技术,使分析不可解释。本文的目的是了解电流最先进的AI技术可以通知功能性大脑发展的程度。此外,还审查了哪种AI技术基于由发育认知神经科学(DCN)框架所定义的大脑发展的过程来解释他们的学习。这项工作还提出说明可解释的AI(Xai)可以提供可行的方法来调查功能性大脑发育,如DCN框架的假设。
translated by 谷歌翻译
与经典信号处理和基于机器学习的框架相比,基于深度学习的方法基于深度学习的方法显着提高了分类准确性。但大多数是由于脑电图数据中存在的受试者间可变性而无法概括对象无关的任务的主题依赖性研究。在这项工作中,提出了一种新的深度学习框架,其能够进行独立的情感识别,由两部分组成。首先,提出了具有通道关注自动泊车的无监督的长短期存储器(LSTM),用于获取主体不变的潜航向量子空间,即每个人的EEG数据中存在的内部变量。其次,提出了一种具有注意力框架的卷积神经网络(CNN),用于对从提出的LSTM获得的编码的较低的潜在空间表示对具有通道 - 注意自身形拓的编码的低潜空间表示的任务。通过注意机制,所提出的方法可以突出EEG信号的显着时间段,这有助于所考虑的情绪,由结果验证。已经使用公共数据集进行了验证的方法,用于EEG信号,例如Deap DataSet,SEED数据集和CHB-MIT数据集。所提出的端到端深度学习框架消除了不同手工工程特征的要求,并提供了一个单一的全面任务不可知性EEG分析工具,能够对主题独立数据进行各种EEG分析。
translated by 谷歌翻译
数据冗余在深神经网络(DNN)的输入和中间结果中无处不在。它为提高DNN性能和效率提供了许多重要的机会,并在大量工作中探索了。这些研究在几年中都在许多场所散布。他们关注的目标范围从图像到视频和文本,以及他们用于检测和利用数据冗余的技术在许多方面也有所不同。尚无对许多努力进行系统的检查和摘要,使研究人员很难对先前的工作,最新技术,差异和共享原则以及尚未探索的领域和方向进行全面看法。本文试图填补空白。它调查了有关该主题的数百篇论文,引入了一种新颖的分类法,以将各种技术纳入一个单一的分类框架,对用于利用数据冗余的主要方法进行了全面描述,以改善数据的多种DNN,并指出一组未来探索的研究机会。
translated by 谷歌翻译
尖峰神经网络(SNN)引起了脑启发的人工智能和计算神经科学的广泛关注。它们可用于在多个尺度上模拟大脑中的生物信息处理。更重要的是,SNN是适当的抽象水平,可以将大脑和认知的灵感带入人工智能。在本文中,我们介绍了脑启发的认知智力引擎(Braincog),用于创建脑启发的AI和脑模拟模型。 Braincog将不同类型的尖峰神经元模型,学习规则,大脑区域等作为平台提供的重要模块。基于这些易于使用的模块,BrainCog支持各种受脑启发的认知功能,包括感知和学习,决策,知识表示和推理,运动控制和社会认知。这些受脑启发的AI模型已在各种受监督,无监督和强化学习任务上有效验证,并且可以用来使AI模型具有多种受脑启发的认知功能。为了进行大脑模拟,Braincog实现了决策,工作记忆,神经回路的结构模拟以及小鼠大脑,猕猴大脑和人脑的整个大脑结构模拟的功能模拟。一个名为BORN的AI引擎是基于Braincog开发的,它演示了如何将Braincog的组件集成并用于构建AI模型和应用。为了使科学追求解码生物智能的性质并创建AI,Braincog旨在提供必要且易于使用的构件,并提供基础设施支持,以开发基于脑部的尖峰神经网络AI,并模拟认知大脑在多个尺度上。可以在https://github.com/braincog-x上找到Braincog的在线存储库。
translated by 谷歌翻译
Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.
translated by 谷歌翻译
Deep neural networks (DNNs) have demonstrated state-of-the-art results on many pattern recognition tasks, especially vision classification problems. Understanding the inner workings of such computational brains is both fascinating basic science that is interesting in its own right-similar to why we study the human brain-and will enable researchers to further improve DNNs. One path to understanding how a neural network functions internally is to study what each of its neurons has learned to detect. One such method is called activation maximization (AM), which synthesizes an input (e.g. an image) that highly activates a neuron. Here we dramatically improve the qualitative state of the art of activation maximization by harnessing a powerful, learned prior: a deep generator network (DGN). The algorithm (1) generates qualitatively state-of-the-art synthetic images that look almost real, (2) reveals the features learned by each neuron in an interpretable way, (3) generalizes well to new datasets and somewhat well to different network architectures without requiring the prior to be relearned, and (4) can be considered as a high-quality generative method (in this case, by generating novel, creative, interesting, recognizable images).
translated by 谷歌翻译
如何识别和表征功能性大脑网络(BN)是基础,以获取对大脑组织架构机制的系统级别的见解。当前的功能磁共振(fMRI)分析高度依赖于空间(例如静止状态网络)或时间(例如任务刺激)域中特定模式的先验知识。此外,大多数方法旨在找到群体的通用功能网络,很少研究个体特定的功能网络。在这项工作中,我们提出了一个新颖的双转化器框架,以自我监督的方式同时推断空间和时间空间中的共同和单个功能网络。第一个变压器将空间区域的信息作为输入获取并生成空间特征,而第二个变压器将与时间相关的信息作为输入和输出时间特征。通过相互作用(权重共享)和两个变压器之间的约束,将空间和时间特征进一步分为共同和单个。我们将TwinTransFormer应用于Human Connectome Project(HCP)Motor Task-FMRI数据集,并确定了多个通用大脑网络,包括与任务相关和静止状态网络(例如默认模式网络)。有趣的是,我们还成功地恢复了与任务刺激无关的一组个人特定网络,仅在个人级别存在。
translated by 谷歌翻译
如何相关的是神经语言模型,翻译模型和语言标记任务所学到的表示?我们通过调整计算机愿景的编码器 - 解码器传输学习方法来回回答这个问题,以研究从在培训的语言任务上训练的各种网络的隐藏表示中提取的100个不同的特征空间中的结构。该方法揭示了一种低维结构,其中语言模型和翻译模型在Word Embeddings,语法和语义任务中平滑地插入,以及未来的Word Embeddings。我们称之为这种低维结构的语言表示嵌入,因为它会对处理语言进行各种NLP任务所需的表示之间的关系。我们发现,这种代表性嵌入可以预测每个具有FMRI记录的自然语言刺激的人脑响应的每个特征空间映射如何。此外,我们发现这种结构的主要维度可用于创建一个突出大脑的自然语言处理层次结构的度量。这表明嵌入捕获了大脑的自然语言表示结构的某些部分。
translated by 谷歌翻译
可解释的人工智能(XAI)的新兴领域旨在为当今强大但不透明的深度学习模型带来透明度。尽管本地XAI方法以归因图的形式解释了个体预测,从而确定了重要特征的发生位置(但没有提供有关其代表的信息),但全局解释技术可视化模型通常学会的编码的概念。因此,两种方法仅提供部分见解,并留下将模型推理解释的负担。只有少数当代技术旨在将本地和全球XAI背后的原则结合起来,以获取更多信息的解释。但是,这些方法通常仅限于特定的模型体系结构,或对培训制度或数据和标签可用性施加其他要求,这实际上使事后应用程序成为任意预训练的模型。在这项工作中,我们介绍了概念相关性传播方法(CRP)方法,该方法结合了XAI的本地和全球观点,因此允许回答“何处”和“ where”和“什么”问题,而没有其他约束。我们进一步介绍了相关性最大化的原则,以根据模型对模型的有用性找到代表性的示例。因此,我们提高了对激活最大化及其局限性的共同实践的依赖。我们证明了我们方法在各种环境中的能力,展示了概念相关性传播和相关性最大化导致了更加可解释的解释,并通过概念图表,概念组成分析和概念集合和概念子区和概念子区和概念子集和定量研究对模型的表示和推理提供了深刻的见解。它们在细粒度决策中的作用。
translated by 谷歌翻译
类似于心血管和肌肉骨骼系统的熟练程度的差异如何预测个人的运动能力,同一大脑区域如何编码个人的差异可以解释他们的行为。然而,在研究大脑如何编码信息时,研究人员选择不同的神经影像任务(例如,语言或电机任务),其可以依赖于处理不同类型的信息并且可以调制不同的脑区。我们假设信息如何在大脑中编码信息的个人差异是特定于任务的,并预测不同的行为措施。我们提出了一种使用编码模型的框架,以识别大脑编码和测试中的单个差异,如果这些差异可以预测行为。我们使用任务功能磁共振成像数据评估我们的框架。我们的结果表明,编码模型显示的个体差异是预测行为的强大工具,并且研究人员应优化他们对其感兴趣行为的任务和编码模型的选择。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
人类行动识别是计算机视觉中的重要应用领域。它的主要目的是准确地描述人类的行为及其相互作用,从传感器获得的先前看不见的数据序列中。识别,理解和预测复杂人类行动的能力能够构建许多重要的应用,例如智能监视系统,人力计算机界面,医疗保健,安全和军事应用。近年来,计算机视觉社区特别关注深度学习。本文使用深度学习技术的视频分析概述了当前的动作识别最新识别。我们提出了识别人类行为的最重要的深度学习模型,并分析它们,以提供用于解决人类行动识别问题的深度学习算法的当前进展,以突出其优势和缺点。基于文献中报道的识别精度的定量分析,我们的研究确定了动作识别中最新的深层体系结构,然后为该领域的未来工作提供当前的趋势和开放问题。
translated by 谷歌翻译