通常通过从单个组件的动力学上抽象来构建人口级动力学的模型来研究复杂的时变系统。但是,当构建人群级别的描述时,很容易忽略每个人,以及每个人如何贡献更大的情况。在本文中,我们提出了一种新颖的变压器体系结构,用于从时变数据中学习,该数据构建了个人和集体人口动态的描述。我们没有在一开始就将所有数据结合到我们的模型中,而是开发可分离的体系结构,该体系结构先在单个时间序列上运行,然后再将它们传递给它们。这会导致置换式属性属性,可用于跨不同大小和顺序的系统传输。在证明我们的模型可以应用于在多体系统中成功恢复复杂的相互作用和动力学之后,我们将方法应用于神经系统中的神经元种群。在神经活动数据集上,我们表明我们的多尺度变压器不仅会产生强大的解码性能,而且在转移方面提供了令人印象深刻的性能。我们的结果表明,可以从一种动物的大脑中的神经元学习并传递不同动物大脑中神经元的模型,并在集合和动物之间具有可解释的神经元对应。这一发现为解码并表示大量神经元的新途径开辟了一条新的途径。
translated by 谷歌翻译
神经活动的意义和简化表示可以产生深入了解如何以及什么信息被神经回路内处理。然而,如果没有标签,也揭示了大脑和行为之间的联系的发现表示可以挑战。在这里,我们介绍了所谓的交换,VAE学习神经活动的解开表示一种新型的无监督的办法。我们的方法结合了特定实例的排列损失,试图最大限度地输入(大脑状态)的转变观点之间的代表性相似性的生成模型框架。这些转化(或增强)视图是通过掉出神经元和抖动样品中的时间,这直观地应导致网络维护既时间一致性和不变性用于表示神经状态的特定的神经元的表示创建的。通过对从数百个不同的灵长类动物大脑的神经元的模拟数据和神经录音的评价,我们表明,它是不可能建立的表示沿有关潜在维度解开神经的数据集与行为相联系。
translated by 谷歌翻译
通过最大化示例的不同转换“视图”之间的相似性来构建自我监督学习(SSL)构建表示的最先进的方法。然而,在用于创建视图的转换中没有足够的多样性,难以克服数据中的滋扰变量并构建丰富的表示。这激励了数据集本身来查找类似但不同的样本,以彼此的视图。在本文中,我们介绍了我自己的观点(MISOW),一种新的自我监督学习方法,在数据集中定义预测的不同目标。我们的方法背后的想法是主动挖掘观点,发现在网络的表示空间中的邻居中的样本,然后从一个样本的潜在表示,附近样本的表示。在展示计算机愿景中使用的基准测试中,我们突出了在神经科学的新应用中突出了这个想法的力量,其中SSL尚未应用。在测试多单元神经记录时,我们发现Myow在所有示例中表现出其他自我监督的方法(在某些情况下超过10%),并且经常超越监督的基线。通过MOSO,我们表明可以利用数据的多样性来构建丰富的观点,并在增强的新域中利用自我监督,其中包括有限或未知。
translated by 谷歌翻译
将动物行为与大脑活动相关是神经科学的基本目标,具有建立强大的脑机接口的实际应用。但是,个人之间的域间差距是一种重大问题,可以防止对未标记科目工作的一般模型的培训。由于现在可以从无手动干预的多视图视频序列可以可靠地提取3D构成数据,我们建议使用它来指导神经动作表示的编码以及利用显微镜成像的性质的一组神经和行为增强。为了减少域间差距,在培训期间,我们跨越似乎正在执行类似行动的动物交换神经和行为数据。为了证明这一点,我们在三个非常不同的多模式数据集上测试我们的方法;特征是苍蝇和神经活动的一种,其中一个包含人类神经电压(ECOG)数据,最后是来自不同观点的人类活动的RGB视频数据。
translated by 谷歌翻译
神经记录的进展现在在前所未有的细节中研究神经活动的机会。潜在的变量模型(LVMS)是用于分析各种神经系统和行为的丰富活动的有希望的工具,因为LVM不依赖于活动与外部实验变量之间的已知关系。然而,目前缺乏标准化目前阻碍了对神经元群体活性的LVM进行的进展,导致采用临时方式进行和比较方法。为协调这些建模工作,我们为神经人群活动的潜在变量建模介绍了基准套件。我们从认知,感官和机动领域策划了四种神经尖峰活动的数据集,以促进适用于这些地区各地的各种活动的模型。我们将无监督的评估视为用于评估数据集的模型的共同框架,并应用几个显示基准多样性的基线。我们通过评估释放此基准。 http://neurallatents.github.io.
translated by 谷歌翻译
建模嘈杂的单审峰活动为基础的神经种群动力学建模对于关联神经观察和行为至关重要。最近的一种非电流方法 - 神经数据变压器(NDT) - 在没有明确动力学模型的情况下捕获具有低推理潜伏期的神经动力学方面取得了巨大成功。但是,NDT专注于建模人口活动的时间演变,同时忽略各个神经元之间的丰富协调。在本文中,我们介绍了时空神经数据变压器(STNDT),这是一种基于NDT的架构,该体系结构明确地模拟了跨时和空间中人群中单个神经元的响应,以揭示其潜在的点火率。此外,我们提出了一种对比对比学习损失,该学习损失是根据掩盖建模目标起作用的,以进一步提高预测性能。我们表明,我们的模型在估计四个神经数据集的神经活动方面达到了整体级别的最新性能,这表明其能力捕获跨越不同皮质区域的自主和非自主动力学,同时完全不知道,同时对特定的行为完全不知所措手。此外,STNDT空间注意机制揭示了神经元的始终重要子集,这些基因在推动整个人群的反应中起着至关重要的作用,从而提供了对神经元人群如何执行计算方式的可解释性和关键见解。
translated by 谷歌翻译
Designing efficient and labor-saving prosthetic hands requires powerful hand gesture recognition algorithms that can achieve high accuracy with limited complexity and latency. In this context, the paper proposes a compact deep learning framework referred to as the CT-HGR, which employs a vision transformer network to conduct hand gesture recognition using highdensity sEMG (HD-sEMG) signals. The attention mechanism in the proposed model identifies similarities among different data segments with a greater capacity for parallel computations and addresses the memory limitation problems while dealing with inputs of large sequence lengths. CT-HGR can be trained from scratch without any need for transfer learning and can simultaneously extract both temporal and spatial features of HD-sEMG data. Additionally, the CT-HGR framework can perform instantaneous recognition using sEMG image spatially composed from HD-sEMG signals. A variant of the CT-HGR is also designed to incorporate microscopic neural drive information in the form of Motor Unit Spike Trains (MUSTs) extracted from HD-sEMG signals using Blind Source Separation (BSS). This variant is combined with its baseline version via a hybrid architecture to evaluate potentials of fusing macroscopic and microscopic neural drive information. The utilized HD-sEMG dataset involves 128 electrodes that collect the signals related to 65 isometric hand gestures of 20 subjects. The proposed CT-HGR framework is applied to 31.25, 62.5, 125, 250 ms window sizes of the above-mentioned dataset utilizing 32, 64, 128 electrode channels. The average accuracy over all the participants using 32 electrodes and a window size of 31.25 ms is 86.23%, which gradually increases till reaching 91.98% for 128 electrodes and a window size of 250 ms. The CT-HGR achieves accuracy of 89.13% for instantaneous recognition based on a single frame of HD-sEMG image.
translated by 谷歌翻译
神经科学的基本目标是了解神经活动与行为之间的关系。例如,提取来自神经数据或神经解码的行为意图的能力对于开发有效的脑机接口至关重要。虽然简单的线性模型已应用于此挑战,但它们无法识别重要的非线性关系。因此,识别神经动力学和行为之间的非线性关系的自我监督手段,以计算神经表示,仍然是一个重要的公开问题。为了解决这一挑战,我们生成了一种新的多模式数据集,由果蝇产生的自发行为组成,德罗硫代·马拉替洛克斯 - 神经科学研究中的流行模型生物体。数据集包括来自产生自发动作的动物的六个相机视图的3D无标记运动捕获数据,以及同步获取的双光子显微镜图像捕获被认为驱动动作的下行神经元种群的活动。由于神经和行为方式的大型动物间差异,标准对比度学习和无监督域适应技术难以学习神经动作表示(从描述动作标签计算的嵌入)。为了克服这种缺陷,我们开发了简单但有效的增强,缩短了动物间域间隙,允许我们从神经数据中提取行为相关的尚不讨人不核的信息。这个多模式数据集和我们新的增强套件承诺,以加速自我监督学习方法在神经科学中的应用。
translated by 谷歌翻译
Transformer models have shown great success handling long-range interactions, making them a promising tool for modeling video. However they lack inductive biases and scale quadratically with input length. These limitations are further exacerbated when dealing with the high dimensionality introduced with the temporal dimension. While there are surveys analyzing the advances of Transformers for vision, none focus on an in-depth analysis of video-specific designs. In this survey we analyze main contributions and trends of works leveraging Transformers to model video. Specifically, we delve into how videos are handled as input-level first. Then, we study the architectural changes made to deal with video more efficiently, reduce redundancy, re-introduce useful inductive biases, and capture long-term temporal dynamics. In addition we provide an overview of different training regimes and explore effective self-supervised learning strategies for video. Finally, we conduct a performance comparison on the most common benchmark for Video Transformers (i.e., action classification), finding them to outperform 3D ConvNets even with less computational complexity.
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
在时间序列上进行预训练会带来独特的挑战,这是由于预训练和目标域之间的潜在不匹配,例如时间动力学的变化,快速变化的趋势以及远距离循环效应和短期循环效应,这会导致下游差的差表现。尽管域适应方法可以减轻这些偏移,但大多数方法都需要直接从目标域中进行示例,从而使其次优于预训练。为了应对这一挑战,方法需要适应具有不同时间动力学的目标域,并且能够在预训练期间看到任何目标示例。相对于其他方式,在时间序列中,我们期望同一示例的基于时间和频率的表示形式靠近时间频率。为此,我们认为时间频一致性(TF-C)(将特定示例的基于时间的社区嵌入到其基于频率的邻居和后背)是可取的。由TF-C激发,我们定义了一个可分解的预训练模型,其中自我监督信号由时间和频率分量之间的距离提供,每个信号通过对比度估计单独训练。我们在八个数据集上评估了新方法,包括电诊断测试,人类活动识别,机械故障检测和身体状态监测。针对八种最先进方法的实验表明,在一对一的设置中,TF-C平均比基准平均超过15.4%(F1分数)(例如,在EMG数据上对EEG预测的模型进行微调)和在具有挑战性的一对一环境中,最多可达8.4%(F1得分),这反映了现实世界应用中出现的场景广度。源代码和数据集可在https://anonymon.4open.science/r/tfc-pretraining-6b07上找到。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
现实世界的行为通常是由多种代理之间复杂的相互作用来塑造的。为了可靠地研究多代理行为,无监督和自我监督的学习的进步使从轨迹数据中学到了各种不同的行为表示。迄今为止,还没有一组统一的基准测试,可以在广泛的行为分析设置中进行定量和系统地比较方法。我们的目的是通过引入来自现实世界行为神经科学实验的大规模,多代理轨迹数据集来解决这一问题,该数据集涵盖了一系列行为分析任务。我们的数据集由来自通用模型生物的轨迹数据组成,其中有960万帧的小鼠数据和440万帧的飞行数据,在各种实验环境中,例如不同的菌株,相互作用的长度和光遗传学刺激。框架的子集还包括专家注销的行为标签。我们数据集的改进对应于跨多种生物的行为表示,并能够捕获常见行为分析任务的差异。
translated by 谷歌翻译
以对象为中心的表示是通过提供柔性抽象可以在可以建立的灵活性抽象来实现更系统的推广的有希望的途径。最近的简单2D和3D数据集的工作表明,具有对象的归纳偏差的模型可以学习段,并代表单独的数据的统计结构中的有意义对象,而无需任何监督。然而,尽管使用越来越复杂的感应偏差(例如,用于场景的尺寸或3D几何形状),但这种完全无监督的方法仍然无法扩展到不同的现实数据。在本文中,我们采取了弱监督的方法,并专注于如何使用光流的形式的视频数据的时间动态,2)调节在简单的对象位置上的模型可以用于启用分段和跟踪对象在明显更现实的合成数据中。我们介绍了一个顺序扩展,以便引入我们训练的推出,我们训练用于预测现实看的合成场景的光流,并显示调节该模型的初始状态在一小组提示,例如第一帧中的物体的质量中心,是足以显着改善实例分割。这些福利超出了新型对象,新颖背景和更长的视频序列的培训分配。我们还发现,在推论期间可以使用这种初始状态调节作为对特定物体或物体部分的型号查询模型,这可能会为一系列弱监管方法铺平,并允许更有效的互动训练有素的型号。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-ofthe-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
在社交谈话中的人类行为预测中的默认范式涉及选择利息的特定未来语义事件(例如,演讲者转变变化,群体离开),然后识别他们与低级非语言提示的关系。如此自上而下的方法中的常见障碍是对监督学习的事件标记数据的可用性有限,源于此类事件的不频率。为了解决这一挑战,我们建议将预测投入到一个小说自下而上的自我监督问题中,以利用更大的低级行为线索。我们正规化社会提示预测(SCF)的任务,并表征所涉及的具体建模挑战。为了解决这些社会科学文献的关键观察,并提出社会过程(SP)模型 - 社会意识到序列序列模型,该序列模型将每个对话组视为元学习任务,以解释特定于组的动态。我们的SP模型学习每位参与者未来提示的活动不可知论者,同时捕捉全球不确定性,通过联合推理本集团所有成员的未来。对于SCF的这种新任务,在实际行为数据上提高了非元学习模型的实证性能验证了我们的元学习方法。此外,通过具有类似假设的Meta学习模型的消融和比较验证了我们对此任务的具体建模选择。
translated by 谷歌翻译
在许多科学学科中,我们有兴趣推断一组观察到的时间序列的非线性动力学系统,这是面对混乱的行为和噪音,这是一项艰巨的任务。以前的深度学习方法实现了这一目标,通常缺乏解释性和障碍。尤其是,即使基本动力学生存在较低维的多种多样的情况下,忠实嵌入通常需要的高维潜在空间也会阻碍理论分析。在树突计算的新兴原则的推动下,我们通过线性样条基础扩展增强了动态解释和数学可牵引的分段线性(PL)复发性神经网络(RNN)。我们表明,这种方法保留了简单PLRNN的所有理论上吸引人的特性,但在相对较低的尺寸中提高了其近似任意非线性动态系统的能力。我们采用两个框架来训练该系统,一个将反向传播的时间(BPTT)与教师强迫结合在一起,另一个将基于快速可扩展的变异推理的基础。我们表明,树枝状扩展的PLRNN可以在各种动力学系统基准上获得更少的参数和尺寸,并与其他方法进行比较,同时保留了可拖动和可解释的结构。
translated by 谷歌翻译