受认知科学中知名的预测编码理论的启发,我们为视觉框架预测任务提出了一种新型的神经网络模型。在本文中,我们的主要工作是结合预测编码和深度学习体系结构的理论框架,为视觉框架预测设计有效的预测网络模型。该模型分别由一系列复发和卷积单元组成,分别形成自上而下和自下而上的流。它学会了以视觉序列预测未来的帧,网络中的每一层中的弯曲器可以从上到下进行本地预测。我们模型的主要创新是,该层上神经单位的更新频率随着网络级别的提高而降低,从时间维度的角度来看,模型中的导致模型看起来像金字塔,因此我们称其为金字塔预测性网络(PPNET)。特别是,这种类似金字塔的设计与预测性编码框架涉及的神经科学发现中的神经元活性一致。根据实验结果,该模型与现有作品显示出更好的紧凑性和可比的预测性能,这意味着较低的计算成本和较高的预测准确性。代码将在https://github.com/ling-cf/ppnet上找到。
translated by 谷歌翻译
We are introducing a multi-scale predictive model for video prediction here, whose design is inspired by the "Predictive Coding" theories and "Coarse to Fine" approach. As a predictive coding model, it is updated by a combination of bottom-up and top-down information flows, which is different from traditional bottom-up training style. Its advantage is to reduce the dependence on input information and improve its ability to predict and generate images. Importantly, we achieve with a multi-scale approach -- higher level neurons generate coarser predictions (lower resolution), while the lower level generate finer predictions (higher resolution). This is different from the traditional predictive coding framework in which higher level predict the activity of neurons in lower level. To improve the predictive ability, we integrate an encoder-decoder network in the LSTM architecture and share the final encoded high-level semantic information between different levels. Additionally, since the output of each network level is an RGB image, a smaller LSTM hidden state can be used to retain and update the only necessary hidden information, avoiding being mapped to an overly discrete and complex space. In this way, we can reduce the difficulty of prediction and the computational overhead. Finally, we further explore the training strategies, to address the instability in adversarial training and mismatch between training and testing in long-term prediction. Code is available at https://github.com/Ling-CF/MSPN.
translated by 谷歌翻译
自我监督的学习方法克服了构建功能更高的AI的关键瓶颈:标记数据的可用性有限。但是,自我监督架构的缺点之一是,他们所学的表示形式是隐式的,很难提取有关编码世界状态的有意义的信息,例如在深度图中编码的视觉场景的3D结构。此外,在视觉域中,这种表示形式很少受到对下游任务至关重要的评估,例如自动驾驶汽车的愿景。本文中,我们提出了一个框架,用于评估在深度感知背景下照明不变性的视觉表示。我们开发了一种新的基于预测性编码的架构和一种混合监督/自我监督的学习方法。我们提出了一种扩展预测编码方法的新型体系结构:预测性的横向自下而上和自上而下的编码器 - 编码器网络(PRELUDENET),该网络明确地学习了从视频帧中推断和预测深度。在预曲线中,编码器的预测编码层堆栈以自我监督的方式进行训练,而预测解码器则以监督的方式进行培训,以推断或预测深度。我们在新的合成数据集上评估了模型的鲁棒性,在该数据集中,可以在参数上调整照明条件(例如整体照明和阴影的效果),同时使世界所有其他方面保持恒定。 preludenet既可以达到竞争深度推理性能,又可以实现下一个帧预测准确性。我们还展示了这种新的网络体系结构如何与混合的全面监督/自我监督学习方法相结合,在上述性能和不变性之间达到平衡与照明变化之间的平衡。评估视觉表示的建议框架可以扩展到不同的任务域和不变性测试。
translated by 谷歌翻译
预测性编码提供了对皮质功能的潜在统一说明 - 假设大脑的核心功能是最小化有关世界生成模型的预测错误。该理论与贝叶斯大脑框架密切相关,在过去的二十年中,在理论和认知神经科学领域都产生了重大影响。基于经验测试的预测编码的改进和扩展的理论和数学模型,以及评估其在大脑中实施的潜在生物学合理性以及该理论所做的具体神经生理学和心理学预测。尽管存在这种持久的知名度,但仍未对预测编码理论,尤其是该领域的最新发展进行全面回顾。在这里,我们提供了核心数学结构和预测编码的逻辑的全面综述,从而补充了文献中最新的教程。我们还回顾了该框架中的各种经典和最新工作,从可以实施预测性编码的神经生物学现实的微电路到预测性编码和广泛使用的错误算法的重新传播之间的紧密关系,以及对近距离的调查。预测性编码和现代机器学习技术之间的关系。
translated by 谷歌翻译
时空预测学习旨在通过从历史框架中学习来产生未来的帧。在本文中,我们研究了现有方法,并提出了时空预测学习的一般框架,其中空间编码器和解码器捕获框架内特征和中间时间模块捕获框架间相关性。尽管主流方法采用经常性单元来捕获长期的时间依赖性,但由于无法可行的架构,它们的计算效率低。为了使时间模块并行,我们提出了时间注意单元(TAU),该单元将时间关注分解为框内静态注意力和框架间动力学注意力。此外,虽然平方误差损失侧重于框架内错误,但我们引入了一种新颖的差异差异正则化,以考虑框架间的变化。广泛的实验表明,所提出的方法使派生模型能够在各种时空预测基准上实现竞争性能。
translated by 谷歌翻译
The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
translated by 谷歌翻译
尖峰神经网络(SNN)引起了脑启发的人工智能和计算神经科学的广泛关注。它们可用于在多个尺度上模拟大脑中的生物信息处理。更重要的是,SNN是适当的抽象水平,可以将大脑和认知的灵感带入人工智能。在本文中,我们介绍了脑启发的认知智力引擎(Braincog),用于创建脑启发的AI和脑模拟模型。 Braincog将不同类型的尖峰神经元模型,学习规则,大脑区域等作为平台提供的重要模块。基于这些易于使用的模块,BrainCog支持各种受脑启发的认知功能,包括感知和学习,决策,知识表示和推理,运动控制和社会认知。这些受脑启发的AI模型已在各种受监督,无监督和强化学习任务上有效验证,并且可以用来使AI模型具有多种受脑启发的认知功能。为了进行大脑模拟,Braincog实现了决策,工作记忆,神经回路的结构模拟以及小鼠大脑,猕猴大脑和人脑的整个大脑结构模拟的功能模拟。一个名为BORN的AI引擎是基于Braincog开发的,它演示了如何将Braincog的组件集成并用于构建AI模型和应用。为了使科学追求解码生物智能的性质并创建AI,Braincog旨在提供必要且易于使用的构件,并提供基础设施支持,以开发基于脑部的尖峰神经网络AI,并模拟认知大脑在多个尺度上。可以在https://github.com/braincog-x上找到Braincog的在线存储库。
translated by 谷歌翻译
不确定性在未来预测中起关键作用。未来是不确定的。这意味着可能有很多可能的未来。未来的预测方法应涵盖坚固的全部可能性。在自动驾驶中,涵盖预测部分中的多种模式对于做出安全至关重要的决策至关重要。尽管近年来计算机视觉系统已大大提高,但如今的未来预测仍然很困难。几个示例是未来的不确定性,全面理解的要求以及嘈杂的输出空间。在本论文中,我们通过以随机方式明确地对运动进行建模并学习潜在空间中的时间动态,从而提出了解决这些挑战的解决方案。
translated by 谷歌翻译
Video prediction is a challenging computer vision task that has a wide range of applications. In this work, we present a new family of Transformer-based models for video prediction. Firstly, an efficient local spatial-temporal separation attention mechanism is proposed to reduce the complexity of standard Transformers. Then, a full autoregressive model, a partial autoregressive model and a non-autoregressive model are developed based on the new efficient Transformer. The partial autoregressive model has a similar performance with the full autoregressive model but a faster inference speed. The non-autoregressive model not only achieves a faster inference speed but also mitigates the quality degradation problem of the autoregressive counterparts, but it requires additional parameters and loss function for learning. Given the same attention mechanism, we conducted a comprehensive study to compare the proposed three video prediction variants. Experiments show that the proposed video prediction models are competitive with more complex state-of-the-art convolutional-LSTM based models. The source code is available at https://github.com/XiYe20/VPTR.
translated by 谷歌翻译
在本文中,我们在人工代理中介绍了活跃的自我的计算建模叙述。特别是,我们专注于代理人如何配备控制意识以及它在自主位于行动中的方式以及反过来,影响行动控制。我们认为这需要铺设一个体现的认知模型,将自下而上的过程(传感器学习和对控制的细粒度适应)与自上而下的过程(战略选择和决策的认知过程)。我们基于预测处理和自由能量最小化的原理提出了这种概念计算架构。使用此常规模型,我们描述了控制层次结构的级别的控制感以及如何支持在不可预测的环境中的动作控制。我们在模型的实施以及模拟任务场景中的第一评估,其中自主代理必须应对不可预测的情况并经历相应的控制感。我们探讨了不同的型号参数设置,导致不同方式结合低电平和高级动作控制。结果表明,在低/高级动作控制需求的情况下适当加权信息的重要性,并且他们证明了控制的感觉如何促进这一点。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
这篇理论文章研究了如何在计算机中构建类似人类的工作记忆和思维过程。应该有两个工作记忆存储,一个类似于关联皮层中的持续点火,另一个类似于大脑皮层中的突触增强。这些商店必须通过环境刺激或内部处理产生的新表示不断更新。它们应该连续更新,并以一种迭代的方式进行更新,这意味着在下一个状态下,应始终保留一组共同工作中的某些项目。因此,工作记忆中的一组概念将随着时间的推移逐渐发展。这使每个状态都是对先前状态的修订版,并导致连续的状态与它们所包含的一系列表示形式重叠和融合。随着添加新表示形式并减去旧表示形式,在这些更改过程中,有些保持活跃几秒钟。这种持续活动,类似于人工复发性神经网络中使用的活动,用于在整个全球工作区中传播激活能量,以搜索下一个关联更新。结果是能够朝着解决方案或目标前进的联想连接的中间状态链。迭代更新在这里概念化为信息处理策略,一种思想流的计算和神经生理决定因素以及用于设计和编程人工智能的算法。
translated by 谷歌翻译
尽管基于经常性的神经网络(RNN)的视频预测方法已经取得了重大成就,但由于信息损失问题和基于知觉的卑鄙平方错误(MSE)损失功能,它们在具有高分辨率的数据集中的性能仍然远远不令人满意。 。在本文中,我们提出了一个时空信息保存和感知声明模型(STIP),以解决上述两个问题。为了解决信息损失问题,提出的模型旨在在功能提取和状态过渡期间分别保留视频的时空信息。首先,基于X-NET结构设计了多透明时空自动编码器(MGST-AE)。拟议的MGST-AE可以帮助解码器回忆到时间和空间域中编码器的多透明信息。这样,在高分辨率视频的功能提取过程中,可以保留更多时空信息。其次,时空门控复发单元(STGRU)是基于标准的封闭式复发单元(GRU)结构而设计的,该结构可以在状态过渡期间有效地保留时空信息。与流行的长期短期(LSTM)的预测记忆相比,提出的STGRU可以通过计算负载较低的计算负载来实现更令人满意的性能。此外,为了改善传统的MSE损失功能,基于生成的对抗网络(GAN)进一步设计了学识渊博的知觉损失(LP-loss),这可以帮助获得客观质量和感知质量之间的令人满意的权衡。实验结果表明,与各种最先进的方法相比,提出的Stip可以预测具有更令人满意的视觉质量的视频。源代码已在\ url {https://github.com/zhengchang467/stiphr}上获得。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译
建立一种人类综合人工认知系统,即人工综合情报(AGI),是人工智能(AI)领域的圣杯。此外,实现人工系统实现认知发展的计算模型将是脑和认知科学的优秀参考。本文介绍了一种通过集成元素认知模块来开发认知架构的方法,以实现整个模块的训练。这种方法是基于两个想法:(1)脑激发AI,学习人类脑建筑以构建人类级智能,(2)概率的生成模型(PGM)基础的认知系统,为发展机器人开发认知系统通过整合PGM。发展框架称为全大脑PGM(WB-PGM),其根本地不同于现有的认知架构,因为它可以通过基于感官电机信息的系统不断学习。在这项研究中,我们描述了WB-PGM的基本原理,基于PGM的元素认知模块的当前状态,与人类大脑的关系,对认知模块的整合的方法,以及未来的挑战。我们的研究结果可以作为大脑研究的参考。随着PGMS描述变量之间的明确信息关系,本说明书提供了从计算科学到脑科学的可解释指导。通过提供此类信息,神经科学的研究人员可以向AI和机器人提供的研究人员提供反馈,以及目前模型缺乏对大脑的影响。此外,它可以促进神经认知科学的研究人员以及AI和机器人的合作。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
时空预测学习是通过历史先验知识来预测未来的框架变化。以前的工作通过使网络更广泛和更深入来改善性能,但这也带来了巨大的内存开销,这严重阻碍了技术的开发和应用。比例是提高普通计算机视觉任务中模型性能的另一个维度,这可以减少计算要求并更好地感知环境。最近的RNN模型尚未考虑和探索如此重要的维度。在本文中,我们从多尺度的好处中学习,我们提出了一个名为多尺度RNN(MS-RNN)的通用框架,以增强最近的RNN模型。我们通过在4个不同的数据集上使用6种流行的RNN模型(Convlstm,Trajgru,Predrnn,Prodrnn ++,MIM和MotionRNN)进行详尽的实验来验证MS-RNN框架。结果表明,将RNN模型纳入我们的框架的效率低得多,但性能比以前更好。我们的代码在\ url {https://github.com/mazhf/ms-rnn}上发布。
translated by 谷歌翻译
Recent progress in artificial intelligence (AI) has renewed interest in building systems that learn and think like people. Many advances have come from using deep neural networks trained end-to-end in tasks such as object recognition, video games, and board games, achieving performance that equals or even beats humans in some respects. Despite their biological inspiration and performance achievements, these systems differ from human intelligence in crucial ways. We review progress in cognitive science suggesting that truly human-like learning and thinking machines will have to reach beyond current engineering trends in both what they learn, and how they learn it. Specifically, we argue that these machines should (a) build causal models of the world that support explanation and understanding, rather than merely solving pattern recognition problems; (b) ground learning in intuitive theories of physics and psychology, to support and enrich the knowledge that is learned; and (c) harness compositionality and learning-to-learn to rapidly acquire and generalize knowledge to new tasks and situations. We suggest concrete challenges and promising routes towards these goals that can combine the strengths of recent neural network advances with more structured cognitive models.
translated by 谷歌翻译
大脑减轻了对自我产生的遗产的反应(例如,我们不能自我痒痒)。这种现象是这种现象,称为感官衰减,天生,还是通过学习获得的?为了探讨后一种可能性,我们创建了由感官(Proprioceptive和Extleceptive),协会和行政区域组成的神经网络模型。由网络控制的模拟机器人学会了以获得具有自我产生或外部产生的脱敏反馈的电动机图案。我们发现,机器人首先在学习早期阶段的自我产生和外部产生的条件下的感觉和关联区域中的响应增加,但随后,它逐渐衰减在仅用于自我产生的条件的感觉区域中的反应。机器人自发地获得了通过切换执行区域的神经状态的条件来切​​换(衰减或放大)响应的容量。这表明通过学习自动组织网络内部感官信息流的主动控制。我们还发现,调制感官信息流程的天然改变诱导类似于精神分裂症和自闭症谱系疾病的一些特征。本研究提供了一种关于神经机制潜在的感知现象和精神病疾病的新颖性观点。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译