Human motion prediction is a complex task as it involves forecasting variables over time on a graph of connected sensors. This is especially true in the case of few-shot learning, where we strive to forecast motion sequences for previously unseen actions based on only a few examples. Despite this, almost all related approaches for few-shot motion prediction do not incorporate the underlying graph, while it is a common component in classical motion prediction. Furthermore, state-of-the-art methods for few-shot motion prediction are restricted to motion tasks with a fixed output space meaning these tasks are all limited to the same sensor graph. In this work, we propose to extend recent works on few-shot time-series forecasting with heterogeneous attributes with graph neural networks to introduce the first few-shot motion approach that explicitly incorporates the spatial graph while also generalizing across motion tasks with heterogeneous sensors. In our experiments on motion tasks with heterogeneous sensors, we demonstrate significant performance improvements with lifts from 10.4% up to 39.3% compared to best state-of-the-art models. Moreover, we show that our model can perform on par with the best approach so far when evaluating on tasks with a fixed output space while maintaining two magnitudes fewer parameters.
translated by 谷歌翻译
学习复杂的时间序列预测模型通常需要大量数据,因为每个任务/数据集都会从头开始训练每个模型。利用类似数据集利用学习经验是一种公认​​的技术,用于分类问题,称为几个射击分类。但是,现有方法不能应用于预测时间序列,因为i)多元时间序列数据集具有不同的渠道,ii)预测与分类主要不同。在本文中,我们首次使用异质通道对时间序列的几个预测进行正式的问题。扩展了有关矢量数据中异质属性的最新工作,我们开发了一个由置换不变的深set块组成的模型,该模型结合了时间嵌入。我们组装了40个多元时间序列数据集的第一个元数据集,并通过实验显示我们的模型提供了一个良好的概括,优于从更简单的场景中延续的基线,这些基线要么无法跨任务学习或错过时间信息。
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
人类运动预测是许多计算机视觉应用领域中的重要且挑战性的任务。最近的工作专注于利用经常性神经网络(RNN)的定时处理能力,实现短期预测的光滑且可靠的结果。但是,正如以前的工作所证明的那样,RNNS遭受错误累积,导致结果不可靠。在本文中,我们提出了一种简单的前馈深神经网络,用于运动预测,这考虑了人体关节之间的时间平滑度和空间依赖性。我们设计了一个多尺度的时空图卷积网络(GCNS),以隐式地建立人类运动过程中的时空依赖,其中在训练期间动态融合的不同尺度。整个模型适用于所有操作,然后遵循编码器解码器的框架。编码器由时间GCN组成,用于捕获帧和半自主学习空间GCN之间的运动特征,以提取关节轨迹之间的空间结构。解码器使用时间卷积网络(TCN)来维持其广泛的能力。广泛的实验表明,我们的方法优于人类3.6M和CMU Mocap的数据集上的SOTA方法,同时只需要更大的参数。代码将在https://github.com/yzg9353/dmsgcn上获得。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
长期人体运动预测对于安全关键应用是必不可少的,例如人机互动和自主驾驶。在本文中,我们展示了实现长期预测,预测每次瞬间的人类姿势是不必要的。相反,通过线性地插入键盘来预测几个小折叠和近似中间组更有效。我们将证明我们的方法使我们能够在未来预测最多5秒的现实运动,远远大于文献中遇到的典型1秒。此外,由于我们模拟了未来的重叠概率,因此我们可以通过在推理时间采样来产生多种合理的未来动作。在这个延长的时间内,我们的预测更加现实,更多样化,更好地保护运动动力学而不是那些最先进的方法产量。
translated by 谷歌翻译
根据历史运动序列预测未来的运动是计算机视觉中的一个基本问题,并且在自主驾驶和机器人技术中具有广泛的应用。最近的一些作品表明,图形卷积网络(GCN)有助于对不同关节之间的关系进行建模。但是,考虑到人类运动数据中的变体和各种作用类型,由于解耦的建模策略,很难描绘时空关系的交叉依赖性,这也可能加剧了不足的概括问题。因此,我们提出时空门控速度ADJACENCY GCN(GAGCN)学习对各种作用类型的复杂时空依赖性。具体而言,我们采用门控网络来通过混合候选时空邻接矩阵获得的可训练的自适应邻接矩阵来增强GCN的概括。此外,GAGCN通过平衡时空建模的重量并融合了脱钩时空特征来解决空间和时间的交叉依赖性。对人类360万,积聚和3DPW的广泛实验表明,GAGCN在短期和长期预测中都能达到最先进的表现。
translated by 谷歌翻译
人类姿势估计的常规方法要么通过依靠许多惯性测量单元(IMU)或通过依赖外部摄像头来限制记录空间,要么需要高度的仪器。这些缺陷是通过从稀疏IMU数据中估计人姿势估计的方法来解决的。我们定义邻接自适应图卷积长期记忆网络(AAGC-LSTM),以基于六个IMU的人体姿势估计,同时将人体图形结构直接纳入网络。 AAGC-LSTM在单个网络操作中结合了空间依赖性和时间依赖性,比以前的方法更有效地内存。通过将图形卷积装置为邻接的适应性,这可以使其成为可能,从而消除了深层或经常性图网络中信息丢失的问题,同时还可以学习人体关节之间的未知依赖性。为了进一步提高准确性,我们提出纵向减肥来考虑自然运动模式。通过我们提出的方法,我们能够利用人体的固有图形本质,因此可以超越最稀疏IMU数据的人类姿势估计的最新状态(SOTA)。
translated by 谷歌翻译
多变量时间序列预测,分析历史时序序列以预测未来趋势,可以有效地帮助决策。 MTS中变量之间的复杂关系,包括静态,动态,可预测和潜在的关系,使得可以挖掘MTS的更多功能。建模复杂关系不仅是表征潜在依赖性的必要条件以及建模时间依赖性,而且在MTS预测任务中也带来了极大的挑战。然而,现有方法主要关注模拟MTS变量之间的某些关系。在本文中,我们提出了一种新的端到端深度学习模型,通过异构图形神经网络(MTHETGNN)称为多变量时间序列预测。为了表征变量之间的复杂关系,在MTHETGNN中设计了一个关系嵌入模块,其中每个变量被视为图形节点,并且每种类型的边缘表示特定的静态或动态关系。同时,引入了时间嵌入模块的时间序列特征提取,其中涉及具有不同感知尺度的卷积神经网络(CNN)滤波器。最后,采用异质图形嵌入模块来处理由两个模块产生的复杂结构信息。来自现实世界的三个基准数据集用于评估所提出的MTHETGNN。综合实验表明,MTHETGNN在MTS预测任务中实现了最先进的结果。
translated by 谷歌翻译
基于图形卷积网络的方法对车身连接关系进行建模,最近在基于3D骨架的人体运动预测中显示出巨大的希望。但是,这些方法有两个关键问题:首先,仅在有限的图形频谱中过滤特征,在整个频段中丢失了足够的信息;其次,使用单个图对整个身体进行建模,低估了各个身体部门的各种模式。为了解决第一个问题,我们提出了自适应图散射,该散射利用了多个可训练的带通滤波器将姿势特征分解为较丰富的图形频谱频段。为了解决第二个问题,分别对身体零件进行建模以学习多种动力学,从而沿空间维度提取更精细的特征提取。整合了上述两种设计,我们提出了一个新型的骨架派对图散射网络(SPGSN)。该模型的核心是级联的多部分图形散射块(MPGSB),在不同的身体部门建立自适应图散射,并基于推断的频谱重要性和身体零件相互作用融合分解的特征。广泛的实验表明,SPGSN的表现优于最先进的方法,其优于13.8%,9.3%和2.7%的SPGSN在每个联合位置误差(MPJPE)上,在36m,CMU MOCAP和3DPW Dataset,3D平均位置误差(MPJPE)方面,SPGSN优于最先进的方法。分别。
translated by 谷歌翻译
相关时间序列(CTS)预测在许多网络物理系统中起着重要作用,其中多个传感器发出捕获互连过程的时间序列。基于深度学习的解决方案,即提供最先进的CTS预测性能,采用各种时空(ST)块,能够在时间序列之间模拟时间依赖性和空间相关性。但是,仍然存在两个挑战。首先,ST-Blocks手动设计,这是耗时和昂贵的。其次,现有预测模型只需多次堆叠相同的ST块,这限制了模型潜力。为了解决这些挑战,我们提出了能够自动识别高竞争力的ST-Blocks以及使用不同拓扑连接的异构ST-Block的预测模型,而不是使用简单堆叠连接的相同的ST-Block。具体而言,我们设计微型和宏搜索空间,以模拟ST-Blocks的架构和异构ST-Block之间的连接,并且我们提供了一种能够共同探索搜索空间来识别最佳预测模型的搜索策略。关于八个常用CTS预测基准数据集的广泛实验可以证明我们的设计选择,并证明AutoCTS能够自动发现智能现有人设计型号的预测模型。这是“AutoCTS:自动相关时间序列预测”“的扩展版本,以显示在PVLDB 2022中。
translated by 谷歌翻译
图形卷积网络(GCN)优于基于骨架的人类动作识别领域的先前方法,包括人类的互动识别任务。但是,在处理相互作用序列时,基于GCN的当前方法只需将两人骨架分为两个离散序列,然后以单人动作分类的方式分别执行图形卷积。这种操作忽略了丰富的交互信息,并阻碍了语义模式学习的有效空间关系建模。为了克服上述缺点,我们引入了一个新型的统一的两人图,代表关节之间的空间相互作用相关性。此外,提出了适当设计的图形标记策略,以使我们的GCN模型学习判别时空交互特征。实验显示了使用拟议的两人图形拓扑时的相互作用和单个动作的准确性提高。最后,我们提出了一个两人的图形卷积网络(2P-GCN)。提出的2P-GCN在三个相互作用数据集(SBU,NTU-RGB+D和NTU-RGB+D 120)的四个基准测试基准上获得了最新结果。
translated by 谷歌翻译
Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into four categories, namely recurrent graph neural networks, convolutional graph neural networks, graph autoencoders, and spatial-temporal graph neural networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes, benchmark data sets, and model evaluation of graph neural networks. Finally, we propose potential research directions in this rapidly growing field.
translated by 谷歌翻译
Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.
translated by 谷歌翻译
运动预测是计算机视觉中的经典问题,其旨在预测观察到的姿势序列的未来运动。已经提出了各种深度学习模型,在运动预测上实现了最先进的性能。然而,现有方法通常专注于在姿势空间中建模时间动态。不幸的是,人类运动的复杂和高度的性质带来了动态背景捕获的固有挑战。因此,我们远离传统的基于姿势的表示,并提出采用各个关节的相空间轨迹表示的新方法。此外,目前的方法倾向于仅考虑物理连接的关节之间的依赖性。在本文中,我们介绍了一种小说卷积神经模型,以有效利用明确的运动解剖学知识,并同时捕获关节轨迹动态的空间和时间信息。然后,我们提出了一个全局优化模块,了解各个联合功能之间的隐式关系。经验上,我们的方法在大规模3D人体运动基准数据集(即,Human3.6m,CMU Mocap)上进行评估。这些结果表明,我们的方法在基准数据集中设置了新的最先进状态。我们的代码将在https://github.com/post-group/teid中提供。
translated by 谷歌翻译
Modeling multivariate time series has long been a subject that has attracted researchers from a diverse range of fields including economics, finance, and traffic. A basic assumption behind multivariate time series forecasting is that its variables depend on one another but, upon looking closely, it's fair to say that existing methods fail to fully exploit latent spatial dependencies between pairs of variables. In recent years, meanwhile, graph neural networks (GNNs) have shown high capability in handling relational dependencies. GNNs require well-defined graph structures for information propagation which means they cannot be applied directly for multivariate time series where the dependencies are not known in advance. In this paper, we propose a general graph neural network framework designed specifically for multivariate time series data. Our approach automatically extracts the uni-directed relations among variables through a graph learning module, into which external knowledge like variable attributes can be easily integrated. A novel mix-hop propagation layer and a dilated inception layer are further proposed to capture the spatial and temporal dependencies within the time series. The graph learning, graph convolution, and temporal convolution modules are jointly learned in an end-to-end framework. Experimental results show that our proposed model outperforms the state-of-the-art baseline methods on 3 of 4 benchmark datasets and achieves on-par performance with other approaches on two traffic datasets which provide extra structural information. CCS CONCEPTS• Computing methodologies → Neural networks; Artificial intelligence.
translated by 谷歌翻译
先前关于人类运动预测的工作遵循观察到的序列与要预测的序列之间建立映射关系的模式。但是,由于多元时间序列数据的固有复杂性,找到运动序列之间的外推关系仍然是一个挑战。在本文中,我们提出了一种新的预测模式,该模式介绍了以前被忽视的人类姿势,以从插值的角度实施预测任务。这些姿势在预测序列后存在,并形成特权序列。要具体而言,我们首先提出了一个插值学习网络(ITP-NETWORK),该网络既编码观察到的序列和特权序列,以插入预测的序列之间,其中嵌入式的特权序列 - 编码器(Priv-incoder)学习了这些序列特权知识(PK)同时。然后,我们提出了一个最终的预测网络(FP-NETWORK),该网络无法观察到特权序列,但配备了一种新型的PK模拟器,该序列可以提取从先前的网络中学到的PK。该模拟器作为输入观察到的序列,但近似私有编码器的行为,从而使fp-network模仿插值过程。广泛的实验结果表明,在短期和长期预测中,我们的预测模式在基准的H.36M,CMU-MOCAP和3DPW数据集上实现了最先进的性能。
translated by 谷歌翻译
图形神经网络(GNN),图数据上深度神经网络的概括已被广泛用于各个领域,从药物发现到推荐系统。但是,当可用样本很少的情况下,这些应用程序的GNN是有限的。元学习一直是解决机器学习中缺乏样品的重要框架,近年来,研究人员已经开始将元学习应用于GNNS。在这项工作中,我们提供了对涉及GNN的不同元学习方法的综合调查,这些方法在各种图表中显示出使用这两种方法的力量。我们根据提出的架构,共享表示和应用程序分类文献。最后,我们讨论了几个激动人心的未来研究方向和打开问题。
translated by 谷歌翻译
机器学习,在深入学习的进步,在过去分析时间序列方面表现出巨大的潜力。但是,在许多情况下,可以通过将其结合到学习方法中可能改善预测的附加信息。这对于由例如例如传感器位置的传感器网络而产生的数据至关重要。然后,可以通过通过图形结构建模,以及顺序(时间)信息来利用这种空间信息。适应深度学习的最新进展在各种图形相关任务中表明了有希望的潜力。但是,这些方法尚未在很大程度上适用于时间序列相关任务。具体而言,大多数尝试基本上围绕空间 - 时间图形神经网络巩固了时间序列预测的小序列长度。通常,这些架构不适合包含大数据序列的回归或分类任务。因此,在这项工作中,我们使用图形神经网络的好处提出了一种能够在多变量时间序列回归任务中处理这些长序列的架构。我们的模型在包含地震波形的两个地震数据集上进行测试,其中目标是预测在一组站的地面摇动的强度测量。我们的研究结果表明了我们的方法的有希望的结果,这是深入讨论的额外消融研究。
translated by 谷歌翻译
语义关系预测旨在挖掘异质图中对象之间的隐式关系,这些关系由不同类型的对象和不同类型的链接组成。在现实世界中,新的语义关系不断出现,它们通常仅带有几个标记的数据。由于多种异构图中存在各种语义关系,因此可以从某些现有的语义关系中开采可转移的知识,以帮助预测新的语义关系,几乎没有标记的数据。这激发了一个新的问题,即跨异构图的几乎没有语义关系预测。但是,现有方法无法解决此问题,因为它们不仅需要大量的标记样本作为输入,而且还集中在具有固定异质性的单个图上。针对这个新颖而充满挑战的问题,在本文中,我们提出了一个基于元学习的图形神经网络,用于语义关系预测,名为Metags。首先,metags将对象之间的图形结构分解为多个归一化子图,然后采用两视图形神经网络来捕获这些子图的本地异质信息和全局结构信息。其次,Metags通过超出型网络汇总了这些子图的信息,该网络可以从现有的语义关系中学习并适应新的语义关系。第三,使用良好的初始化的两视图形神经网络和超出型网络,Metags可以有效地从不同的图形中学习新的语义关系,同时克服少数标记数据的限制。在三个现实世界数据集上进行的广泛实验表明,元数据的性能优于最先进的方法。
translated by 谷歌翻译