运动预测是计算机视觉中的经典问题,其旨在预测观察到的姿势序列的未来运动。已经提出了各种深度学习模型,在运动预测上实现了最先进的性能。然而,现有方法通常专注于在姿势空间中建模时间动态。不幸的是,人类运动的复杂和高度的性质带来了动态背景捕获的固有挑战。因此,我们远离传统的基于姿势的表示,并提出采用各个关节的相空间轨迹表示的新方法。此外,目前的方法倾向于仅考虑物理连接的关节之间的依赖性。在本文中,我们介绍了一种小说卷积神经模型,以有效利用明确的运动解剖学知识,并同时捕获关节轨迹动态的空间和时间信息。然后,我们提出了一个全局优化模块,了解各个联合功能之间的隐式关系。经验上,我们的方法在大规模3D人体运动基准数据集(即,Human3.6m,CMU Mocap)上进行评估。这些结果表明,我们的方法在基准数据集中设置了新的最先进状态。我们的代码将在https://github.com/post-group/teid中提供。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
人类运动理解和预测是我们追求机器智能和人机交互系统的一体化方面。目前的方法通常追求运动学建模方法,严重依赖于先前的解剖知识和限制。然而,这种方法难以推广到不同的骨骼模型表示,并且在核对动态范围和运动复杂性的情况下也倾向于不足,从而阻碍了预测的准确性。在这项工作中,我们提出了一种基于随机微分方程和路径积分建模运动预测问题的新方法。每个骨骼接头的运动轮廓配制为基本随机变量,并用Langevin方程建模。我们制定采用GANS模拟路径积分的策略,这些路径集成量可优化未来的未来路径。我们在两个大型基准数据集,人3.6M和CMU Mocap进行实验。它强调,我们的方法平均地实现了当前最先进的方法的12.48%的准确性改进。
translated by 谷歌翻译
根据历史运动序列预测未来的运动是计算机视觉中的一个基本问题,并且在自主驾驶和机器人技术中具有广泛的应用。最近的一些作品表明,图形卷积网络(GCN)有助于对不同关节之间的关系进行建模。但是,考虑到人类运动数据中的变体和各种作用类型,由于解耦的建模策略,很难描绘时空关系的交叉依赖性,这也可能加剧了不足的概括问题。因此,我们提出时空门控速度ADJACENCY GCN(GAGCN)学习对各种作用类型的复杂时空依赖性。具体而言,我们采用门控网络来通过混合候选时空邻接矩阵获得的可训练的自适应邻接矩阵来增强GCN的概括。此外,GAGCN通过平衡时空建模的重量并融合了脱钩时空特征来解决空间和时间的交叉依赖性。对人类360万,积聚和3DPW的广泛实验表明,GAGCN在短期和长期预测中都能达到最先进的表现。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
先前关于人类运动预测的工作遵循观察到的序列与要预测的序列之间建立映射关系的模式。但是,由于多元时间序列数据的固有复杂性,找到运动序列之间的外推关系仍然是一个挑战。在本文中,我们提出了一种新的预测模式,该模式介绍了以前被忽视的人类姿势,以从插值的角度实施预测任务。这些姿势在预测序列后存在,并形成特权序列。要具体而言,我们首先提出了一个插值学习网络(ITP-NETWORK),该网络既编码观察到的序列和特权序列,以插入预测的序列之间,其中嵌入式的特权序列 - 编码器(Priv-incoder)学习了这些序列特权知识(PK)同时。然后,我们提出了一个最终的预测网络(FP-NETWORK),该网络无法观察到特权序列,但配备了一种新型的PK模拟器,该序列可以提取从先前的网络中学到的PK。该模拟器作为输入观察到的序列,但近似私有编码器的行为,从而使fp-network模仿插值过程。广泛的实验结果表明,在短期和长期预测中,我们的预测模式在基准的H.36M,CMU-MOCAP和3DPW数据集上实现了最先进的性能。
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
人类运动预测是许多计算机视觉应用领域中的重要且挑战性的任务。最近的工作专注于利用经常性神经网络(RNN)的定时处理能力,实现短期预测的光滑且可靠的结果。但是,正如以前的工作所证明的那样,RNNS遭受错误累积,导致结果不可靠。在本文中,我们提出了一种简单的前馈深神经网络,用于运动预测,这考虑了人体关节之间的时间平滑度和空间依赖性。我们设计了一个多尺度的时空图卷积网络(GCNS),以隐式地建立人类运动过程中的时空依赖,其中在训练期间动态融合的不同尺度。整个模型适用于所有操作,然后遵循编码器解码器的框架。编码器由时间GCN组成,用于捕获帧和半自主学习空间GCN之间的运动特征,以提取关节轨迹之间的空间结构。解码器使用时间卷积网络(TCN)来维持其广泛的能力。广泛的实验表明,我们的方法优于人类3.6M和CMU Mocap的数据集上的SOTA方法,同时只需要更大的参数。代码将在https://github.com/yzg9353/dmsgcn上获得。
translated by 谷歌翻译
基于图形卷积网络的方法对车身连接关系进行建模,最近在基于3D骨架的人体运动预测中显示出巨大的希望。但是,这些方法有两个关键问题:首先,仅在有限的图形频谱中过滤特征,在整个频段中丢失了足够的信息;其次,使用单个图对整个身体进行建模,低估了各个身体部门的各种模式。为了解决第一个问题,我们提出了自适应图散射,该散射利用了多个可训练的带通滤波器将姿势特征分解为较丰富的图形频谱频段。为了解决第二个问题,分别对身体零件进行建模以学习多种动力学,从而沿空间维度提取更精细的特征提取。整合了上述两种设计,我们提出了一个新型的骨架派对图散射网络(SPGSN)。该模型的核心是级联的多部分图形散射块(MPGSB),在不同的身体部门建立自适应图散射,并基于推断的频谱重要性和身体零件相互作用融合分解的特征。广泛的实验表明,SPGSN的表现优于最先进的方法,其优于13.8%,9.3%和2.7%的SPGSN在每个联合位置误差(MPJPE)上,在36m,CMU MOCAP和3DPW Dataset,3D平均位置误差(MPJPE)方面,SPGSN优于最先进的方法。分别。
translated by 谷歌翻译
多人运动预测仍然是一个具有挑战性的问题,尤其是在个人运动和社会互动的共同表示中。大多数先前的方法仅涉及学习局部姿势动态以进行单个运动(没有全球身体轨迹),并难以捕获社交互动的复杂互动依赖性。在本文中,我们提出了一种新颖的社会意识运动变压器(SOM形态),以共同的方式有效地模拟个人运动和社会互动。具体而言,Somoformer提取了位移轨迹空间中子序列的运动特征,以有效地学习每个人的局部和全局姿势动力学。此外,我们设计了一种新型的SOM机制中新型的社交运动注意机制,以通过跨时间和社会维度的运动相似性计算同时优化动态表示并捕获相互作用依赖性。在短期和长期视野上,我们在多人运动数据集上进行了经验评估我们的框架,并证明我们的方法极大地优于单人和多人运动预测的最先进方法。接受后将公开提供代码。
translated by 谷歌翻译
在人类运动预测上的事后大多专注于预测单一受试者的未来动作与过去的姿势序列隔离。然而,在密切互动的人面前,这种策略未能考虑不同主题运动之间的依赖关系。在本文中,我们引入了运动预测框架,其明确原因是关于两个观察到的对象的相互作用。具体而言,我们通过引入一对对应的对准机制来实现这一目标,该机制模拟了两个受试者的运动历史中的相互依赖性。这使我们能够以更现实的方式保留长期运动动态,并且更加强大地预测不寻常和快节奏的运动,例如在舞蹈场景中发生的运动。为了评估这一点,因为没有现有的运动预测数据集描述了两个紧密互动的主体,我们介绍了Lindyhop600K舞蹈数据集。我们的结果证明我们的方法优于最先进的单人运动预测技术。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
预测未来的人类运动在各种现实生活中的人机相互作用中起着重要作用。统一的制定和多阶建模是用于分析和代表人类运动的两个批判性观点。与事先作品相比,通过构建深度状态空间模型(Deepssm),我们提高人类运动系统的多阶建模能力,以实现更准确的预测。 DeepsSM利用状态空间理论和深网络的优点。具体地,我们通过状态空间理论将人体运动系统作为动态系统的状态空间模型和模型运动系统,为不同的人类运动系统提供统一的配方。此外,新颖的深度网络旨在参数化该系统,该系统共同模拟状态转换和状态观测转换过程。以这种方式,系统的状态由时变人运动序列的多阶信息更新。通过状态观察转换递归预测多个未来的姿势。为了进一步提高系统的模型能力,引入了一种新颖的损失,WT-MPJPE(每个关节位置误差的加权时间平均值),以优化模型。拟议的损失鼓励该系统通过增加重量来实现更准确的预测到早期时间步骤。两个基准数据集(即,Human3.6M和3DPW)的实验证实,我们的方法实现了最先进的性能,每个关节的精度至少为2.2mm。代码将可用:\ url {https:/github.com/lily2lab/deepssm.git}。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
人类姿势预测是一个充满挑战的问题,涉及复杂的人体运动和姿势动态。在环境中有多个人的情况下,一个人的运动也可能受到他人的运动和动态运动的影响。尽管以前有一些针对多人动态姿势预测问题的作品,但它们通常将整个姿势序列作为时间序列(忽略关节之间的基本关系)建模,或者仅一次输出一个人的未来姿势序列。在本文中,我们提出了一种新方法,称为社会运动变压器(SOM形态),用于多人3D姿势预测。我们的变压器架构独特地将人类运动输入作为关节序列而不是时间序列建模,从而使我们能够对关节进行注意,同时预测并联每个关节的整个未来运动序列。我们表明,通过这种问题重新进行,Somoformer自然会通过使用场景中所有人的关节作为输入查询来扩展到多人场景。我们的模型使用学识渊博的嵌入来表示关节,人身份和全球地位的类型,了解关节之间和人之间的关系,更强烈地参加了来自同一或附近的人的关节。 Somoformer的表现优于SOMOF基准以及CMU-MOCAP和MUPOTS-3D数据集的长期运动预测的最先进方法。出版后将提供代码。
translated by 谷歌翻译
捕获关节之间的依赖关系对于基于骨架的动作识别任务至关重要。变压器显示出模拟重要关节相关性的巨大潜力。然而,基于变压器的方法不能捕获帧之间的不同关节的相关性,因此相邻帧之间的不同体部(例如在长跳跃中的臂和腿)一起移动的相关性非常有用。专注于这个问题,提出了一种新的时空组元变压器(Sttformer)方法。骨架序列被分成几个部分,并且每个部分包含的几个连续帧被编码。然后提出了一种时空元组的自我关注模块,以捕获连续帧中不同关节的关系。另外,在非相邻帧之间引入特征聚合模块以增强区分类似动作的能力。与最先进的方法相比,我们的方法在两个大型数据集中实现了更好的性能。
translated by 谷歌翻译
骨架数据具有低维度。然而,存在使用非常深刻和复杂的前馈神经网络来模拟骨架序列的趋势,而不考虑近年的复杂性。本文提出了一种简单但有效的多尺度语义引导的神经网络(MS-SGN),用于基于骨架的动作识别。我们明确地将关节(关节类型和帧指数)的高级语义引入网络,以增强关节的特征表示能力。此外,提出了一种多尺度策略对时间尺度变化具有鲁棒。此外,我们通过两个模块分层地利用了关节的关系,即,联合级模块,用于建模同一帧中的关节的相关性和帧级模块,用于建模帧的时间依赖性。 MSSGN在NTU60,NTU120和Sysu数据集上实现了比大多数方法更小的模型尺寸。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
Action recognition with skeleton data has recently attracted much attention in computer vision. Previous studies are mostly based on fixed skeleton graphs, only capturing local physical dependencies among joints, which may miss implicit joint correlations. To capture richer dependencies, we introduce an encoder-decoder structure, called A-link inference module, to capture action-specific latent dependencies, i.e. actional links, directly from actions. We also extend the existing skeleton graphs to represent higherorder dependencies, i.e. structural links. Combing the two types of links into a generalized skeleton graph, we further propose the actional-structural graph convolution network (AS-GCN), which stacks actional-structural graph convolution and temporal convolution as a basic building block, to learn both spatial and temporal features for action recognition. A future pose prediction head is added in parallel to the recognition head to help capture more detailed action patterns through self-supervision. We validate AS-GCN in action recognition using two skeleton data sets, NTU-RGB+D and Kinetics. The proposed AS-GCN achieves consistently large improvement compared to the state-of-the-art methods. As a side product, AS-GCN also shows promising results for future pose prediction. Our code is available at https://github.com/limaosen0/AS-GCN . 1
translated by 谷歌翻译
人类运动预测旨在预测未来的姿势给出了一系列过去的3D骷髅。虽然这个问题最近受到了不断的关注,但它主要是为单身人类而被隔离解决。在本文中,我们在处理执行合作任务时探讨了这个问题,我们寻求预测两个互动者的未来运动给出了他们过去骷髅的两个序列。我们提出了一种新颖的交叉互动注意力,用于利用两个人的历史信息,并学会预测两个姿势序列之间的交叉依赖性。由于没有培训此类交互式情况的数据集,我们收集了Expi(极端姿态互动),这是一个新的基于实验室的人交互数据集,其专业舞者的数据集执行了Lindy-Hop舞蹈动作,其中包含115个序列,其中3D身体带有30k帧的序列。和形状。我们在Expi上彻底评估了我们的交叉交互网络,并表明这两者都在短期和长期预测中,它一直以最优异的方式为单人运动预测的最先进的方法。
translated by 谷歌翻译