多人运动预测仍然是一个具有挑战性的问题,尤其是在个人运动和社会互动的共同表示中。大多数先前的方法仅涉及学习局部姿势动态以进行单个运动(没有全球身体轨迹),并难以捕获社交互动的复杂互动依赖性。在本文中,我们提出了一种新颖的社会意识运动变压器(SOM形态),以共同的方式有效地模拟个人运动和社会互动。具体而言,Somoformer提取了位移轨迹空间中子序列的运动特征,以有效地学习每个人的局部和全局姿势动力学。此外,我们设计了一种新型的SOM机制中新型的社交运动注意机制,以通过跨时间和社会维度的运动相似性计算同时优化动态表示并捕获相互作用依赖性。在短期和长期视野上,我们在多人运动数据集上进行了经验评估我们的框架,并证明我们的方法极大地优于单人和多人运动预测的最先进方法。接受后将公开提供代码。
translated by 谷歌翻译
我们向多人3D运动轨迹预测提出了一种新颖的框架。我们的主要观察是,人类的行动和行为可能高度依赖于其他人。因此,不是以隔离预测每个人类姿势轨迹,我们引入了一种多范围变压器模型,该模型包含用于各个运动的局部运动和用于社交交互的全局范围编码器。然后,通过将相应的姿势作为查询来参加本地和全球范围编码器特征,对变压器解码器对每个人进行预测。我们的模型不仅优于长期3D运动预测的最先进的方法,而且还产生了不同的社交互动。更有趣的是,我们的模型甚至可以通过自动将人分为不同的交互组来同时预测15人运动。具有代码的项目页面可在https://jiahunwang.github.io/mrt/处获得。
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
人类姿势预测是一个充满挑战的问题,涉及复杂的人体运动和姿势动态。在环境中有多个人的情况下,一个人的运动也可能受到他人的运动和动态运动的影响。尽管以前有一些针对多人动态姿势预测问题的作品,但它们通常将整个姿势序列作为时间序列(忽略关节之间的基本关系)建模,或者仅一次输出一个人的未来姿势序列。在本文中,我们提出了一种新方法,称为社会运动变压器(SOM形态),用于多人3D姿势预测。我们的变压器架构独特地将人类运动输入作为关节序列而不是时间序列建模,从而使我们能够对关节进行注意,同时预测并联每个关节的整个未来运动序列。我们表明,通过这种问题重新进行,Somoformer自然会通过使用场景中所有人的关节作为输入查询来扩展到多人场景。我们的模型使用学识渊博的嵌入来表示关节,人身份和全球地位的类型,了解关节之间和人之间的关系,更强烈地参加了来自同一或附近的人的关节。 Somoformer的表现优于SOMOF基准以及CMU-MOCAP和MUPOTS-3D数据集的长期运动预测的最先进方法。出版后将提供代码。
translated by 谷歌翻译
在人类运动预测上的事后大多专注于预测单一受试者的未来动作与过去的姿势序列隔离。然而,在密切互动的人面前,这种策略未能考虑不同主题运动之间的依赖关系。在本文中,我们引入了运动预测框架,其明确原因是关于两个观察到的对象的相互作用。具体而言,我们通过引入一对对应的对准机制来实现这一目标,该机制模拟了两个受试者的运动历史中的相互依赖性。这使我们能够以更现实的方式保留长期运动动态,并且更加强大地预测不寻常和快节奏的运动,例如在舞蹈场景中发生的运动。为了评估这一点,因为没有现有的运动预测数据集描述了两个紧密互动的主体,我们介绍了Lindyhop600K舞蹈数据集。我们的结果证明我们的方法优于最先进的单人运动预测技术。
translated by 谷歌翻译
人类运动预测旨在预测未来的姿势给出了一系列过去的3D骷髅。虽然这个问题最近受到了不断的关注,但它主要是为单身人类而被隔离解决。在本文中,我们在处理执行合作任务时探讨了这个问题,我们寻求预测两个互动者的未来运动给出了他们过去骷髅的两个序列。我们提出了一种新颖的交叉互动注意力,用于利用两个人的历史信息,并学会预测两个姿势序列之间的交叉依赖性。由于没有培训此类交互式情况的数据集,我们收集了Expi(极端姿态互动),这是一个新的基于实验室的人交互数据集,其专业舞者的数据集执行了Lindy-Hop舞蹈动作,其中包含115个序列,其中3D身体带有30k帧的序列。和形状。我们在Expi上彻底评估了我们的交叉交互网络,并表明这两者都在短期和长期预测中,它一直以最优异的方式为单人运动预测的最先进的方法。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
运动预测是计算机视觉中的经典问题,其旨在预测观察到的姿势序列的未来运动。已经提出了各种深度学习模型,在运动预测上实现了最先进的性能。然而,现有方法通常专注于在姿势空间中建模时间动态。不幸的是,人类运动的复杂和高度的性质带来了动态背景捕获的固有挑战。因此,我们远离传统的基于姿势的表示,并提出采用各个关节的相空间轨迹表示的新方法。此外,目前的方法倾向于仅考虑物理连接的关节之间的依赖性。在本文中,我们介绍了一种小说卷积神经模型,以有效利用明确的运动解剖学知识,并同时捕获关节轨迹动态的空间和时间信息。然后,我们提出了一个全局优化模块,了解各个联合功能之间的隐式关系。经验上,我们的方法在大规模3D人体运动基准数据集(即,Human3.6m,CMU Mocap)上进行评估。这些结果表明,我们的方法在基准数据集中设置了新的最先进状态。我们的代码将在https://github.com/post-group/teid中提供。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
我们提出了一个新的变压器模型,用于无监督学习骨架运动序列的任务。用于基于无监督骨骼的动作学习的现有变压器模型被了解到每个关节从相邻帧的瞬时速度没有全球运动信息。因此,该模型在学习全身运动和暂时遥远的关节方面的关注方面存在困难。此外,模型中尚未考虑人与人之间的互动。为了解决全身运动,远程时间动态和人与人之间的互动的学习,我们设计了一种全球和本地的注意机制,在其中,全球身体动作和本地关节运动相互关注。此外,我们提出了一种新颖的预处理策略,即多间隔姿势位移预测,以在不同的时间范围内学习全球和本地关注。提出的模型成功地学习了关节的局部动力学,并从运动序列中捕获了全局上下文。我们的模型优于代表性基准中明显边缘的最先进模型。代码可在https://github.com/boeun-kim/gl-transformer上找到。
translated by 谷歌翻译
我们解决了人类反应生成的挑战性任务,该任务旨在基于输入动作产生相应的反应。大多数现有作品并不集中于产生和预测反应,并且在仅给出动作作为输入时就无法产生运动。为了解决这一限制,我们提出了一种新型的相互作用变压器(Interformer),该变压器由具有时间和空间浓度的变压器网络组成。具体而言,时间的注意力捕获了字符及其相互作用的运动的时间依赖性,而空间注意力则了解每个字符的不同身体部位与相互作用的一部分之间的依赖关系。此外,我们建议使用图形通过相互作用距离模块提高空间注意力的性能,以帮助关注两个字符的附近关节。关于SBU相互作用,K3HI和Duetdance数据集的广泛实验证明了Interformer的有效性。我们的方法是一般的,可用于产生更复杂和长期的相互作用。
translated by 谷歌翻译
为了安全和合理地参与密集和异质的交通,自动驾驶汽车需要充分分析周围交通代理的运动模式,并准确预测其未来的轨迹。这是具有挑战性的,因为交通代理的轨迹不仅受交通代理本身的影响,而且还受到彼此的空间互动的影响。以前的方法通常依赖于长期短期存储网络(LSTMS)的顺序逐步处理,并仅提取单型交通代理之间的空间邻居之间的相互作用。我们提出了时空变压器网络(S2TNET),该网络通过时空变压器对时空相互作用进行建模,并通过时间变压器处理颞序序列。我们将其他类别,形状和标题信息输入到我们的网络中,以处理交通代理的异质性。在Apolloscape轨迹数据集上,所提出的方法在平均值和最终位移误差的加权总和上优于Apolloscape轨迹数据集的最先进方法。我们的代码可在https://github.com/chenghuang66/s2tnet上找到。
translated by 谷歌翻译
视频3D人类姿势估计旨在将视频中人类关节的3D坐标定位。最近的基于变压器的方法着重于从顺序2D姿势捕获时空信息,由于在2D姿势估计的步骤中丢失了视觉深度特征,因此无法有效地对上下文深度特征进行建模。在本文中,我们将范式简化为端到端框架,实例引导的视频变压器(IVT),该范式可以有效地从视觉特征中学习时空的上下文深度信息,并直接从视频框架中预测3D姿势。特别是,我们首先将视频框架作为一系列实例引导令牌,每个令牌都可以预测人类实例的3D姿势。这些令牌包含身体结构信息,因为它们是由关节偏移从人体中心到相应身体关节的指导提取的。然后,这些令牌被发送到IVT中,以学习时空的上下文深度。此外,我们提出了一种跨尺度实例引导的注意机制,以处理多个人之间的变异量表。最后,每个人的3D姿势都是通过坐标回归从实例引导的代币中解码的。在三个广泛使用的3D姿势估计基准上进行的实验表明,拟议的IVT实现了最先进的性能。
translated by 谷歌翻译
人类运动预测是许多计算机视觉应用领域中的重要且挑战性的任务。最近的工作专注于利用经常性神经网络(RNN)的定时处理能力,实现短期预测的光滑且可靠的结果。但是,正如以前的工作所证明的那样,RNNS遭受错误累积,导致结果不可靠。在本文中,我们提出了一种简单的前馈深神经网络,用于运动预测,这考虑了人体关节之间的时间平滑度和空间依赖性。我们设计了一个多尺度的时空图卷积网络(GCNS),以隐式地建立人类运动过程中的时空依赖,其中在训练期间动态融合的不同尺度。整个模型适用于所有操作,然后遵循编码器解码器的框架。编码器由时间GCN组成,用于捕获帧和半自主学习空间GCN之间的运动特征,以提取关节轨迹之间的空间结构。解码器使用时间卷积网络(TCN)来维持其广泛的能力。广泛的实验表明,我们的方法优于人类3.6M和CMU Mocap的数据集上的SOTA方法,同时只需要更大的参数。代码将在https://github.com/yzg9353/dmsgcn上获得。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
在本文中,我们开发了一个神经网络模型,以从观察到的人类运动历史中预测未来的人类运动。我们提出了一种非自动回归的变压器体系结构,以利用其平行性质,以便在测试时更容易训练和快速,准确的预测。所提出的结构将人类运动预测分为两个部分:1)人类轨迹,即随着时间的推移,髋关节3D位置和2)人类姿势,这是所有其他关节3D位置,相对于固定的髋关节。我们建议同时做出两个预测,因为共享表示可以改善模型性能。因此,该模型由两组编码器和解码器组成。首先,应用于编码器输出的多头注意模块改善了人类轨迹。其次,应用于与解码器输出相连的编码器输出的另一个多头自发项模块有助于学习时间依赖性。我们的模型非常适合于测试准确性和速度方面的机器人应用,并且相对于最新方法比较。我们通过机器人跟踪任务证明了我们作品的现实适用性,这是我们提议的模型充满挑战而实用的案例研究。
translated by 谷歌翻译
现代的多层感知器(MLP)模型在不自我注意力的情况下学习视觉表现方面显示了竞争成果。但是,现有的MLP模型不擅长捕获本地细节,并且缺乏人类配置的先验知识,这限制了其骨骼表示学习的模型能力。为了解决这些问题,我们提出了一个名为GraphMLP的简单而有效的图形增强的MLP样结构,该体系结构将MLP和图形卷积网络(GCN)组合在3D人类姿势估计的全球 - 局部 - 单位图形统一体系中。GraphMLP将人体的图结构结合到MLP模型中,以满足域特异性需求,同时允许局部和全局空间相互作用。广泛的实验表明,所提出的GraphMLP在两个数据集(即Human3.6M和MPI-INF-3DHP)上实现了最先进的性能。我们的源代码和预估计的模型将公开可用。
translated by 谷歌翻译
行人轨迹预测是自动驾驶的重要技术,近年来已成为研究热点。以前的方法主要依靠行人的位置关系来模型社交互动,这显然不足以代表实际情况中的复杂病例。此外,大多数现有工作通常通常将场景交互模块作为独立分支介绍,并在轨迹生成过程中嵌入社交交互功能,而不是同时执行社交交互和场景交互,这可能破坏轨迹预测的合理性。在本文中,我们提出了一个名为社会软关注图卷积网络(SSAGCN)的一个新的预测模型,旨在同时处理行人和环境之间的行人和场景相互作用之间的社交互动。详细说明,在建模社交互动时,我们提出了一种新的\ EMPH {社会软关注功能},其充分考虑了行人之间的各种交互因素。并且它可以基于各种情况下的不同因素来区分行人周围的人行力的影响。对于物理互动,我们提出了一个新的\ emph {顺序场景共享机制}。每个时刻在每个时刻对一个代理的影响可以通过社会柔和关注与其他邻居共享,因此场景的影响在空间和时间尺寸中都是扩展。在这些改进的帮助下,我们成功地获得了社会和身体上可接受的预测轨迹。公共可用数据集的实验证明了SSAGCN的有效性,并取得了最先进的结果。
translated by 谷歌翻译
先前关于人类运动预测的工作遵循观察到的序列与要预测的序列之间建立映射关系的模式。但是,由于多元时间序列数据的固有复杂性,找到运动序列之间的外推关系仍然是一个挑战。在本文中,我们提出了一种新的预测模式,该模式介绍了以前被忽视的人类姿势,以从插值的角度实施预测任务。这些姿势在预测序列后存在,并形成特权序列。要具体而言,我们首先提出了一个插值学习网络(ITP-NETWORK),该网络既编码观察到的序列和特权序列,以插入预测的序列之间,其中嵌入式的特权序列 - 编码器(Priv-incoder)学习了这些序列特权知识(PK)同时。然后,我们提出了一个最终的预测网络(FP-NETWORK),该网络无法观察到特权序列,但配备了一种新型的PK模拟器,该序列可以提取从先前的网络中学到的PK。该模拟器作为输入观察到的序列,但近似私有编码器的行为,从而使fp-network模仿插值过程。广泛的实验结果表明,在短期和长期预测中,我们的预测模式在基准的H.36M,CMU-MOCAP和3DPW数据集上实现了最先进的性能。
translated by 谷歌翻译