在计算机视觉中起关键作用的人类运动预测通常需要过去的运动序列作为输入。但是,在实际应用中,完整而正确的过去运动顺序可能太贵了。在本文中,我们提出了一种新的方法,可以从更弱的条件(即单个图像)中预测未来的人类运动,并具有混合密度网络(MDN)建模。与大多数现有的深层人类运动预测方法相反,MDN的多模式性质可以产生各种未来的运动假设,这很好地补偿了由单个输入和人类运动不确定性汇总的强烈随机歧义。在设计损失函数时,我们进一步引入了基于能量的公式,以灵活地对MDN的可学习参数施加先前的损失,以保持运动相干性,并通过自定义能量功能来提高预测准确性。我们训练有素的模型将图像直接作为输入,并生成满足给定条件的多个合理动作。在两个标准基准数据集上进行的广泛实验证明了我们方法在预测多样性和准确性方面的有效性。
translated by 谷歌翻译
基于生成模型的运动预测技术最近已经实现了预测受控人类运动的,例如预测具有相似下体运动的多个上层运动。但是,为了实现这一目标,最新的方法要求随后学习映射功能以寻求类似的动作或重复训练模型以控制身体的所需部分。在本文中,我们提出了一个新颖的框架,以学习可控人体运动预测的脱节表示。我们的网络涉及有条件的变分自动编码器(CVAE)结构,以模拟全身人体运动,以及仅学习相应的部分体体(例如,下体)运动的额外CVAE路径。具体而言,额外CVAE路径施加的电感偏置鼓励两个路径中的两个潜在变量分别控制每个部分运动运动的单独表示。通过一次训练,我们的模型能够为生成的人类动作提供两种类型的控制:(i)严格控制人体的一部分,(ii)通过从一对潜在空间中取样来自适应控制另一部分。此外,我们将抽样策略扩展到了我们训练的模型,以多样化可控的预测。我们的框架还可以通过灵活地自定义额外CVAE路径的输入来允许新的控制形式。广泛的实验结果和消融研究表明,我们的方法能够在质量和定量上预测最新的可控人体运动。
translated by 谷歌翻译
在本文中,我们介绍了一种基于生成的模型的方法来产生多样化的人类运动插值结果。我们通过利用编码器和解码器的经常性神经网络(RNN)结构来求助于在一对给定的开始和结束动作上学习人为变形自动编码器(CVAE)。此外,我们介绍了正规化损失,以进一步促进样本多样性。曾经训练过,我们的方法能够通过从学习的潜在空间重复地抽样来产生多种合理的相干动作。在公开的数据集上实验证明了我们方法的有效性,在样本合理性和多样性方面。
translated by 谷歌翻译
最近在随机运动预测中的进展,即预测单一过去的姿势序列的多个可能的未来人类动作,导致产生真正不同的未来动作,甚至可以控制一些身体部位的运动。然而,为了实现这一点,最先进的方法需要学习用于多样性的多个映射和用于可控运动预测的专用模型。在本文中,我们向统一的深度生成网络介绍了多种和可控的运动预测。为此,我们利用了现实人类动作的直觉由有效姿势的平滑序列组成,并且给定的有限数据,学习姿势比动作更具易行。因此,我们设计了一种发电机,其顺序地预测不同车身部件的运动,并引入基于流动的基于流动的姿势,以及接合角度损失,以实现运动现实主义。在两个标准基准数据集,人类3.6m和人文集上进行实验。我展示了我们的方法在样本多样性和准确性方面优于最先进的基线。该代码可在https://github.com/wei-mao-2019/gsps获得
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
合理和可控3D人类运动动画的创建是一个长期存在的问题,需要对技术人员艺术家进行手动干预。目前的机器学习方法可以半自动化该过程,然而,它们以显着的方式受到限制:它们只能处理预期运动的单个轨迹,该轨迹排除了对输出的细粒度控制。为了缓解该问题,我们在多个轨迹表示为具有缺失关节的姿势的空间和时间内将未来姿态预测的问题重构为姿势完成。我们表明这种框架可以推广到设计用于未来姿态预测的其他神经网络。曾经在该框架中培训,模型能够从任何数量的轨迹预测序列。我们提出了一种新颖的变形金刚架构,Trajevae,在这个想法上建立了一个,为3D人类动画提供了一个多功能框架。我们展示了Trajevae提供比基于轨迹的参考方法和方法基于过去的姿势。我们还表明,即使仅提供初始姿势,它也可以预测合理的未来姿势。
translated by 谷歌翻译
本文解决了人类运动预测的问题,包括预测未来的身体从历史上观察到的序列构成的构成。尽管其性能,但当前的最新方法依赖于任意复杂性的深度学习体系结构,例如经常性神经网络〜(RNN),变压器或图形卷积网络〜(GCN),通常需要多个培训阶段,等等。超过300万参数。在本文中,我们表明,这些方法的性能可以通过轻巧且纯粹的MLP体系结构超越,并且与几种标准实践(例如用离散的余弦变换代表身体姿势(DCT))相结合时,只有0.14亿个参数,预测关节的残留位移和优化速度作为辅助损失。对人类360万的详尽评估,Amass和3DPW数据集表明,我们的方法(我们将其配置为Simlpe)始终优于所有其他方法。我们希望我们的简单方法可以为社区提供强大的基准,并允许重新考虑人类运动预测的问题,以及当前的基准是否确实需要复杂的建筑设计。我们的代码可在\ url {https://github.com/dulucas/simlpe}上获得。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
各种人类运动预测旨在从一系列观察到的姿势中预测多个可能的未来姿势序列。以前的方法通常采用深层生成网络来对数据的条件分布进行建模,然后从分布中随机取得结果。尽管可以获得不同的结果,但它们通常是最有多样化的结果。最近的工作明确地通过确定性网络了解条件分布的多种模式,但是,该网络只能涵盖有限范围内的固定数量模式。在本文中,我们提出了一种新型的抽样策略,用于对深层生成模型学到的不平衡多模式分布进行采样非常多样化的结果。我们的方法通过生成辅助空间,并巧妙地从目标分布中的多样采样从辅助空间中随机进行随机采样。我们提出了一种简单而有效的网络体系结构,该架构实现了这种新型的采样策略,该策略结合了gumbel-softmax系数矩阵采样方法和促进铰链损失函数的积极多样性。广泛的实验表明,与先前最新的采样方法相比,我们的方法显着提高了采样的多样性和准确性。代码和预训练模型可在https://github.com/droliven/diverse_sampling上找到。
translated by 谷歌翻译
我们提出了一个新颖的框架,按需运动产生(ODMO),用于生成现实和多样化的长期3D人体运动序列,该序列仅以具有额外的自定义能力的动作类型为条件。 ODMO在三个公共数据集(HumanAct12,UESTC和MOCAP)上进行评估时,对所有传统运动评估指标的SOTA方法显示了改进。此外,我们提供定性评估和定量指标,这些指标证明了我们框架提供的几种首要的自定义功能,包括模式发现,插值和轨迹自定义。这些功能大大扩大了此类运动产生模型的潜在应用的范围。编码器和解码器体系结构中的创新启用了新颖的按需生成能力:(i)编码器:在低维的潜在空间中利用对比度学习来创建运动序列的层次结构嵌入,不仅是不同动作的代码,类型形成不同的组,但在动作类型中,类似的固有模式(运动样式)聚集在一起的代码,使它们容易发现; (ii)解码器:使用层次解码策略,该策略首先重建运动轨迹,然后用于重建整个运动序列。这样的架构可以有效地控制轨迹控制。我们的代码发布在GitHub页面:https://github.com/roychowdhuryresearch/odmo
translated by 谷歌翻译
在这项工作中,我们提出了MotionMixer,这是一个有效的3D人体姿势预测模型,仅基于多层感知器(MLP)。MotionMixer通过顺序混合这两种方式来学习时空3D身体姿势依赖性。给定3D身体姿势的堆叠序列,空间MLP提取物是身体关节的细粒空间依赖性。然后,随着时间的推移,身体关节的相互作用由时间MLP建模。最终将时空混合特征汇总并解码以获得未来的运动。为了校准姿势序列中每个时间步的影响,我们利用挤压和兴奋(SE)块。我们使用标准评估协议评估了36M,Amass和3DPW数据集的方法。对于所有评估,我们展示了最先进的性能,同时具有具有较少参数的模型。我们的代码可在以下网址找到:https://github.com/motionmlp/motionmixer
translated by 谷歌翻译
之前在为人类运动提供合理的限制方面发挥着重要作用。以前的作品在不同情况下遵循各种范式的运动前锋,导致缺乏多功能性。在本文中,我们首先总结了先前运动的不可或缺的特性,并因此设计了一种学习多功能运动的框架,其模拟人类运动的固有概率分布。具体地,对于有效的先前表示学习,我们提出了全局方向归一化,以在原始运动数据空间中删除冗余环境信息。此外,将基于序列的基于段的频率引导引入编码阶段。然后,我们采用去噪培训方案以可学习的方式从输入运动数据中解散环境信息,以产生一致和可区分的表示。在三个不同的任务中嵌入我们的运动前嵌入我们的运动,我们进行了广泛的实验,并且定量和定性结果均表现出我们之前运动的多功能性和有效性。我们的型号和代码可在https://github.com/jchenxu/human-motion-porion -prior上获得。
translated by 谷歌翻译
我们提出了MHR-NET,这是一种从运动(NRSFM)中恢复非刚性形状的新方法。MHR-NET旨在为2D视图找到一组合理的重建,并且还选择了该集合中最有可能的重建。为了应对挑战性的无刚性形状,我们在MHR-NET中开发了新的确定性基础和随机变形方案。非刚性形状首先表示为粗大的总和和柔性形状变形,然后以变形部分的不确定性建模生成多个假设。MHR-NET通过基础和最佳假设进行了重新投入损失的优化。此外,我们设计了一种新的codrustean残差损失,从而降低了相似形状之间的刚性旋转并进一步改善了性能。实验表明,MHR-NET可以在36M,超现实和300-VW数据集上实现最新的重建精度。
translated by 谷歌翻译
长期人体运动预测对于安全关键应用是必不可少的,例如人机互动和自主驾驶。在本文中,我们展示了实现长期预测,预测每次瞬间的人类姿势是不必要的。相反,通过线性地插入键盘来预测几个小折叠和近似中间组更有效。我们将证明我们的方法使我们能够在未来预测最多5秒的现实运动,远远大于文献中遇到的典型1秒。此外,由于我们模拟了未来的重叠概率,因此我们可以通过在推理时间采样来产生多种合理的未来动作。在这个延长的时间内,我们的预测更加现实,更多样化,更好地保护运动动力学而不是那些最先进的方法产量。
translated by 谷歌翻译
运动预测是计算机视觉中的经典问题,其旨在预测观察到的姿势序列的未来运动。已经提出了各种深度学习模型,在运动预测上实现了最先进的性能。然而,现有方法通常专注于在姿势空间中建模时间动态。不幸的是,人类运动的复杂和高度的性质带来了动态背景捕获的固有挑战。因此,我们远离传统的基于姿势的表示,并提出采用各个关节的相空间轨迹表示的新方法。此外,目前的方法倾向于仅考虑物理连接的关节之间的依赖性。在本文中,我们介绍了一种小说卷积神经模型,以有效利用明确的运动解剖学知识,并同时捕获关节轨迹动态的空间和时间信息。然后,我们提出了一个全局优化模块,了解各个联合功能之间的隐式关系。经验上,我们的方法在大规模3D人体运动基准数据集(即,Human3.6m,CMU Mocap)上进行评估。这些结果表明,我们的方法在基准数据集中设置了新的最先进状态。我们的代码将在https://github.com/post-group/teid中提供。
translated by 谷歌翻译
根据历史运动序列预测未来的运动是计算机视觉中的一个基本问题,并且在自主驾驶和机器人技术中具有广泛的应用。最近的一些作品表明,图形卷积网络(GCN)有助于对不同关节之间的关系进行建模。但是,考虑到人类运动数据中的变体和各种作用类型,由于解耦的建模策略,很难描绘时空关系的交叉依赖性,这也可能加剧了不足的概括问题。因此,我们提出时空门控速度ADJACENCY GCN(GAGCN)学习对各种作用类型的复杂时空依赖性。具体而言,我们采用门控网络来通过混合候选时空邻接矩阵获得的可训练的自适应邻接矩阵来增强GCN的概括。此外,GAGCN通过平衡时空建模的重量并融合了脱钩时空特征来解决空间和时间的交叉依赖性。对人类360万,积聚和3DPW的广泛实验表明,GAGCN在短期和长期预测中都能达到最先进的表现。
translated by 谷歌翻译
在人类运动预测上的事后大多专注于预测单一受试者的未来动作与过去的姿势序列隔离。然而,在密切互动的人面前,这种策略未能考虑不同主题运动之间的依赖关系。在本文中,我们引入了运动预测框架,其明确原因是关于两个观察到的对象的相互作用。具体而言,我们通过引入一对对应的对准机制来实现这一目标,该机制模拟了两个受试者的运动历史中的相互依赖性。这使我们能够以更现实的方式保留长期运动动态,并且更加强大地预测不寻常和快节奏的运动,例如在舞蹈场景中发生的运动。为了评估这一点,因为没有现有的运动预测数据集描述了两个紧密互动的主体,我们介绍了Lindyhop600K舞蹈数据集。我们的结果证明我们的方法优于最先进的单人运动预测技术。
translated by 谷歌翻译