我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
神经网络的出现彻底改变了运动合成领域。然而,学会从给定的分布中无条件合成动作仍然是一项具有挑战性的任务,尤其是当动作高度多样化时。我们提出了Modi,这是一种无条件的生成模型,可以合成各种动作。我们的模型在完全无监督的环境中训练,从多样化,非结构化和未标记的运动数据集中进行了训练,并产生了一个行为良好,高度语义的潜在空间。我们的模型的设计遵循StyleGAN的多产架构,并将其两个关键技术组件调整为运动域:一组样式编码,这些样式编码注入了生成器层次结构的每个级别和映射功能,并形成了一个学习和形成一个分离的潜在空间。我们表明,尽管数据集中缺乏任何结构,但潜在空间可以在语义上聚集,并促进语义编辑和运动插值。此外,我们提出了一种将未见动作转向潜在空间的技术,并展示了基于潜在的运动编辑操作,否则这些动作无法通过天真地操纵明确的运动表示无法实现。我们的定性和定量实验表明,我们的框架达到了最新的合成质量,可以遵循高度多样化的运动数据集的分布。代码和训练有素的模型将在https://sigal-raab.github.io/modi上发布。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
本文提出了运动拼图,这是一个新型的运动风格转移网络,在几个重要方面都可以提高最先进的方式。运动难题是第一个可以控制各个身体部位运动样式的动作,从而可以进行本地样式编辑并大大增加风格化运动的范围。我们的框架旨在保持人的运动学结构,从多种样式运动中提取了风格的特征,用于不同的身体部位,并将其本地转移到目标身体部位。另一个主要优点是,它可以通过整合自适应实例正常化和注意力模块,同时保持骨骼拓扑结构,从而传递全球和本地运动风格的特征。因此,它可以捕获动态运动所表现出的样式,例如拍打和惊人,比以前的工作要好得多。此外,我们的框架允许使用样式标签或运动配对的数据集进行任意运动样式传输,从而使许多公开的运动数据集可用于培训。我们的框架可以轻松地与运动生成框架集成,以创建许多应用程序,例如实时运动传输。我们通过许多示例和以前的工作比较来证明我们的框架的优势。
translated by 谷歌翻译
之前在为人类运动提供合理的限制方面发挥着重要作用。以前的作品在不同情况下遵循各种范式的运动前锋,导致缺乏多功能性。在本文中,我们首先总结了先前运动的不可或缺的特性,并因此设计了一种学习多功能运动的框架,其模拟人类运动的固有概率分布。具体地,对于有效的先前表示学习,我们提出了全局方向归一化,以在原始运动数据空间中删除冗余环境信息。此外,将基于序列的基于段的频率引导引入编码阶段。然后,我们采用去噪培训方案以可学习的方式从输入运动数据中解散环境信息,以产生一致和可区分的表示。在三个不同的任务中嵌入我们的运动前嵌入我们的运动,我们进行了广泛的实验,并且定量和定性结果均表现出我们之前运动的多功能性和有效性。我们的型号和代码可在https://github.com/jchenxu/human-motion-porion -prior上获得。
translated by 谷歌翻译
合理和可控3D人类运动动画的创建是一个长期存在的问题,需要对技术人员艺术家进行手动干预。目前的机器学习方法可以半自动化该过程,然而,它们以显着的方式受到限制:它们只能处理预期运动的单个轨迹,该轨迹排除了对输出的细粒度控制。为了缓解该问题,我们在多个轨迹表示为具有缺失关节的姿势的空间和时间内将未来姿态预测的问题重构为姿势完成。我们表明这种框架可以推广到设计用于未来姿态预测的其他神经网络。曾经在该框架中培训,模型能够从任何数量的轨迹预测序列。我们提出了一种新颖的变形金刚架构,Trajevae,在这个想法上建立了一个,为3D人类动画提供了一个多功能框架。我们展示了Trajevae提供比基于轨迹的参考方法和方法基于过去的姿势。我们还表明,即使仅提供初始姿势,它也可以预测合理的未来姿势。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
我们提出了一种使用变异隐式神经表示(INR)的动作条件人类运动产生方法。变分形式主义可以使INR的动作条件分布,从中可以轻松地采样表示形式以产生新的人类运动序列。我们的方法通过构造提供可变的长度序列生成,因为INR的一部分已针对随时间嵌入的整个任意长度进行了优化。相反,以前的作品报告了建模可变长度序列的困难。我们证实,使用变压器解码器的方法优于人类Act12,NTU-RGBD和UESTC数据集的所有相关方法,从现实主义和生成动作的多样性方面。令人惊讶的是,即使我们使用MLP解码器的方法也始终优于最先进的基于变压器的自动编码器。特别是,我们表明,在现实主义和多样性方面,我们方法生成的可变长度运动比最先进方法产生的固定长度运动更好。 https://github.com/pacerv/implicitmotion上的代码。
translated by 谷歌翻译
我们表明,如果基于深度学习的插值器使用球形线性插值器作为基线,可以更准确,有效地求解在一组关键帧上进行人类运动的任务。我们从经验上证明了我们在实现最新性能的公开数据集上的方法的实力。我们通过证明$ \ delta $ - 优势相对于最后已知帧(也称为零速度模型)的参考,进一步概括了这些结果。这支持了一个更一般的结论,即在参考框架本地对输入帧的工作比以前的工作中主张的全球(世界)参考框架更准确,更强大。我们的代码可在https://github.com/boreshkinai/delta-interpolator上公开获取。
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
数据驱动的字符动画技术依赖于存在正确建立的运动模型,能够描述其丰富的上下文。然而,常用的运动表示通常不能准确地编码运动的完全铰接,或者存在伪影。在这项工作中,我们解决了寻找运动建模的强大姿势表示的根本问题,适用于深色字符动画,可以更好地限制姿势和忠实地捕获与骨骼特征相关的细微差别。我们的表示基于双季度,具有明确定义的操作的数学抽象,它同时编码旋转和位置方向,使得能够围绕根居中的层次结构感知编码。我们证明我们的代表克服了普通的运动伪影,并与其他流行的表现相比评估其性能。我们进行消融研究,以评估可以在学习期间融入的各种损失的影响。利用我们的表示隐含地编码骨架运动属性,我们在包含具有不同比例的数据集上培训一个数据集,而无需将它们重新排列到通用骨架上,这导致待忽略的微妙运动元素。我们表明可以实现光滑和自然的姿势,为迷人的应用铺平道路。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
We tackle the problem of generating long-term 3D human motion from multiple action labels. Two main previous approaches, such as action- and motion-conditioned methods, have limitations to solve this problem. The action-conditioned methods generate a sequence of motion from a single action. Hence, it cannot generate long-term motions composed of multiple actions and transitions between actions. Meanwhile, the motion-conditioned methods generate future motions from initial motion. The generated future motions only depend on the past, so they are not controllable by the user's desired actions. We present MultiAct, the first framework to generate long-term 3D human motion from multiple action labels. MultiAct takes account of both action and motion conditions with a unified recurrent generation system. It repetitively takes the previous motion and action label; then, it generates a smooth transition and the motion of the given action. As a result, MultiAct produces realistic long-term motion controlled by the given sequence of multiple action labels. The code will be released.
translated by 谷歌翻译
现有的基于密钥帧的运动合成主要集中于循环动作或短期运动的产生,例如步行,跑步和近距离姿势之间的过渡。但是,这些方法将在处理复杂和即兴运动时,例如舞蹈表演和武术时会大大降低合成运动的自然性和多样性。此外,当前的研究缺乏对生成的运动的细粒度控制,这对于智能的人类计算机互动和动画创作至关重要。在本文中,我们提出了一个基于多个约束的新型基于关键的运动生成网络,该网络可以通过学习的知识来实现​​多样化的舞蹈综合。具体而言,该算法主要基于复发性神经网络(RNN)和变压器体系结构制定。我们网络的骨干是由两个长期记忆(LSTM)单元组成的层次RNN模块,其中第一个LSTM用于将历史框架的姿势信息嵌入潜在空间中,第二个LSTM用于使用第二个LSTM,并且使用了第二个LSTM。预测下一帧的人类姿势。此外,我们的框架包含两个基于变压器的控制器,这些控制器分别用于建模根轨迹和速度因子的约束,以更好地利用框架的时间上下文并实现细粒度的运动控制。我们在包含各种现代舞蹈的舞蹈数据集上验证了拟议的方法。三个定量分析的结果验证了我们算法的优势。视频和定性实验结果表明,我们算法产生的复杂运动序列即使是长期合成,也可以在关键帧之间实现多种和平滑的运动过渡。
translated by 谷歌翻译
人类抓握合成具有许多应用,包括AR / VR,视频游戏和机器人。虽然已经提出了一些方法来为对象抓握和操纵产生现实的手对象交互,但通常只考虑手动与对象交互。在这项工作中,我们的目标是综合全身掌握运动。鉴于3D对象,我们的目标是产生多样化和自然的全身人类动作,方法和掌握物体。这项任务是具有挑战性的,因为它需要建模全身动态和灵巧的手指运动。为此,我们提出了由两个关键部件组成的Saga(随机全身抓取):(a)静态全身抓取姿势。具体地,我们提出了一种多任务生成模型,共同学习静态全身抓姿和人对象触点。 (b)抓住运动infilling。鉴于初始姿势和产生的全身抓握姿势作为运动的起始和结束姿势,我们设计了一种新的联络感知生成运动infilling模块,以产生各种掌握的掌握运动。我们展示了我们方法是第一代生物和表达全身运动的第一代框架,该方法是随机放置并掌握未经看的对象的逼真和表达全身运动。代码和视频可用于:https://jiahaoplus.github.io/saga/saga.html。
translated by 谷歌翻译
我们提出了一个新颖的框架,按需运动产生(ODMO),用于生成现实和多样化的长期3D人体运动序列,该序列仅以具有额外的自定义能力的动作类型为条件。 ODMO在三个公共数据集(HumanAct12,UESTC和MOCAP)上进行评估时,对所有传统运动评估指标的SOTA方法显示了改进。此外,我们提供定性评估和定量指标,这些指标证明了我们框架提供的几种首要的自定义功能,包括模式发现,插值和轨迹自定义。这些功能大大扩大了此类运动产生模型的潜在应用的范围。编码器和解码器体系结构中的创新启用了新颖的按需生成能力:(i)编码器:在低维的潜在空间中利用对比度学习来创建运动序列的层次结构嵌入,不仅是不同动作的代码,类型形成不同的组,但在动作类型中,类似的固有模式(运动样式)聚集在一起的代码,使它们容易发现; (ii)解码器:使用层次解码策略,该策略首先重建运动轨迹,然后用于重建整个运动序列。这样的架构可以有效地控制轨迹控制。我们的代码发布在GitHub页面:https://github.com/roychowdhuryresearch/odmo
translated by 谷歌翻译
我们提出了一种无标记的性能捕获方法,该方法从稀疏采样的未跟踪3D点云的稀疏采样序列中计算随时间变形的参与者变形的时间相干4D表示。我们的方法通过以前的时空运动来进行潜在优化。最近,已经引入了任务通用运动先验,并提出了基于单个潜在代码的人类运动的连贯表示,并具有简短序列和给定时间对应关系的令人鼓舞的结果。将这些方法扩展到没有对应的较长序列几乎是直接的。一种潜在代码证明,由于可能的倒置姿势配件,因此对长期可变性的编码效率低下,而潜在空间优化将非常容易受到错误的本地最小值。我们通过学习一个运动来解决这两个问题,该动作将4D人体运动序列编码为一系列潜在的原语,而不是一个潜在的代码。我们还提出了一个附加的映射编码器,该编码器将点云直接投入到学习的潜在空间中,以在推理时提供潜在表示的良好初始化。我们从潜在空间进行的时间解码是隐式和连续的,可以通过时间分辨率提供灵活性。我们通过实验表明我们的方法优于最先进的运动先验。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
最近在随机运动预测中的进展,即预测单一过去的姿势序列的多个可能的未来人类动作,导致产生真正不同的未来动作,甚至可以控制一些身体部位的运动。然而,为了实现这一点,最先进的方法需要学习用于多样性的多个映射和用于可控运动预测的专用模型。在本文中,我们向统一的深度生成网络介绍了多种和可控的运动预测。为此,我们利用了现实人类动作的直觉由有效姿势的平滑序列组成,并且给定的有限数据,学习姿势比动作更具易行。因此,我们设计了一种发电机,其顺序地预测不同车身部件的运动,并引入基于流动的基于流动的姿势,以及接合角度损失,以实现运动现实主义。在两个标准基准数据集,人类3.6m和人文集上进行实验。我展示了我们的方法在样本多样性和准确性方面优于最先进的基线。该代码可在https://github.com/wei-mao-2019/gsps获得
translated by 谷歌翻译