我们表明,如果基于深度学习的插值器使用球形线性插值器作为基线,可以更准确,有效地求解在一组关键帧上进行人类运动的任务。我们从经验上证明了我们在实现最新性能的公开数据集上的方法的实力。我们通过证明$ \ delta $ - 优势相对于最后已知帧(也称为零速度模型)的参考,进一步概括了这些结果。这支持了一个更一般的结论,即在参考框架本地对输入帧的工作比以前的工作中主张的全球(世界)参考框架更准确,更强大。我们的代码可在https://github.com/boreshkinai/delta-interpolator上公开获取。
translated by 谷歌翻译
我们的工作重点是开发人类姿势的可学习神经代表,用于先进的AI辅助动画工具。具体而言,我们解决了基于稀疏和可变的用户输入(例如,身体关节子集的位置和/或方向)构建完整静态人姿势的问题。为了解决这个问题,我们提出了一种新型的神经结构,将残留连接与部分指定姿势编码的原型结合在一起,以从学习的潜在空间中创建一个新的完整姿势。我们表明,在准确性和计算效率方面,我们的体系结构的表现优于基准基线。此外,我们开发了一个用户界面,以将我们的神经模型集成到Unity,这是一个实时3D开发平台。此外,我们基于高质量的人类运动捕获数据,介绍了代表静态人类姿势建模问题的两个新数据集,该数据将与模型代码一起公开发布。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
数据驱动的字符动画技术依赖于存在正确建立的运动模型,能够描述其丰富的上下文。然而,常用的运动表示通常不能准确地编码运动的完全铰接,或者存在伪影。在这项工作中,我们解决了寻找运动建模的强大姿势表示的根本问题,适用于深色字符动画,可以更好地限制姿势和忠实地捕获与骨骼特征相关的细微差别。我们的表示基于双季度,具有明确定义的操作的数学抽象,它同时编码旋转和位置方向,使得能够围绕根居中的层次结构感知编码。我们证明我们的代表克服了普通的运动伪影,并与其他流行的表现相比评估其性能。我们进行消融研究,以评估可以在学习期间融入的各种损失的影响。利用我们的表示隐含地编码骨架运动属性,我们在包含具有不同比例的数据集上培训一个数据集,而无需将它们重新排列到通用骨架上,这导致待忽略的微妙运动元素。我们表明可以实现光滑和自然的姿势,为迷人的应用铺平道路。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
神经网络的出现彻底改变了运动合成领域。然而,学会从给定的分布中无条件合成动作仍然是一项具有挑战性的任务,尤其是当动作高度多样化时。我们提出了Modi,这是一种无条件的生成模型,可以合成各种动作。我们的模型在完全无监督的环境中训练,从多样化,非结构化和未标记的运动数据集中进行了训练,并产生了一个行为良好,高度语义的潜在空间。我们的模型的设计遵循StyleGAN的多产架构,并将其两个关键技术组件调整为运动域:一组样式编码,这些样式编码注入了生成器层次结构的每个级别和映射功能,并形成了一个学习和形成一个分离的潜在空间。我们表明,尽管数据集中缺乏任何结构,但潜在空间可以在语义上聚集,并促进语义编辑和运动插值。此外,我们提出了一种将未见动作转向潜在空间的技术,并展示了基于潜在的运动编辑操作,否则这些动作无法通过天真地操纵明确的运动表示无法实现。我们的定性和定量实验表明,我们的框架达到了最新的合成质量,可以遵循高度多样化的运动数据集的分布。代码和训练有素的模型将在https://sigal-raab.github.io/modi上发布。
translated by 谷歌翻译
给定一系列自然语言描述,我们的任务是生成与文本相对应的3D人类动作,并遵循指令的时间顺序。特别是,我们的目标是实现一系列动作的综合,我们将其称为时间动作组成。文本条件运动合成中的艺术现状仅采用单个动作或单个句子作为输入。这部分是由于缺乏包含动作序列的合适训练数据,但这也是由于其非自动进取模型公式的计算复杂性,该计算的规模不能很好地扩展到长序列。在这项工作中,我们解决了这两个问题。首先,我们利用了最近的Babel运动文本集合,该收藏品具有广泛的标记作用,其中许多作用以它们之间的过渡为顺序。接下来,我们设计了一种基于变压器的方法,该方法在动作中进行非自动打击,但在动作序列中进行自动加工。与多个基线相比,这种层次配方在我们的实验中被证明有效。我们的方法被称为“为人类动作的时间动作组成”教授,为各种各样的动作和语言描述中的时间构成产生了现实的人类动作。为了鼓励从事这项新任务的工作,我们将代码用于研究目的,以$ \ href {toch.is.tue.mpg.de} {\ textrm {我们的网站}} $。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
现有的基于密钥帧的运动合成主要集中于循环动作或短期运动的产生,例如步行,跑步和近距离姿势之间的过渡。但是,这些方法将在处理复杂和即兴运动时,例如舞蹈表演和武术时会大大降低合成运动的自然性和多样性。此外,当前的研究缺乏对生成的运动的细粒度控制,这对于智能的人类计算机互动和动画创作至关重要。在本文中,我们提出了一个基于多个约束的新型基于关键的运动生成网络,该网络可以通过学习的知识来实现​​多样化的舞蹈综合。具体而言,该算法主要基于复发性神经网络(RNN)和变压器体系结构制定。我们网络的骨干是由两个长期记忆(LSTM)单元组成的层次RNN模块,其中第一个LSTM用于将历史框架的姿势信息嵌入潜在空间中,第二个LSTM用于使用第二个LSTM,并且使用了第二个LSTM。预测下一帧的人类姿势。此外,我们的框架包含两个基于变压器的控制器,这些控制器分别用于建模根轨迹和速度因子的约束,以更好地利用框架的时间上下文并实现细粒度的运动控制。我们在包含各种现代舞蹈的舞蹈数据集上验证了拟议的方法。三个定量分析的结果验证了我们算法的优势。视频和定性实验结果表明,我们算法产生的复杂运动序列即使是长期合成,也可以在关键帧之间实现多种和平滑的运动过渡。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
舞蹈需要熟练的复杂动作,遵循音乐的节奏,音调和音色特征。正式地,在一段音乐上产生的舞蹈可以表达为建模高维连续运动信号的问题,该信号以音频信号为条件。在这项工作中,我们为解决这个问题做出了两项贡献。首先,我们提出了一种新颖的概率自回归体系结构,该体系结构使用多模式变压器编码器以先前的姿势和音乐背景为条件,以正常的流程为标准化姿势。其次,我们介绍了目前最大的3D舞蹈动机数据集,该数据集通过各种运动捕捉技术获得,包括专业和休闲舞者。使用此数据集,我们通过客观指标和一个用户研究将新模型与两个基准进行比较,并表明建模概率分布的能力以及能够通过大型运动和音乐背景进行的能力是必要的产生与音乐相匹配的有趣,多样和现实的舞蹈。
translated by 谷歌翻译
从音乐生成3D舞蹈是一个出现的研究任务,可以在视觉和图形中受益匪浅。以前的作品将此任务视为序列生成,然而,渲染具有高运动复杂度和相干运动的音乐对齐的长期序列是挑战性的。在本文中,我们通过两阶段过程重构它,即,关键姿势生成,然后是参数运动曲线预测,其中键姿势更容易与音乐节拍同步,并且参数曲线可以是有效地回归以呈现流畅的节奏对齐的运动。我们将建议的方法命名为Diredformer,其中包括两个级联的运动学增强型变压器导向网络(称为Dantrans)分别处理每个阶段。此外,我们提出了一个大型音乐条件3D舞蹈数据集,称为幽灵,由经验丰富的动画师而不是重建或运动捕获准确标记。该数据集还可以与姿势序列分开的关键姿势和参数运动曲线编码跳舞,从而有益于我们的舞蹈中心的培训。广泛的实验表明,甚至由现有数据集培训的提出方法可以产生流畅,表演和音乐匹配的3D舞蹈,这些3D舞蹈定量和定性地超越了以前的作品。此外,建议的Directformer与Phantomdance DataSet一起与工业动画软件无缝兼容,从而促进了各种下游应用的适应。
translated by 谷歌翻译
我们提出了一种使用变异隐式神经表示(INR)的动作条件人类运动产生方法。变分形式主义可以使INR的动作条件分布,从中可以轻松地采样表示形式以产生新的人类运动序列。我们的方法通过构造提供可变的长度序列生成,因为INR的一部分已针对随时间嵌入的整个任意长度进行了优化。相反,以前的作品报告了建模可变长度序列的困难。我们证实,使用变压器解码器的方法优于人类Act12,NTU-RGBD和UESTC数据集的所有相关方法,从现实主义和生成动作的多样性方面。令人惊讶的是,即使我们使用MLP解码器的方法也始终优于最先进的基于变压器的自动编码器。特别是,我们表明,在现实主义和多样性方面,我们方法生成的可变长度运动比最先进方法产生的固定长度运动更好。 https://github.com/pacerv/implicitmotion上的代码。
translated by 谷歌翻译
合理和可控3D人类运动动画的创建是一个长期存在的问题,需要对技术人员艺术家进行手动干预。目前的机器学习方法可以半自动化该过程,然而,它们以显着的方式受到限制:它们只能处理预期运动的单个轨迹,该轨迹排除了对输出的细粒度控制。为了缓解该问题,我们在多个轨迹表示为具有缺失关节的姿势的空间和时间内将未来姿态预测的问题重构为姿势完成。我们表明这种框架可以推广到设计用于未来姿态预测的其他神经网络。曾经在该框架中培训,模型能够从任何数量的轨迹预测序列。我们提出了一种新颖的变形金刚架构,Trajevae,在这个想法上建立了一个,为3D人类动画提供了一个多功能框架。我们展示了Trajevae提供比基于轨迹的参考方法和方法基于过去的姿势。我们还表明,即使仅提供初始姿势,它也可以预测合理的未来姿势。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
Reliable and robust user identification and authentication are important and often necessary requirements for many digital services. It becomes paramount in social virtual reality (VR) to ensure trust, specifically in digital encounters with lifelike realistic-looking avatars as faithful replications of real persons. Recent research has shown that the movements of users in extended reality (XR) systems carry user-specific information and can thus be used to verify their identities. This article compares three different potential encodings of the motion data from head and hands (scene-relative, body-relative, and body-relative velocities), and the performances of five different machine learning architectures (random forest, multi-layer perceptron, fully recurrent neural network, long-short term memory, gated recurrent unit). We use the publicly available dataset "Talking with Hands" and publish all code to allow reproducibility and to provide baselines for future work. After hyperparameter optimization, the combination of a long-short term memory architecture and body-relative data outperformed competing combinations: the model correctly identifies any of the 34 subjects with an accuracy of 100% within 150 seconds. Altogether, our approach provides an effective foundation for behaviometric-based identification and authentication to guide researchers and practitioners. Data and code are published under https://go.uniwue.de/58w1r.
translated by 谷歌翻译
我们提出了一个基于神经网络的系统,用于长期,多动能人类运动合成。该系统被称为神经木偶,可以从简单的用户输入中平稳过渡,包括带有预期动作持续时间的动作标签,以及如果用户指定的话,则可以产生高质量和有意义的动作。我们系统的核心是一种基于变压器的新型运动生成模型,即Marionet,它可以在给定的动作标签给定不同的动作。与现有运动生成模型不同,Marionet利用了过去的运动剪辑和未来动作标签的上下文信息,专门用于生成可以平稳融合历史和未来动作的动作。具体而言,Marionet首先将目标动作标签和上下文信息编码为动作级潜在代码。该代码通过时间展开模块将代码展开为帧级控制信号,然后可以将其与其他帧级控制信号(如目标轨迹)结合使用。然后以自动回归方式生成运动帧。通过依次应用木偶,系统神经木偶可以借助两个简单的方案(即“影子开始”和“动作修订”)来稳健地产生长期的多动作运动。与新型系统一起,我们还提供了一个专门针对多动运动综合任务的新数据集,其中包含动作标签及其上下文信息。进行了广泛的实验,以研究我们系统产生的动作的动作准确性,自然主义和过渡平滑度。
translated by 谷歌翻译
一组稀疏(例如六个)可穿戴的IMU提供的实时人类运动重建提供了一种非侵入性和经济的运动捕获方法。没有直接从IMU中获取位置信息的能力,最近的作品采用了数据驱动的方法,这些方法利用大型人类运动数据集解决了这一不确定的问题。尽管如此,挑战仍然存在,例如时间一致性,全球和关节动作的漂移以及各种地形上运动类型的各种覆盖范围。我们提出了一种同时估计全身运动的新方法,并实时从六个IMU传感器中产生合理的访问地形。我们的方法包含1.有条件的变压器解码器模型通过明确推理预测历史记录提供一致的预测,2。一个简单而通用的学习目标,称为“固定体点”(SBP),可以由变压器模型稳定地预测并通过分析例程使用要纠正关节和全球漂移,以及3.算法从嘈杂的SBP预测产生正则地形高度图,进而可以纠正嘈杂的全球运动估计。我们对合成和真实的IMU数据以及实时实时演示进行了广泛的评估框架,并显示出优于强基线方法的性能。
translated by 谷歌翻译