We present a new method for generating controllable, dynamically responsive, and photorealistic human animations. Given an image of a person, our system allows the user to generate Physically plausible Upper Body Animation (PUBA) using interaction in the image space, such as dragging their hand to various locations. We formulate a reinforcement learning problem to train a dynamic model that predicts the person's next 2D state (i.e., keypoints on the image) conditioned on a 3D action (i.e., joint torque), and a policy that outputs optimal actions to control the person to achieve desired goals. The dynamic model leverages the expressiveness of 3D simulation and the visual realism of 2D videos. PUBA generates 2D keypoint sequences that achieve task goals while being responsive to forceful perturbation. The sequences of keypoints are then translated by a pose-to-image generator to produce the final photorealistic video.
translated by 谷歌翻译
我们提出了一种对象感知的3D自我监测姿势估计方法,其紧密地集成了运动学建模,动力学建模和场景对象信息。与使用两种组件的现有运动学或基于动态的方法不同,我们通过动态调节培训协同两种方法。在每个时间步骤中,用于使用视频证据和仿真状态提供目标姿势的运动模型。然后,预先注释的动力学模型试图模拟物理模拟器中的运动姿势。通过比较由动态模型对动态模型产生的姿势指示的姿势,我们可以使用它们的未对准来进一步改善运动模型。通过在场景中的6DOF姿势(例如,椅子,盒子)中,我们首次展示了使用单个可佩戴相机估计物理合理的3D人体相互作用的能力。我们在受控实验室设置和现实世界场景中评估我们的Egentric姿势估计方法。
translated by 谷歌翻译
人体运动的实时跟踪对于AR/VR中的互动和沉浸式体验至关重要。但是,有关人体的传感器数据非常有限,可以从独立的可穿戴设备(例如HMD(头部安装设备)或AR眼镜)获得。在这项工作中,我们提出了一个强化学习框架,该框架从HMD和两个控制器中获取稀疏信号,并模拟合理且身体上有效的全身运动。在训练过程中,使用高质量的全身运动作为密集的监督,一个简单的策略网络可以学会为角色,步行和慢跑的角色输出适当的扭矩,同时紧随输入信号。我们的结果表明,即使输入仅是HMD的6D变换,也没有对下半身进行任何观察到的地面真理的惊人相似的腿部运动。我们还表明,单一政策可以对各种运动风格,不同的身体尺寸和新颖的环境都有坚固的态度。
translated by 谷歌翻译
Figure 1: "Do as I Do" motion transfer: given a YouTube clip of a ballerina (top), and a video of a graduate student performing various motions, our method transfers the ballerina's performance onto the student (bottom).
translated by 谷歌翻译
在本文中,我们介绍了一条神经渲染管道,用于将一个人在源视频中的面部表情,头部姿势和身体运动转移到目标视频中的另一个人。我们将方法应用于手语视频的具有挑战性的案例:给定手语用户的源视频,我们可以忠实地传输执行的手册(例如握手,棕榈方向,运动,位置)和非手术(例如,眼睛凝视,凝视,面部表情,头部移动)以照片真实的方式标志着目标视频。为了有效捕获上述提示,这些线索对于手语交流至关重要,我们以最近引入的最健壮和最可靠的深度学习方法的有效组合来建立。使用3D感知表示,将身体部位的估计运动组合并重新定位到目标签名者。然后将它们作为我们的视频渲染网络的条件输入,从而生成时间一致和照片现实的视频。我们进行了详细的定性和定量评估和比较,这些评估和比较证明了我们的方法的有效性及其对现有方法的优势。我们的方法产生了前所未有的现实主义的有希望的结果,可用于手语匿名。此外,它很容易适用于重新制定其他类型的全身活动(舞蹈,表演,锻炼等)以及手语生产系统的合成模块。
translated by 谷歌翻译
我们为物理模拟字符进行了简单而直观的互动控制方法。我们的工作在生成的对抗网络(GAN)和加强学习时构建,并介绍了一个模仿学习框架,其中分类器的集合和仿制策略训练在给定预处理的参考剪辑中训练。分类器受过培训,以区分从模仿政策产生的运动中的参考运动,而策略是为了欺骗歧视者而获得奖励。使用我们的GaN的方法,可以单独培训多个电机控制策略以模仿不同的行为。在运行时,我们的系统可以响应用户提供的外部控制信号,并在不同策略之间交互式切换。与现有方法相比,我们所提出的方法具有以下有吸引力的特性:1)在不手动设计和微调奖励功能的情况下实现最先进的模仿性能; 2)直接控制字符,而无需明确地或隐含地通过相位状态跟踪任何目标参考姿势; 3)支持交互式策略切换,而无需任何运动生成或运动匹配机制。我们突出了我们在一系列模仿和互动控制任务中的方法的适用性,同时还证明了其抵御外部扰动以及恢复平衡的能力。总的来说,我们的方法产生高保真运动,运行时的运行时间低,并且可以轻松地集成到交互式应用程序和游戏中。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
我们提出了体面意识的人类姿势估计,我们根据模拟代理的本体感受和场景意识以及外部第三人称观察来估计3D构成。与经常诉诸多阶段优化的先前方法不同,非因果推理和复杂的接触建模以估计人类姿势和人类场景的相互作用,我们的方法是一个阶段,因果关系,并在模拟环境中恢复全局3D人类姿势。由于2D第三人称观察与相机姿势结合在一起,我们建议解开相机姿势,并使用在全球坐标框架中定义的多步投影梯度作为我们体现的代理的运动提示。利用物理模拟和预先的场景(例如3D网格),我们在日常环境(库,办公室,卧室等)中模拟代理,并为我们的代理配备环境传感器,以智能导航和与场景的几何形状进行智能导航和互动。我们的方法还仅依靠2D关键点,并且可以在来自流行人类运动数据库的合成数据集上进行培训。为了评估,我们使用流行的H36M和Prox数据集,并首次在具有挑战性的Prox数据集中获得96.7%的成功率,而无需使用Prox运动序列进行培训。
translated by 谷歌翻译
人类运动合成是机器人技术的图形,游戏和仿真环境中应用的重要问题。现有方法需要准确的运动捕获数据进行培训,这是昂贵的。取而代之的是,我们为直接从单眼RGB视频中训练物理上合理的人类运动的生成模型提出了一个框架,该模型更广泛地可用。我们方法的核心是一种新颖的优化公式,该公式通过以可区分的方式执行物理限制和有关接触的原因来纠正不完美的基于图像的姿势估计。该优化得出校正后的3D姿势和运动及其相应的接触力。结果表明,我们的物理校正运动在姿势估计上显着优于先前的工作。然后,我们可以使用它们来训练生成模型来综合未来的运动。与先前的基于运动学和物理学的方法相比,我们在人类36m数据集中〜\ cite {H36M_P​​AMI}实现了定性和定量改进的运动估计,合成质量和物理合理性。通过从视频中学习运动合成,我们的方法为大规模,现实和多样化的运动合成铺平了道路。项目页面:\ url {https://nv-tlabs.github.io/publication/iccv_2021_physics/}
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
Can we make virtual characters in a scene interact with their surrounding objects through simple instructions? Is it possible to synthesize such motion plausibly with a diverse set of objects and instructions? Inspired by these questions, we present the first framework to synthesize the full-body motion of virtual human characters performing specified actions with 3D objects placed within their reach. Our system takes as input textual instructions specifying the objects and the associated intentions of the virtual characters and outputs diverse sequences of full-body motions. This is in contrast to existing work, where full-body action synthesis methods generally do not consider object interactions, and human-object interaction methods focus mainly on synthesizing hand or finger movements for grasping objects. We accomplish our objective by designing an intent-driven full-body motion generator, which uses a pair of decoupled conditional variational autoencoders (CVAE) to learn the motion of the body parts in an autoregressive manner. We also optimize for the positions of the objects with six degrees of freedom (6DoF) such that they plausibly fit within the hands of the synthesized characters. We compare our proposed method with the existing methods of motion synthesis and establish a new and stronger state-of-the-art for the task of intent-driven motion synthesis. Through a user study, we further show that our synthesized full-body motions appear more realistic to the participants in more than 80% of scenarios compared to the current state-of-the-art methods, and are perceived to be as good as the ground truth on several occasions.
translated by 谷歌翻译
在运动中的运动中综合动态外观在诸如AR / VR和视频编辑的应用中起着核心作用。虽然已经提出了最近的许多方法来解决这个问题,但处理具有复杂纹理和高动态运动的松散服装仍然仍然具有挑战性。在本文中,我们提出了一种基于视频的外观综合方法,可以解决此类挑战,并为之前尚未显示的野外视频的高质量结果。具体而言,我们采用基于样式的基于STYLEGAN的架构,对基于人的特定视频的运动retrargeting的任务。我们介绍了一种新的运动签名,用于调制发电机权重以捕获动态外观变化以及正规化基于帧的姿势估计以提高时间一致性。我们在一组具有挑战性的视频上评估我们的方法,并表明我们的方法可以定性和定量地实现最先进的性能。
translated by 谷歌翻译
在本文中,我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势,接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先,我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次,我们开发一种方法来从输入视频自动识别,从输入视频中识别人和物体或地面之间的2D位置和时序,从而显着简化了优化的复杂性。第三,我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法,并在互联网视频的新数据集上展示其表现,显示人们在不受约束的环境中操纵各种工具。
translated by 谷歌翻译
我们介绍了与给定单个图像的任意长相机轨迹相对应的长期视图的新面积视图的问题。这是一个具有挑战性的问题,远远超出了当前视图合成方法的能力,这在提出大型摄像机运动时快速退化。用于视频生成的方法也具有有限的生产长序列的能力,并且通常不适用于场景几何形状。我们采用混合方法,它以迭代`\ emph {render},\ emph {refine},\ emph {重复}'框架集成了几何和图像合成,允许在数百帧之后覆盖大距离的远程生成。我们的方法可以从一组单目的视频序列训练。我们提出了一个沿海场景的空中镜头数据集,并比较了我们最近的观看综合和有条件的视频生成基线的方法,表明它可以在与现有方法相比,在大型相机轨迹上产生更长的时间范围。项目页面https://infinite-nature.github.io/。
translated by 谷歌翻译
从任意堕落状态中起床是一种基本的人类技能。现有的学习这种技能的方法通常会产生高度动态和不稳定的起床动作,这不像人类的起床策略,或者基于跟踪记录的人类起床运动。在本文中,我们提出了一种使用强化学习的分阶段方法,而无需求助于运动捕获数据。该方法首先利用了强大的字符模型,从而有助于发现解决方案模式。然后,第二阶段学会了调整控制策略,以逐步与角色的较弱版本一起使用。最后,第三阶段学习控制政策,这些政策可以以较慢的速度重现较弱的起床动作。我们表明,在多个运行中,该方法可以发现各种各样的起床策略,并以各种速度执行它们。结果通常会产生采用最终站立策略的策略,这些策略是从所有初始状态中看到的恢复动作所共有的。但是,我们还发现了对俯卧和仰卧初始堕落状态的不同策略的政策。学识渊博的起床控制策略通常具有明显的静态稳定性,即,在起床运动过程中,它们可以在各个点停下来。我们进一步测试了新的限制场景的方法,例如在演员表中有一条腿和手臂。
translated by 谷歌翻译
人类活动的上采样视频是一个有趣但具有挑战性的任务,具有许多潜在的应用,从游戏到娱乐和运动广播。在该设置中合成视频帧的主要困难源于人类运动的高度复杂和非线性性质和身体的复杂外观和质地。我们建议在运动引导框架上采样框架中解决这些问题,该框架上采样框架能够产生现实的人类运动和外观。通过利用大规模运动捕获数据集(Amass)培训新颖运动模型,推动帧之间的非线性骨架运动。然后,神经渲染管线使用高帧速率姿态预测以产生全帧输出,考虑姿势和背景一致性。我们的管道只需要低帧速率视频和未配对的人类运动数据,但不需要高帧率视频进行培训。此外,我们贡献了第一个评估数据集,该数据集包括用于此任务的人类活动的高质量和高帧速率视频。与最先进的视频插值技术相比,我们的方法在具有更高质量和精度的帧之间产生的帧,这是通过最先进的导致像素级,分布度量和比较用户评估的结果。我们的代码和收集的数据集可以在https://git.io/render-in-botween中找到。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
自动设计虚拟人和类人动物在帮助游戏,电影和机器人中的角色创作过程中具有巨大的潜力。在某些情况下,角色创建者可能希望设计针对某些动作(例如空手道踢和跑酷跳跃)定制的类人体身体。在这项工作中,我们提出了一个人形设计框架,以自动生成以预先指定的人体运动为条件的身体有效的人形体。首先,我们学习了一个广义的类人动物控制器,该控制器在大型人体运动数据集上进行了训练,该数据集具有多样化的人体运动和身体形状。其次,我们使用设计与控制框架来优化类人动物的物理属性,以找到可以更好地模仿预先指定的人类运动序列的身体设计。我们的方法利用预先训练的类人动物控制器和物理模拟作为指导,能够发现经过定制以执行预先指定的人类运动的新类型类人体设计。
translated by 谷歌翻译