生成数字人类,现实地具有许多应用,并且被广泛研究,但现有的方法专注于身体的主要肢体,忽略了手和头部。手已经分开研究,但重点是在产生现实的静态爪子上。要综合与世界互动的虚拟字符,我们需要同时生成全身运动和现实手掌。两个子问题都是挑战自己,在一起,姿势的状态空间显着更大,手和身体运动的尺度不同,而且整体姿势和手柄必须同意,满足身体限制,以及是合理的。此外,头部涉及,因为化身必须查看对象与它交互。我们第一次解决了生成一个抓住未知物体的头像的全身,手和头部运动的问题。作为输入,我们的方法,称为目标,采用3D对象,其位置和起始3D身体姿势和形状。目标使用两种新颖的网络输出一系列全身姿势。首先,GNET通过现实的身体,头部,臂和手姿势产生目标全体掌握,以及手对象接触。其次,MNET生成起始和目标姿势之间的运动。这是具有挑战性的,因为它需要头像与脚踏接触朝向物体走向物体,将头部向朝向它朝向它,伸出伸展,并用现实的手姿势和手工触点抓住它。为了实现这一网络,网络利用组合SMPL-X身体参数和3D顶点偏移的表示。我们在标准数据集上培训和评估目标,定性和定量。结果表明,目标概括了不佳的对象,表现优于基线。目标是迈向综合现实的全身对象掌握。
translated by 谷歌翻译
人类抓握合成具有许多应用,包括AR / VR,视频游戏和机器人。虽然已经提出了一些方法来为对象抓握和操纵产生现实的手对象交互,但通常只考虑手动与对象交互。在这项工作中,我们的目标是综合全身掌握运动。鉴于3D对象,我们的目标是产生多样化和自然的全身人类动作,方法和掌握物体。这项任务是具有挑战性的,因为它需要建模全身动态和灵巧的手指运动。为此,我们提出了由两个关键部件组成的Saga(随机全身抓取):(a)静态全身抓取姿势。具体地,我们提出了一种多任务生成模型,共同学习静态全身抓姿和人对象触点。 (b)抓住运动infilling。鉴于初始姿势和产生的全身抓握姿势作为运动的起始和结束姿势,我们设计了一种新的联络感知生成运动infilling模块,以产生各种掌握的掌握运动。我们展示了我们方法是第一代生物和表达全身运动的第一代框架,该方法是随机放置并掌握未经看的对象的逼真和表达全身运动。代码和视频可用于:https://jiahaoplus.github.io/saga/saga.html。
translated by 谷歌翻译
Can we make virtual characters in a scene interact with their surrounding objects through simple instructions? Is it possible to synthesize such motion plausibly with a diverse set of objects and instructions? Inspired by these questions, we present the first framework to synthesize the full-body motion of virtual human characters performing specified actions with 3D objects placed within their reach. Our system takes as input textual instructions specifying the objects and the associated intentions of the virtual characters and outputs diverse sequences of full-body motions. This is in contrast to existing work, where full-body action synthesis methods generally do not consider object interactions, and human-object interaction methods focus mainly on synthesizing hand or finger movements for grasping objects. We accomplish our objective by designing an intent-driven full-body motion generator, which uses a pair of decoupled conditional variational autoencoders (CVAE) to learn the motion of the body parts in an autoregressive manner. We also optimize for the positions of the objects with six degrees of freedom (6DoF) such that they plausibly fit within the hands of the synthesized characters. We compare our proposed method with the existing methods of motion synthesis and establish a new and stronger state-of-the-art for the task of intent-driven motion synthesis. Through a user study, we further show that our synthesized full-body motions appear more realistic to the participants in more than 80% of scenarios compared to the current state-of-the-art methods, and are perceived to be as good as the ground truth on several occasions.
translated by 谷歌翻译
综合虚拟人类及其3D环境之间的自然相互作用对于众多应用程序(例如计算机游戏和AR/VR体验)至关重要。我们的目标是使人类与给定的3D场景进行互动,该场景由高级语义规格控制为动作类别和对象实例,例如“坐在椅子上”。将相互作用语义纳入生成框架中的主要挑战是学习一个共同表示,该表示有效地捕获了异质信息,包括人体的关节,3D对象几何以及相互作用的意图。为了应对这一挑战,我们设计了一种基于变压器的新型生成模型,其中铰接的3D人体表面点和3D对象共同编码在统一的潜在空间中,并且人与物体之间的相互作用语义是通过嵌入的。位置编码。此外,受到人类可以同时与多个对象相互作用的相互作用的组成性质的启发,我们将相互作用语义定义为不同原子动作对象对的组成。我们提出的生成模型自然可以结合不同数量的原子相互作用,从而无需复合相互作用数据即可合成组成的人类习惯相互作用。我们使用交互语义标签和场景实例分割扩展了Prox数据集,以评估我们的方法,并证明我们的方法可以通过语义控制生成现实的人类场景相互作用。我们的感知研究表明,我们合成的虚拟人类可以自然与3D场景相互作用,从而超过现有方法。我们将方法硬币命名,用于与语义控制的组成相互作用合成。代码和数据可在https://github.com/zkf1997/coins上获得。
translated by 谷歌翻译
人类不断与日常对象互动以完成任务。为了了解这种相互作用,计算机需要从观察全身与场景的全身相互作用的相机中重建这些相互作用。由于身体和物体之间的阻塞,运动模糊,深度/比例模棱两可以及手和可抓握的物体零件的低图像分辨率,这是具有挑战性的。为了使问题可以解决,社区要么专注于互动的手,忽略身体或互动的身体,无视双手。 Grab数据集解决了灵活的全身互动,但使用基于标记的MOCAP并缺少图像,而行为则捕获了身体对象互动的视频,但缺乏手动细节。我们使用参数全身模型SMPL-X和已知的对象网格来解决一种新的方法,该方法与Intercap的先前工作局限性,该方法是一种新的方法,可重建从多视图RGB-D数据进行交互的整体和对象。为了应对上述挑战,Intercap使用了两个关键观察:(i)可以使用手和物体之间的接触来改善两者的姿势估计。 (ii)Azure Kinect传感器使我们能够建立一个简单的多视图RGB-D捕获系统,该系统在提供合理的相机间同步时最小化遮挡的效果。使用此方法,我们捕获了Intercap数据集,其中包含10个受试者(5名男性和5个女性)与10个各种尺寸和负担的物体相互作用,包括与手或脚接触。 Intercap总共有223个RGB-D视频,产生了67,357个多视图帧,每个帧包含6个RGB-D图像。我们的方法为每个视频框架提供了伪真正的身体网格和对象。我们的Intercap方法和数据集填补了文献中的重要空白,并支持许多研究方向。我们的数据和代码可用于研究目的。
translated by 谷歌翻译
我们提出了TOCH,这是一种使用数据先验来完善不正确的3D手对象交互序列的方法。现有的手动跟踪器,尤其是那些依靠很少相机的手动跟踪器,通常会通过手动相交或缺失的触点产生视觉上不切实际的结果。尽管纠正此类错误需要有关交互的时间方面的推理,但大多数以前的作品都集中在静态抓取和触点上。我们方法的核心是Toch Fields,这是一种新颖的时空表示,用于在交互过程中建模手和物体之间的对应关系。 Toch字段是一个以对象为中心的表示,它相对于对象编码手的位置。利用这种新颖的表示,我们学习了具有暂时性的自动编码器的合理象征领域的潜在流形。实验表明,Toch优于最先进的3D手动相互作用模型,这些模型仅限于静态抓取和触点。更重要的是,我们的方法甚至在接触之前和之后都会产生平滑的相互作用。使用单个训练有素的TOCH模型,我们定量和定性地证明了其有用性,可用于纠正现成的RGB/RGB/RGB-D手动重建方法,并跨对象传输grasps。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以将3D人类动画放入3D场景中,同时保持动画中的任何人类场景相互作用。我们使用计算动画中最重要的网格的概念,以与场景进行交互,我们称之为“键框”。这些关键框架使我们能够更好地优化动画在场景中的位置,从而使动画中的互动(站立,铺设,坐着等)与场景的负担相匹配(例如,站在地板上或躺在床上)。我们将我们称为PAAK的方法与先前的方法进行了比较,包括POSA,Prox地面真理和运动合成方法,并通过感知研究突出了我们方法的好处。人类评估者更喜欢我们的PAAK方法,而不是Prox地面真相数据64.6 \%。此外,在直接比较中,与POSA相比,评估者比竞争方法比包括61.5%的竞争方法更喜欢PAAK。
translated by 谷歌翻译
Generating realistic 3D worlds occupied by moving humans has many applications in games, architecture, and synthetic data creation. But generating such scenes is expensive and labor intensive. Recent work generates human poses and motions given a 3D scene. Here, we take the opposite approach and generate 3D indoor scenes given 3D human motion. Such motions can come from archival motion capture or from IMU sensors worn on the body, effectively turning human movement in a "scanner" of the 3D world. Intuitively, human movement indicates the free-space in a room and human contact indicates surfaces or objects that support activities such as sitting, lying or touching. We propose MIME (Mining Interaction and Movement to infer 3D Environments), which is a generative model of indoor scenes that produces furniture layouts that are consistent with the human movement. MIME uses an auto-regressive transformer architecture that takes the already generated objects in the scene as well as the human motion as input, and outputs the next plausible object. To train MIME, we build a dataset by populating the 3D FRONT scene dataset with 3D humans. Our experiments show that MIME produces more diverse and plausible 3D scenes than a recent generative scene method that does not know about human movement. Code and data will be available for research at https://mime.is.tue.mpg.de.
translated by 谷歌翻译
推断人类场景接触(HSC)是了解人类如何与周围环境相互作用的第一步。尽管检测2D人类对象的相互作用(HOI)和重建3D人姿势和形状(HPS)已经取得了重大进展,但单个图像的3D人习惯接触的推理仍然具有挑战性。现有的HSC检测方法仅考虑几种类型的预定义接触,通常将身体和场景降低到少数原语,甚至忽略了图像证据。为了预测单个图像的人类场景接触,我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为“真实场景,互动,联系和人类”的新数据集。 Rich在4K分辨率上包含多视图室外/室内视频序列,使用无标记运动捕获,3D身体扫描和高分辨率3D场景扫描捕获的地面3D人体。 Rich的一个关键特征是它还包含身体上精确的顶点级接触标签。使用Rich,我们训练一个网络,该网络可预测单个RGB图像的密集车身场景接触。我们的主要见解是,接触中的区域总是被阻塞,因此网络需要能够探索整个图像以获取证据。我们使用变压器学习这种非本地关系,并提出新的身体场景接触变压器(BSTRO)。很少有方法探索3D接触;那些只专注于脚的人,将脚接触作为后处理步骤,或从身体姿势中推断出无需看现场的接触。据我们所知,BSTRO是直接从单个图像中直接估计3D身体场景接触的方法。我们证明,BSTRO的表现明显优于先前的艺术。代码和数据集可在https://rich.is.tue.mpg.de上获得。
translated by 谷歌翻译
我们的目标是填充数字环境,其中数字人类具有多样化的身体形状,永久地行动,并具有合理的身体场景接触。核心挑战是为多元化的3D体产生逼真,可控和无限长的动作。为此,我们通过体表标记提出生成的运动原语,缩短为伽马。在我们的解决方案中,我们将长期运动分解为运动原语的时间序列。我们利用身体表面标记和条件变化自动码器来模拟每个运动原语,并通过递归地实现生成模型来产生长期运动。为了控制达到目标的动作,我们应用一个策略网络来探索模型潜像,并使用基于树的搜索来保留测试期间的运动质量。实验表明,我们的方法可以产生比最先进的数据驱动方法产生更现实和可控的运动。利用常规路径发现算法,产生的人体可以在场景中长时间地实际地移动长距离。代码将用于研究目的:\ url {https://yz-cnsdqz.github.io/eigenmotion/gamma/}
translated by 谷歌翻译
动画字符上的现实动态服装具有许多AR/VR应用程序。在创作这种动态服装几何形状仍然是一项具有挑战性的任务时,数据驱动的模拟提供了一个有吸引力的替代方案,尤其是如果可以简单地使用基础字符的运动来控制它。在这项工作中,我们专注于动态3D服装,尤其是对于松散的服装。在数据驱动的设置中,我们首先学习了合理服装几何形状的生成空间。然后,我们学会了对该空间的映射,以捕获运动依赖的动态变形,该变形在服装的先前状态以及相对于基础体的相对位置为条件。从技术上讲,我们通过在服装的规范状态下预测富含框架依赖的皮肤重量的服装状态下的人均局部位移来对服装动力学进行建模,从而将服装带入全球空间。我们通过预测剩余的局部位移来解决所有剩余的人均碰撞。所得的服装几何形状被用作历史记录,以实现迭代推出预测。我们证明了对看不见的身体形状和运动输入的合理概括,并在多个最新的替代方案中显示出改进。
translated by 谷歌翻译
人类将他们的手和身体一起移动,沟通和解决任务。捕获和复制此类协调活动对于虚拟字符至关重要,以实际行为行为。令人惊讶的是,大多数方法分别对待身体和手的3D建模和跟踪。在这里,我们制定了一种手和身体的型号,并将其与全身4D序列合理。当扫描或捕获3D中的全身时,手很小,通常是部分闭塞,使其形状和难以恢复。为了应对低分辨率,闭塞和噪音,我们开发了一种名为Mano(具有铰接和非刚性变形的手模型)的新型号。曼诺从大约1000个高分辨率的3D扫描中学到了31个受试者的手中的大约一定的手。该模型是逼真的,低维,捕获非刚性形状的姿势变化,与标准图形封装兼容,可以适合任何人类的手。 Mano提供从手姿势的紧凑型映射,以构成混合形状校正和姿势协同效应的线性歧管。我们将Mano附加到标准参数化3D体形状模型(SMPL),导致完全铰接的身体和手部模型(SMPL + H)。我们通过用4D扫描仪捕获的综合体,自然,自然,自然的受试者的活动来说明SMPL + H.该配件完全自动,并导致全身型号,自然地移动详细的手动运动和在全身性能捕获之前未见的现实主义。模型和数据在我们的网站上自由用于研究目的(http://mano.is.tue.mpg.de)。
translated by 谷歌翻译
我们提出了一个框架来学习一个结构化的潜在空间来代表4D人体运动,其中每个潜在向量都编码整个3D人类形状的全部运动。一方面,存在一些数据驱动的骨骼动画模型,提出了时间密集运动信号的运动空间,但基于几何稀疏的运动学表示。另一方面,存在许多方法来构建密集的3D几何形状的形状空间,但对于静态帧。我们将两个概念汇总在一起,提出一个运动空间,该运动空间在时间和几何上都很密集。经过训练后,我们的模型将基于低维潜在空间中的单个点生成多帧序列。该潜在空间是构建为结构化的,因此类似的运动形成簇。它还嵌入了潜在矢量中的持续时间变化,允许语义上的接近序列,这些序列仅因时间展开而不同以共享相似的潜在矢量。我们通过实验证明了潜在空间的结构特性,并表明它可用于在不同动作之间生成合理的插值。我们还将模型应用于4D人类运动的完成,显示其有希望学习人类运动时空特征的能力。
translated by 谷歌翻译
从单眼RGB图像中捕获的3D人类运动捕获符合受试者与复杂且可能可变形的环境的相互作用的相互作用是一个非常具有挑战性,不足和探索不足的问题。现有方法仅薄弱地解决它,并且当人类与场景表面互动时,通常不会建模可能发生的表面变形。相比之下,本文提出了mocapdeform,即单眼3D人体运动捕获的新框架,该框架是第一个明确模拟3D场景的非刚性变形,以改善3D人体姿势估计和可变形环境的重建。 Mocapdeform接受单眼RGB视频,并在相机空间中对齐一个3D场景。它首先使用基于新的射线广播的策略将输入单眼视频中的主题以及密集的触点标签进行定位。接下来,我们的人类环境相互作用约束被利用以共同优化全局3D人类姿势和非刚性表面变形。 Mocapdeform比在几个数据集上的竞争方法获得了更高的精度,包括我们新记录的具有变形背景场景的方法。
translated by 谷歌翻译
Fine-grained capturing of 3D HOI boosts human activity understanding and facilitates downstream visual tasks, including action recognition, holistic scene reconstruction, and human motion synthesis. Despite its significance, existing works mostly assume that humans interact with rigid objects using only a few body parts, limiting their scope. In this paper, we address the challenging problem of f-AHOI, wherein the whole human bodies interact with articulated objects, whose parts are connected by movable joints. We present CHAIRS, a large-scale motion-captured f-AHOI dataset, consisting of 16.2 hours of versatile interactions between 46 participants and 81 articulated and rigid sittable objects. CHAIRS provides 3D meshes of both humans and articulated objects during the entire interactive process, as well as realistic and physically plausible full-body interactions. We show the value of CHAIRS with object pose estimation. By learning the geometrical relationships in HOI, we devise the very first model that leverage human pose estimation to tackle the estimation of articulated object poses and shapes during whole-body interactions. Given an image and an estimated human pose, our model first reconstructs the pose and shape of the object, then optimizes the reconstruction according to a learned interaction prior. Under both evaluation settings (e.g., with or without the knowledge of objects' geometries/structures), our model significantly outperforms baselines. We hope CHAIRS will promote the community towards finer-grained interaction understanding. We will make the data/code publicly available.
translated by 谷歌翻译
在本文中,我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势,接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先,我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次,我们开发一种方法来从输入视频自动识别,从输入视频中识别人和物体或地面之间的2D位置和时序,从而显着简化了优化的复杂性。第三,我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法,并在互联网视频的新数据集上展示其表现,显示人们在不受约束的环境中操纵各种工具。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
大多数先前的作品在从图像中感知3D人类的作品是孤立的,而没有周围的环境。但是,人类一直在与周围的物体互动,因此呼吁不仅可以推理人类,而且可以推理对象及其相互作用的模型。由于人类与物体之间的严重阻塞,不同的相互作用类型和深度歧义,问题极具挑战性。在本文中,我们介绍了一种新颖的方法,该方法学会了从单个RGB图像中共同重建人和物体。乔尔从最近的隐性表面学习和基于经典模型的拟合方面的进步中汲取灵感。我们计算人类和对象的神经重建,该神经用两个无符号距离字段隐式表示,一个对应物的对应字段和一个对象姿势场。这使我们能够在相互作用的推理的同时,可牢固地拟合参数的身体模型和3D对象模板。此外,先前的像素对齐的隐式学习方法使用合成数据并做出实际数据中未满足的假设。我们提出了一个优雅的深度缩放,可以在真实数据上进行更有效的形状学习。实验表明,我们的联合重建通过提出的策略学到了明显优于SOTA。我们的代码和型号可在https://virtualhumans.mpi-inf.mpg.de/chore上找到
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
我们提出了一种对象感知的3D自我监测姿势估计方法,其紧密地集成了运动学建模,动力学建模和场景对象信息。与使用两种组件的现有运动学或基于动态的方法不同,我们通过动态调节培训协同两种方法。在每个时间步骤中,用于使用视频证据和仿真状态提供目标姿势的运动模型。然后,预先注释的动力学模型试图模拟物理模拟器中的运动姿势。通过比较由动态模型对动态模型产生的姿势指示的姿势,我们可以使用它们的未对准来进一步改善运动模型。通过在场景中的6DOF姿势(例如,椅子,盒子)中,我们首次展示了使用单个可佩戴相机估计物理合理的3D人体相互作用的能力。我们在受控实验室设置和现实世界场景中评估我们的Egentric姿势估计方法。
translated by 谷歌翻译