我们解决了人类反应生成的挑战性任务,该任务旨在基于输入动作产生相应的反应。大多数现有作品并不集中于产生和预测反应,并且在仅给出动作作为输入时就无法产生运动。为了解决这一限制,我们提出了一种新型的相互作用变压器(Interformer),该变压器由具有时间和空间浓度的变压器网络组成。具体而言,时间的注意力捕获了字符及其相互作用的运动的时间依赖性,而空间注意力则了解每个字符的不同身体部位与相互作用的一部分之间的依赖关系。此外,我们建议使用图形通过相互作用距离模块提高空间注意力的性能,以帮助关注两个字符的附近关节。关于SBU相互作用,K3HI和Duetdance数据集的广泛实验证明了Interformer的有效性。我们的方法是一般的,可用于产生更复杂和长期的相互作用。
translated by 谷歌翻译
在人类运动预测上的事后大多专注于预测单一受试者的未来动作与过去的姿势序列隔离。然而,在密切互动的人面前,这种策略未能考虑不同主题运动之间的依赖关系。在本文中,我们引入了运动预测框架,其明确原因是关于两个观察到的对象的相互作用。具体而言,我们通过引入一对对应的对准机制来实现这一目标,该机制模拟了两个受试者的运动历史中的相互依赖性。这使我们能够以更现实的方式保留长期运动动态,并且更加强大地预测不寻常和快节奏的运动,例如在舞蹈场景中发生的运动。为了评估这一点,因为没有现有的运动预测数据集描述了两个紧密互动的主体,我们介绍了Lindyhop600K舞蹈数据集。我们的结果证明我们的方法优于最先进的单人运动预测技术。
translated by 谷歌翻译
我们向多人3D运动轨迹预测提出了一种新颖的框架。我们的主要观察是,人类的行动和行为可能高度依赖于其他人。因此,不是以隔离预测每个人类姿势轨迹,我们引入了一种多范围变压器模型,该模型包含用于各个运动的局部运动和用于社交交互的全局范围编码器。然后,通过将相应的姿势作为查询来参加本地和全球范围编码器特征,对变压器解码器对每个人进行预测。我们的模型不仅优于长期3D运动预测的最先进的方法,而且还产生了不同的社交互动。更有趣的是,我们的模型甚至可以通过自动将人分为不同的交互组来同时预测15人运动。具有代码的项目页面可在https://jiahunwang.github.io/mrt/处获得。
translated by 谷歌翻译
根据历史运动序列预测未来的运动是计算机视觉中的一个基本问题,并且在自主驾驶和机器人技术中具有广泛的应用。最近的一些作品表明,图形卷积网络(GCN)有助于对不同关节之间的关系进行建模。但是,考虑到人类运动数据中的变体和各种作用类型,由于解耦的建模策略,很难描绘时空关系的交叉依赖性,这也可能加剧了不足的概括问题。因此,我们提出时空门控速度ADJACENCY GCN(GAGCN)学习对各种作用类型的复杂时空依赖性。具体而言,我们采用门控网络来通过混合候选时空邻接矩阵获得的可训练的自适应邻接矩阵来增强GCN的概括。此外,GAGCN通过平衡时空建模的重量并融合了脱钩时空特征来解决空间和时间的交叉依赖性。对人类360万,积聚和3DPW的广泛实验表明,GAGCN在短期和长期预测中都能达到最先进的表现。
translated by 谷歌翻译
多人运动预测仍然是一个具有挑战性的问题,尤其是在个人运动和社会互动的共同表示中。大多数先前的方法仅涉及学习局部姿势动态以进行单个运动(没有全球身体轨迹),并难以捕获社交互动的复杂互动依赖性。在本文中,我们提出了一种新颖的社会意识运动变压器(SOM形态),以共同的方式有效地模拟个人运动和社会互动。具体而言,Somoformer提取了位移轨迹空间中子序列的运动特征,以有效地学习每个人的局部和全局姿势动力学。此外,我们设计了一种新型的SOM机制中新型的社交运动注意机制,以通过跨时间和社会维度的运动相似性计算同时优化动态表示并捕获相互作用依赖性。在短期和长期视野上,我们在多人运动数据集上进行了经验评估我们的框架,并证明我们的方法极大地优于单人和多人运动预测的最先进方法。接受后将公开提供代码。
translated by 谷歌翻译
人类运动建模对于许多现代图形应用非常重要,这些应用通常需要专业技能。为了消除外行的技能障碍,最近的运动生成方法可以直接产生以自然语言为条件的人类动作。但是,通过各种文本输入,实现多样化和细粒度的运动产生,仍然具有挑战性。为了解决这个问题,我们提出了MotionDiffuse,这是第一个基于基于文本模型的基于文本驱动的运动生成框架,该框架证明了现有方法的几种期望属性。 1)概率映射。 MotionDiffuse不是确定性的语言映射,而是通过一系列注入变化的步骤生成动作。 2)现实的综合。 MotionDiffuse在建模复杂的数据分布和生成生动的运动序列方面表现出色。 3)多级操作。 Motion-Diffuse响应有关身体部位的细粒度指示,以及随时间变化的文本提示,任意长度运动合成。我们的实验表明,Motion-Diffuse通过说服文本驱动运动产生和动作条件运动的运动来优于现有的SOTA方法。定性分析进一步证明了MotionDiffuse对全面运动产生的可控性。主页:https://mingyuan-zhang.github.io/projects/motiondiffuse.html
translated by 谷歌翻译
长期人体运动预测对于安全关键应用是必不可少的,例如人机互动和自主驾驶。在本文中,我们展示了实现长期预测,预测每次瞬间的人类姿势是不必要的。相反,通过线性地插入键盘来预测几个小折叠和近似中间组更有效。我们将证明我们的方法使我们能够在未来预测最多5秒的现实运动,远远大于文献中遇到的典型1秒。此外,由于我们模拟了未来的重叠概率,因此我们可以通过在推理时间采样来产生多种合理的未来动作。在这个延长的时间内,我们的预测更加现实,更多样化,更好地保护运动动力学而不是那些最先进的方法产量。
translated by 谷歌翻译
由于字符之间的复杂和多样化的交互作用,合成的多字符交互是一项艰巨的任务。特别是,在产生诸如舞蹈和战斗之类的紧密互动时,需要精确的时空对齐。现有的生成多字符相互作用的工作集中在给定序列中生成单一类型的反应运动,从而导致缺乏各种结果动作。在本文中,我们提出了一种新颖的方式来创建现实的人类反应动作,通过混合和匹配不同类型的紧密相互作用,在给定数据集中未呈现。我们提出了一个有条件的层次生成对抗网络,具有多热的类嵌入,以从领导者的给定运动序列中生成追随者的混合和匹配反应性运动。实验是对嘈杂(基于深度)和高质量(基于MOCAP)的交互数据集进行的。定量和定性结果表明,我们的方法的表现优于给定数据集上的最新方法。我们还提供了一个增强数据集,具有逼真的反应动作,以刺激该领域的未来研究。该代码可从https://github.com/aman-goel1/imm获得
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
人类运动预测旨在预测未来的姿势给出了一系列过去的3D骷髅。虽然这个问题最近受到了不断的关注,但它主要是为单身人类而被隔离解决。在本文中,我们在处理执行合作任务时探讨了这个问题,我们寻求预测两个互动者的未来运动给出了他们过去骷髅的两个序列。我们提出了一种新颖的交叉互动注意力,用于利用两个人的历史信息,并学会预测两个姿势序列之间的交叉依赖性。由于没有培训此类交互式情况的数据集,我们收集了Expi(极端姿态互动),这是一个新的基于实验室的人交互数据集,其专业舞者的数据集执行了Lindy-Hop舞蹈动作,其中包含115个序列,其中3D身体带有30k帧的序列。和形状。我们在Expi上彻底评估了我们的交叉交互网络,并表明这两者都在短期和长期预测中,它一直以最优异的方式为单人运动预测的最先进的方法。
translated by 谷歌翻译
我们提出了一个新的变压器模型,用于无监督学习骨架运动序列的任务。用于基于无监督骨骼的动作学习的现有变压器模型被了解到每个关节从相邻帧的瞬时速度没有全球运动信息。因此,该模型在学习全身运动和暂时遥远的关节方面的关注方面存在困难。此外,模型中尚未考虑人与人之间的互动。为了解决全身运动,远程时间动态和人与人之间的互动的学习,我们设计了一种全球和本地的注意机制,在其中,全球身体动作和本地关节运动相互关注。此外,我们提出了一种新颖的预处理策略,即多间隔姿势位移预测,以在不同的时间范围内学习全球和本地关注。提出的模型成功地学习了关节的局部动力学,并从运动序列中捕获了全局上下文。我们的模型优于代表性基准中明显边缘的最先进模型。代码可在https://github.com/boeun-kim/gl-transformer上找到。
translated by 谷歌翻译
我们提出了一种新颖的基于变压器的架构,用于3D人类运动的生成建模任务。以前的工作通常依赖于基于RNN的模型,考虑到更短的预测视野迅速达到静止和通常难以置信的状态。最近的研究表明,频域中的隐式时间表示也是有效地制定预定地平线的预测。我们的重点是学习自向学习时空陈述,从而在短期和长期生成合理的未来发展。该模型学习骨骼关节的高尺寸嵌入,以及如何通过去耦的时间和空间自我关注机制来组成时间相干的姿势。我们的双重关注概念允许模型直接访问电流和过去信息,并明确捕获结构和时间依赖项。我们凭经验显示,这有效地了解潜在的运动动态,并减少自动回归模型中观察到的误差累积。我们的模型能够在长视程中产生准确的短期预测和产生合理的运动序列。我们在HTTPS://github.com/eth-Ation-Transformer中公开公开提供我们的代码。
translated by 谷歌翻译
合理和可控3D人类运动动画的创建是一个长期存在的问题,需要对技术人员艺术家进行手动干预。目前的机器学习方法可以半自动化该过程,然而,它们以显着的方式受到限制:它们只能处理预期运动的单个轨迹,该轨迹排除了对输出的细粒度控制。为了缓解该问题,我们在多个轨迹表示为具有缺失关节的姿势的空间和时间内将未来姿态预测的问题重构为姿势完成。我们表明这种框架可以推广到设计用于未来姿态预测的其他神经网络。曾经在该框架中培训,模型能够从任何数量的轨迹预测序列。我们提出了一种新颖的变形金刚架构,Trajevae,在这个想法上建立了一个,为3D人类动画提供了一个多功能框架。我们展示了Trajevae提供比基于轨迹的参考方法和方法基于过去的姿势。我们还表明,即使仅提供初始姿势,它也可以预测合理的未来姿势。
translated by 谷歌翻译
Stochastic human motion prediction aims to forecast multiple plausible future motions given a single pose sequence from the past. Most previous works focus on designing elaborate losses to improve the accuracy, while the diversity is typically characterized by randomly sampling a set of latent variables from the latent prior, which is then decoded into possible motions. This joint training of sampling and decoding, however, suffers from posterior collapse as the learned latent variables tend to be ignored by a strong decoder, leading to limited diversity. Alternatively, inspired by the diffusion process in nonequilibrium thermodynamics, we propose MotionDiff, a diffusion probabilistic model to treat the kinematics of human joints as heated particles, which will diffuse from original states to a noise distribution. This process offers a natural way to obtain the "whitened" latents without any trainable parameters, and human motion prediction can be regarded as the reverse diffusion process that converts the noise distribution into realistic future motions conditioned on the observed sequence. Specifically, MotionDiff consists of two parts: a spatial-temporal transformer-based diffusion network to generate diverse yet plausible motions, and a graph convolutional network to further refine the outputs. Experimental results on two datasets demonstrate that our model yields the competitive performance in terms of both accuracy and diversity.
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
在许多应用中,人类互动识别非常重要。识别相互作用的一种关键提示是交互式部位。在这项工作中,我们提出了一个新型的交互图形变压器(Igformer)网络,以通过将交互式身体部位建模为图形,以用于基于骨架的交互识别。更具体地说,所提出的Igformer根据交互式身体部位之间的语义和距离相关性构造了相互作用图,并通过基于学习的图来汇总交互式身体部位的信息来增强每个人的表示。此外,我们提出了一个语义分区模块,以将每个人类骨架序列转换为一个身体零件序列,以更好地捕获用于学习图形的骨骼序列的空间和时间信息。在三个基准数据集上进行的广泛实验表明,我们的模型的表现优于最先进的利润率。
translated by 谷歌翻译
现有的基于密钥帧的运动合成主要集中于循环动作或短期运动的产生,例如步行,跑步和近距离姿势之间的过渡。但是,这些方法将在处理复杂和即兴运动时,例如舞蹈表演和武术时会大大降低合成运动的自然性和多样性。此外,当前的研究缺乏对生成的运动的细粒度控制,这对于智能的人类计算机互动和动画创作至关重要。在本文中,我们提出了一个基于多个约束的新型基于关键的运动生成网络,该网络可以通过学习的知识来实现​​多样化的舞蹈综合。具体而言,该算法主要基于复发性神经网络(RNN)和变压器体系结构制定。我们网络的骨干是由两个长期记忆(LSTM)单元组成的层次RNN模块,其中第一个LSTM用于将历史框架的姿势信息嵌入潜在空间中,第二个LSTM用于使用第二个LSTM,并且使用了第二个LSTM。预测下一帧的人类姿势。此外,我们的框架包含两个基于变压器的控制器,这些控制器分别用于建模根轨迹和速度因子的约束,以更好地利用框架的时间上下文并实现细粒度的运动控制。我们在包含各种现代舞蹈的舞蹈数据集上验证了拟议的方法。三个定量分析的结果验证了我们算法的优势。视频和定性实验结果表明,我们算法产生的复杂运动序列即使是长期合成,也可以在关键帧之间实现多种和平滑的运动过渡。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
在本文中,我们开发了一个神经网络模型,以从观察到的人类运动历史中预测未来的人类运动。我们提出了一种非自动回归的变压器体系结构,以利用其平行性质,以便在测试时更容易训练和快速,准确的预测。所提出的结构将人类运动预测分为两个部分:1)人类轨迹,即随着时间的推移,髋关节3D位置和2)人类姿势,这是所有其他关节3D位置,相对于固定的髋关节。我们建议同时做出两个预测,因为共享表示可以改善模型性能。因此,该模型由两组编码器和解码器组成。首先,应用于编码器输出的多头注意模块改善了人类轨迹。其次,应用于与解码器输出相连的编码器输出的另一个多头自发项模块有助于学习时间依赖性。我们的模型非常适合于测试准确性和速度方面的机器人应用,并且相对于最新方法比较。我们通过机器人跟踪任务证明了我们作品的现实适用性,这是我们提议的模型充满挑战而实用的案例研究。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译