本文提出了运动拼图,这是一个新型的运动风格转移网络,在几个重要方面都可以提高最先进的方式。运动难题是第一个可以控制各个身体部位运动样式的动作,从而可以进行本地样式编辑并大大增加风格化运动的范围。我们的框架旨在保持人的运动学结构,从多种样式运动中提取了风格的特征,用于不同的身体部位,并将其本地转移到目标身体部位。另一个主要优点是,它可以通过整合自适应实例正常化和注意力模块,同时保持骨骼拓扑结构,从而传递全球和本地运动风格的特征。因此,它可以捕获动态运动所表现出的样式,例如拍打和惊人,比以前的工作要好得多。此外,我们的框架允许使用样式标签或运动配对的数据集进行任意运动样式传输,从而使许多公开的运动数据集可用于培训。我们的框架可以轻松地与运动生成框架集成,以创建许多应用程序,例如实时运动传输。我们通过许多示例和以前的工作比较来证明我们的框架的优势。
translated by 谷歌翻译
神经网络的出现彻底改变了运动合成领域。然而,学会从给定的分布中无条件合成动作仍然是一项具有挑战性的任务,尤其是当动作高度多样化时。我们提出了Modi,这是一种无条件的生成模型,可以合成各种动作。我们的模型在完全无监督的环境中训练,从多样化,非结构化和未标记的运动数据集中进行了训练,并产生了一个行为良好,高度语义的潜在空间。我们的模型的设计遵循StyleGAN的多产架构,并将其两个关键技术组件调整为运动域:一组样式编码,这些样式编码注入了生成器层次结构的每个级别和映射功能,并形成了一个学习和形成一个分离的潜在空间。我们表明,尽管数据集中缺乏任何结构,但潜在空间可以在语义上聚集,并促进语义编辑和运动插值。此外,我们提出了一种将未见动作转向潜在空间的技术,并展示了基于潜在的运动编辑操作,否则这些动作无法通过天真地操纵明确的运动表示无法实现。我们的定性和定量实验表明,我们的框架达到了最新的合成质量,可以遵循高度多样化的运动数据集的分布。代码和训练有素的模型将在https://sigal-raab.github.io/modi上发布。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
控制角色在实时动画系统中移动的方式是具有有用应用程序的具有挑战性的任务。现有的样式传输系统需要访问参考内容运动剪辑,但是,在实时系统中,未来的运动内容未知且易于使用用户输入进行改变。在这项工作中,我们呈现了一种使用动画综合网络的风格建模系统,基于本地运动阶段模拟运动内容。额外的样式调制网络使用功能明智的变换实时调制样式。为了评估我们的方法,我们创建并释放一个新的风格建模数据集100,其中包含超过400万帧的程式化的机器人数据,以100种不同的样式,为现有系统提供了许多挑战。为了模拟这些样式,我们将局部相位计算扩展到无联接的配方。与其他实时建模方法相比,我们展示了我们的系统在其风格表示中更加强大,有效,同时提高运动质量。
translated by 谷歌翻译
我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
我们提出了循环式的舞蹈风格转移系统,该系统将以一种舞蹈方式将现有的运动剪辑转换为另一种舞蹈风格的运动剪辑,同时试图保留舞蹈的运动背景。我们的方法扩展了现有的自行车结构,用于建模音频序列,并集成多模式变压器编码器以说明音乐上下文。我们采用基于序列长度的课程学习来稳定培训。我们的方法捕获了运动框架之间丰富而长期的内部关系,这是运动转移和合成工作中的普遍挑战。我们进一步介绍了在舞蹈运动的背景下衡量转移力量和内容保存的新指标。我们进行了一项广泛的消融研究以及一项人类研究,其中包括30名具有5年或更长时间的舞蹈经验的参与者。结果表明,循环量会以目标样式产生逼真的运动,从而在自然性,传递强度和内容保存上明显优于基线周期。
translated by 谷歌翻译
“我们怎样才能通过简单地告诉他们,从动画电影剧本或移动机器人的3D角色我们希望他们做什么?” “我们如何非结构化和复杂的可以造一个句子,仍然从其生成合理的运动?”这些都是需要在长期得到回答,因为领域仍然处于起步阶段的问题。通过这些问题的启发,我们提出了产生成分操作的新技术,它可以处理复杂的输入句子。我们的产量是描绘在输入句子中的动作三维姿态序列。我们提出了一个分级二流顺序模型,探讨对应于给定的运动自然语言中的句子和三维姿态序列之间的精细联合级映射。我们学习运动的两个集管表示 - 每一个上半身下半身动作。我们的模型可以生成简短的句子描述单个动作以及长组成的句子描述多个连续叠加行动似是而非的姿势序列。我们评估的公开可用的KIT运动语言数据集含有与人类标注的句子3D姿势数据我们提出的模型。实验结果表明,我们的模型以50%的余量前进的状态的最先进的在客观评价基于文本的运动的合成。基于用户研究定性评价表明我们的合成运动被认为是最接近地面实况动作捕捉短期和组成句子。
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
我们提出了一个框架来学习一个结构化的潜在空间来代表4D人体运动,其中每个潜在向量都编码整个3D人类形状的全部运动。一方面,存在一些数据驱动的骨骼动画模型,提出了时间密集运动信号的运动空间,但基于几何稀疏的运动学表示。另一方面,存在许多方法来构建密集的3D几何形状的形状空间,但对于静态帧。我们将两个概念汇总在一起,提出一个运动空间,该运动空间在时间和几何上都很密集。经过训练后,我们的模型将基于低维潜在空间中的单个点生成多帧序列。该潜在空间是构建为结构化的,因此类似的运动形成簇。它还嵌入了潜在矢量中的持续时间变化,允许语义上的接近序列,这些序列仅因时间展开而不同以共享相似的潜在矢量。我们通过实验证明了潜在空间的结构特性,并表明它可用于在不同动作之间生成合理的插值。我们还将模型应用于4D人类运动的完成,显示其有希望学习人类运动时空特征的能力。
translated by 谷歌翻译
在本文中,我们展示了Facetunegan,一种新的3D面部模型表示分解和编码面部身份和面部表情。我们提出了对图像到图像翻译网络的第一次适应,该图像已经成功地用于2D域,到3D面几何。利用最近释放的大面扫描数据库,神经网络已经过培训,以便与面部更好的了解,使面部表情转移和中和富有效应面的变异因素。具体而言,我们设计了一种适应基础架构的对抗架构,并使用Spiralnet ++进行卷积和采样操作。使用两个公共数据集(FACESCAPE和COMA),Facetunegan具有比最先进的技术更好的身份分解和面部中和。它还通过预测较近地面真实数据的闪烁形状并且由于源极和目标之间的面部形态过于不同的面部形态而越来越多的不期望的伪像来优异。
translated by 谷歌翻译
由于字符之间的复杂和多样化的交互作用,合成的多字符交互是一项艰巨的任务。特别是,在产生诸如舞蹈和战斗之类的紧密互动时,需要精确的时空对齐。现有的生成多字符相互作用的工作集中在给定序列中生成单一类型的反应运动,从而导致缺乏各种结果动作。在本文中,我们提出了一种新颖的方式来创建现实的人类反应动作,通过混合和匹配不同类型的紧密相互作用,在给定数据集中未呈现。我们提出了一个有条件的层次生成对抗网络,具有多热的类嵌入,以从领导者的给定运动序列中生成追随者的混合和匹配反应性运动。实验是对嘈杂(基于深度)和高质量(基于MOCAP)的交互数据集进行的。定量和定性结果表明,我们的方法的表现优于给定数据集上的最新方法。我们还提供了一个增强数据集,具有逼真的反应动作,以刺激该领域的未来研究。该代码可从https://github.com/aman-goel1/imm获得
translated by 谷歌翻译
我们提出了Zeroeggs,这是一个神经网络框架,用于语音驱动的手势生成,以零拍出样式控制。这意味着即使在训练过程中看不见的运动样式,也只能通过一个简短的运动剪辑来控制样式。我们的模型使用一个变性框架来学习样式嵌入,从而可以通过潜在的空间操纵或样式嵌入方式的混合和缩放来修改样式。我们框架的概率性质进一步使给定输入相同的各种输出的产生,以解决手势运动的随机性质。在一系列实验中,我们首先证明了模型对新的扬声器和样式的灵活性和概括性。然后,在一项用户研究中,我们表明我们的模型在运动,语音适当性和风格刻画方面的自然性,适当性和刻画的表现优于先前的最先进技术。最后,我们释放了包括手指在内的全身手势运动的高质量数据集,语音跨越了19种不同的样式。
translated by 谷歌翻译
舞蹈挑战现在是Tiktok这样的视频社区中的病毒性。一旦挑战变得流行,就会在几天内上传成千上万的短型视频。因此,来自舞蹈挑战的病毒预测具有很大的商业价值,具有广泛的应用,例如智能推荐和普及促销。本文提出了一种集成骨骼,整体外观,面部和景区提示的新型多模态框架,以综合舞蹈病毒预测。为了模拟身体运动,我们提出了一种层次地改进了时空骨架图的金字塔骨架图卷积网络(PSGCN)。同时,我们介绍了一个关系时间卷积网络(RTCN),以利用非局部时间关系利用外观动态。最终提出了一种细心的融合方法,以自适应地从不同方式汇总预测。为了验证我们的方法,我们介绍了一个大规模的病毒舞蹈视频(VDV)数据集,其中包含超过4,000个病毒舞蹈挑战的舞蹈剪辑。 VDV数据集的广泛实验证明了我们模型的功效。对VDV数据集的广泛实验良好地证明了我们方法的有效性。此外,我们表明,可以从我们的模型中派生类似多维推荐和动作反馈等的短视频应用。
translated by 谷歌翻译
现有的基于密钥帧的运动合成主要集中于循环动作或短期运动的产生,例如步行,跑步和近距离姿势之间的过渡。但是,这些方法将在处理复杂和即兴运动时,例如舞蹈表演和武术时会大大降低合成运动的自然性和多样性。此外,当前的研究缺乏对生成的运动的细粒度控制,这对于智能的人类计算机互动和动画创作至关重要。在本文中,我们提出了一个基于多个约束的新型基于关键的运动生成网络,该网络可以通过学习的知识来实现​​多样化的舞蹈综合。具体而言,该算法主要基于复发性神经网络(RNN)和变压器体系结构制定。我们网络的骨干是由两个长期记忆(LSTM)单元组成的层次RNN模块,其中第一个LSTM用于将历史框架的姿势信息嵌入潜在空间中,第二个LSTM用于使用第二个LSTM,并且使用了第二个LSTM。预测下一帧的人类姿势。此外,我们的框架包含两个基于变压器的控制器,这些控制器分别用于建模根轨迹和速度因子的约束,以更好地利用框架的时间上下文并实现细粒度的运动控制。我们在包含各种现代舞蹈的舞蹈数据集上验证了拟议的方法。三个定量分析的结果验证了我们算法的优势。视频和定性实验结果表明,我们算法产生的复杂运动序列即使是长期合成,也可以在关键帧之间实现多种和平滑的运动过渡。
translated by 谷歌翻译
Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.
translated by 谷歌翻译
Dynamics of human body skeletons convey significant information for human action recognition. Conventional approaches for modeling skeletons usually rely on hand-crafted parts or traversal rules, thus resulting in limited expressive power and difficulties of generalization. In this work, we propose a novel model of dynamic skeletons called Spatial-Temporal Graph Convolutional Networks (ST-GCN), which moves beyond the limitations of previous methods by automatically learning both the spatial and temporal patterns from data. This formulation not only leads to greater expressive power but also stronger generalization capability. On two large datasets, Kinetics and NTU-RGBD, it achieves substantial improvements over mainstream methods.
translated by 谷歌翻译
任意样式转移生成了艺术图像,该图像仅使用一个训练有素的网络结合了内容图像的结构和艺术风格的结合。此方法中使用的图像表示包含内容结构表示和样式模式表示形式,这通常是预训练的分类网络中高级表示的特征表示。但是,传统的分类网络是为分类而设计的,该分类通常集中在高级功能上并忽略其他功能。结果,风格化的图像在整个图像中均匀地分布了样式元素,并使整体图像结构无法识别。为了解决这个问题,我们通过结合全球和局部损失,引入了一种新型的任意风格转移方法,并通过结构增强。局部结构细节由LapStyle表示,全局结构由图像深度控制。实验结果表明,与其他最新方法相比,我们的方法可以在几个常见数据集中生成具有令人印象深刻的视觉效果的更高质量图像。
translated by 谷歌翻译
我们提出了一个新颖的框架,按需运动产生(ODMO),用于生成现实和多样化的长期3D人体运动序列,该序列仅以具有额外的自定义能力的动作类型为条件。 ODMO在三个公共数据集(HumanAct12,UESTC和MOCAP)上进行评估时,对所有传统运动评估指标的SOTA方法显示了改进。此外,我们提供定性评估和定量指标,这些指标证明了我们框架提供的几种首要的自定义功能,包括模式发现,插值和轨迹自定义。这些功能大大扩大了此类运动产生模型的潜在应用的范围。编码器和解码器体系结构中的创新启用了新颖的按需生成能力:(i)编码器:在低维的潜在空间中利用对比度学习来创建运动序列的层次结构嵌入,不仅是不同动作的代码,类型形成不同的组,但在动作类型中,类似的固有模式(运动样式)聚集在一起的代码,使它们容易发现; (ii)解码器:使用层次解码策略,该策略首先重建运动轨迹,然后用于重建整个运动序列。这样的架构可以有效地控制轨迹控制。我们的代码发布在GitHub页面:https://github.com/roychowdhuryresearch/odmo
translated by 谷歌翻译
我们的工作重点是开发人类姿势的可学习神经代表,用于先进的AI辅助动画工具。具体而言,我们解决了基于稀疏和可变的用户输入(例如,身体关节子集的位置和/或方向)构建完整静态人姿势的问题。为了解决这个问题,我们提出了一种新型的神经结构,将残留连接与部分指定姿势编码的原型结合在一起,以从学习的潜在空间中创建一个新的完整姿势。我们表明,在准确性和计算效率方面,我们的体系结构的表现优于基准基线。此外,我们开发了一个用户界面,以将我们的神经模型集成到Unity,这是一个实时3D开发平台。此外,我们基于高质量的人类运动捕获数据,介绍了代表静态人类姿势建模问题的两个新数据集,该数据将与模型代码一起公开发布。
translated by 谷歌翻译