音频条件的舞蹈运动合成图的生成模型音乐特征到舞蹈运动。训练模型将运动模式与音频模式相关联,通常没有明确的人体知识。这种方法取决于一些假设:强烈的音乐舞蹈相关性,受控运动数据和相对简单的姿势和运动。在所有现有的舞蹈运动合成数据集中都可以找到这些特征,并且实际上最近的方法可以取得良好的结果。我们引入了一个新的数据集,旨在挑战这些常见的假设,并编译了一组动态舞蹈序列,显示出复杂的人类姿势。我们专注于具有杂技动作和纠结姿势的脱节。我们从红牛BC One竞赛视频中获取数据。由于舞蹈的复杂性以及多个移动的相机录制设置,因此很难从这些视频中估算人类关键点。我们采用混合标签管道利用深度估计模型以及手动注释,以降低的成本获得高质量的关键点序列。我们的努力生产了支架数据集,该数据集包含3个小时30分钟的密集注释姿势。我们在支撑上测试了最新方法,在复杂序列上评估时显示了它们的局限性。我们的数据集可以很容易地促进舞蹈运动合成。有了复杂的姿势和迅速的动作,模型被迫超越学习方式与理性之间的映射,以更有效地了解身体结构和运动。
translated by 谷歌翻译