我们的工作重点是开发人类姿势的可学习神经代表,用于先进的AI辅助动画工具。具体而言,我们解决了基于稀疏和可变的用户输入(例如,身体关节子集的位置和/或方向)构建完整静态人姿势的问题。为了解决这个问题,我们提出了一种新型的神经结构,将残留连接与部分指定姿势编码的原型结合在一起,以从学习的潜在空间中创建一个新的完整姿势。我们表明,在准确性和计算效率方面,我们的体系结构的表现优于基准基线。此外,我们开发了一个用户界面,以将我们的神经模型集成到Unity,这是一个实时3D开发平台。此外,我们基于高质量的人类运动捕获数据,介绍了代表静态人类姿势建模问题的两个新数据集,该数据将与模型代码一起公开发布。
translated by 谷歌翻译
我们表明,如果基于深度学习的插值器使用球形线性插值器作为基线,可以更准确,有效地求解在一组关键帧上进行人类运动的任务。我们从经验上证明了我们在实现最新性能的公开数据集上的方法的实力。我们通过证明$ \ delta $ - 优势相对于最后已知帧(也称为零速度模型)的参考,进一步概括了这些结果。这支持了一个更一般的结论,即在参考框架本地对输入帧的工作比以前的工作中主张的全球(世界)参考框架更准确,更强大。我们的代码可在https://github.com/boreshkinai/delta-interpolator上公开获取。
translated by 谷歌翻译
数据驱动的字符动画技术依赖于存在正确建立的运动模型,能够描述其丰富的上下文。然而,常用的运动表示通常不能准确地编码运动的完全铰接,或者存在伪影。在这项工作中,我们解决了寻找运动建模的强大姿势表示的根本问题,适用于深色字符动画,可以更好地限制姿势和忠实地捕获与骨骼特征相关的细微差别。我们的表示基于双季度,具有明确定义的操作的数学抽象,它同时编码旋转和位置方向,使得能够围绕根居中的层次结构感知编码。我们证明我们的代表克服了普通的运动伪影,并与其他流行的表现相比评估其性能。我们进行消融研究,以评估可以在学习期间融入的各种损失的影响。利用我们的表示隐含地编码骨架运动属性,我们在包含具有不同比例的数据集上培训一个数据集,而无需将它们重新排列到通用骨架上,这导致待忽略的微妙运动元素。我们表明可以实现光滑和自然的姿势,为迷人的应用铺平道路。
translated by 谷歌翻译
逆运动学(IK)系统通常相对于其输入特征很僵硬,因此需要将用户干预适应新骨架。在本文中,我们旨在创建一个适用于各种人类形态的灵活的,学到的IK求解器。我们扩展了最先进的机器学习IK求解器,以在众所周知的皮肤多人线性模型(SMPL)上运行。我们称我们的模型SMPL-IK,并表明当集成到实时3D软件中时,该扩展系统为定义新型AI-Asissist Animation Workfrows提供了机会。例如,通过允许用户在摆姿势的同时修改性别和身体形状,可以使姿势创作更加灵活。此外,当使用现有姿势估计算法链接时,SMPL-IK通过允许用户从2D图像引导3D场景来加速摆姿势,同时允许进一步编辑。最后,我们提出了一种新颖的SMPL形状反转机制(SMPL-SI),将任意类人形特征映射到SMPL空间,使艺术家能够在自定义字符上利用SMPL-IK。除了显示拟议工具的定性演示外,我们还介绍了H36M和Amass数据集上的定量SMPL-IK基准。
translated by 谷歌翻译
当今的混合现实头戴式显示器显示了用户在世界空间中的头部姿势以及用户的手,以在增强现实和虚拟现实场景中进行互动。尽管这足以支持用户输入,但不幸的是,它仅限于用户的虚拟表示形式。因此,当前的系统诉诸于浮动化身,其限制在协作环境中尤为明显。为了估算稀疏输入源的全身姿势,先前的工作已在骨盆或下半身中融合了其他跟踪器和传感器,从而增加了设置的复杂性并限制了移动设置中的实际应用。在本文中,我们提出了AvatarPoser,这是第一个基于学习的方法,该方法仅使用用户头和手中的运动输入来预测世界坐标中的全身姿势。我们的方法建立在变压器编码器上,以从输入信号中提取深度特征,并将全局运动从学到的局部关节取向中解脱出来,以指导姿势估计。为了获得类似于运动捕获动画的准确全身运动,我们使用具有逆运动学的优化程序来完善臂关节位置,以匹配原始跟踪输入。在我们的评估中,AvatarPoser实现了新的最新最新结果,从而对大型运动捕获数据集(Amass)进行了评估。同时,我们的方法的推理速度支持实时操作,提供了一个实用的接口,以支持整体化的头像控制和元应用的表示形式。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
我们的目标是从规定的行动类别中解决从规定的行动类别创造多元化和自然人动作视频的有趣但具有挑战性的问题。关键问题在于能够在视觉外观中综合多种不同的运动序列。在本文中通过两步过程实现,该两步处理维持内部3D姿势和形状表示,Action2Motion和Motion2Video。 Action2Motion随机生成规定的动作类别的合理的3D姿势序列,该类别由Motion2Video进行处理和呈现,以形成2D视频。具体而言,Lie代数理论从事人类运动学的物理法之后代表自然人动作;开发了一种促进输出运动的分集的时间变化自动编码器(VAE)。此外,给定衣服人物的额外输入图像,提出了整个管道以提取他/她的3D详细形状,并在视频中呈现来自不同视图的合理运动。这是通过改进从单个2D图像中提取3D人类形状和纹理,索引,动画和渲染的现有方法来实现这一点,以形成人类运动的2D视频。它还需要3D人类运动数据集的策策和成果进行培训目的。彻底的经验实验,包括消融研究,定性和定量评估表现出我们的方法的适用性,并展示了解决相关任务的竞争力,其中我们的方法的组成部分与最先进的方式比较。
translated by 谷歌翻译
预测历史姿势序列的人类运动对于机器具有成功与人类智能相互作用的关键。到目前为止已经避免的一个方面是,我们代表骨骼姿势的事实是对预测结果的关键影响。然而,没有努力调查不同的姿势代表方案。我们对各种姿势表示进行了深入研究,重点关注它们对运动预测任务的影响。此外,最近的方法在现成的RNN单位上构建,用于运动预测。这些方法在捕获长期依赖性方面,顺序地并固有地具有困难。在本文中,我们提出了一种新颖的RNN架构,用于运动预测的AHMR(殷勤分层运动复发网络),其同时模拟局部运动上下文和全局上下文。我们进一步探索了运动预测任务的测地损失和前向运动学损失,其具有比广泛采用的L2损耗更多的几何意义。有趣的是,我们将我们的方法应用于一系列铰接物对象,包括人类,鱼类和鼠标。经验结果表明,我们的方法在短期预测中占据了最先进的方法,实现了大量增强的长期预测熟练程度,例如在50秒的预测中保留自然人样的运动。我们的代码已发布。
translated by 谷歌翻译
多个摄像机制造的视频录制的可用性越来越多,为姿势和运动重建方法中的减少和深度歧义提供了新的方法。然而,多视图算法强烈依赖于相机参数;特别地,相机之间的相对介绍。在不受控制的设置中,这种依赖变为一旦转移到动态捕获一次。我们介绍Flex(免费多视图重建),一个端到端的无参数多视图模型。 Flex是无意义的参数,即它不需要任何相机参数,都不是内在的也不是外在的。我们的关键思想是骨架部件和骨长之间的3D角度是不变的相机位置。因此,学习3D旋转和骨长而不是位置允许预测所有相机视图的公共值。我们的网络采用多个视频流,学习通过新型多视图融合层的融合深度特征,并重建单一一致的骨架,其具有时间上相干的关节旋转。我们展示了人类3.6M和KTH多视图足球II数据集的定量和定性结果,以及动态摄像头捕获的合成多人视频流。我们将模型与最先进的方法进行比较,这些方法没有参与参数,并在没有相机参数的情况下显示,我们在获得相机参数可用时获取可比结果的同时优于较大的余量。我们的项目页面上可以使用代码,培训的模型,视频示例和更多材料。
translated by 谷歌翻译
在本文中,我们介绍一种方法来自动重建与来自单个RGB视频相互作用的人的3D运动。我们的方法估计人的3D与物体姿势,接触位置和施加在人体上的接触力的姿势。这项工作的主要贡献是三倍。首先,我们介绍一种通过建模触点和相互作用的动态来联合估计人与人的运动和致动力的方法。这是一个大规模的轨迹优化问题。其次,我们开发一种方法来从输入视频自动识别,从输入视频中识别人和物体或地面之间的2D位置和时序,从而显着简化了优化的复杂性。第三,我们在最近的视频+ Mocap数据集上验证了捕获典型的Parkour行动的方法,并在互联网视频的新数据集上展示其表现,显示人们在不受约束的环境中操纵各种工具。
translated by 谷歌翻译
用全球性结构(例如编织)合成人体运动是一个具有挑战性的任务。现有方法倾向于集中在局部光滑的姿势过渡并忽视全球背景或运动的主题。在这项工作中,我们提出了一种音乐驱动的运动综合框架,其产生与输入节拍同步的人类运动的长期序列,并共同形成尊重特定舞蹈类型的全局结构。此外,我们的框架可以实现由音乐内容控制的不同运动,而不仅仅是由节拍。我们的音乐驱动舞蹈综合框架是一个分层系统,包括三个层次:姿势,图案和编排。姿势水平由LSTM组件组成,该组件产生时间相干的姿势。图案级别引导一组连续姿势,形成一个使用新颖运动感知损失所属的特定分布的运动。并且舞蹈级别选择所执行的运动的顺序,并驱动系统遵循舞蹈类型的全球结构。我们的结果展示了我们的音乐驱动框架的有效性,以在各种舞蹈类型上产生自然和一致的运动,控制合成运动的内容,并尊重舞蹈的整体结构。
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
我们提出了一个隐式神经表示,以学习运动运动运动的时空空间。与以前代表运动为离散顺序样本的工作不同,我们建议将广泛的运动空间随着时间的流逝表达为连续函数,因此名称为神经运动场(NEMF)。具体来说,我们使用神经网络来学习此功能,以用于杂项运动集,该动作旨在以时间坐标为$ t $的生成模型和用于控制样式的随机矢量$ z $。然后,将模型作为变异自动编码器(VAE)进行训练,并带有运动编码器来采样潜在空间。我们使用多样化的人类运动数据集和四倍的数据集训练模型,以证明其多功能性,并最终将其部署为通用运动,然后再解决任务 - 静态问题,并在不同的运动生成和编辑应用中显示出优势,例如运动插值,例如运动插值,例如 - 上映和重新散布。可以在我们的项目页面上找到更多详细信息:https://cs.yale.edu/homes/che/projects/nemf/
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
神经网络的出现彻底改变了运动合成领域。然而,学会从给定的分布中无条件合成动作仍然是一项具有挑战性的任务,尤其是当动作高度多样化时。我们提出了Modi,这是一种无条件的生成模型,可以合成各种动作。我们的模型在完全无监督的环境中训练,从多样化,非结构化和未标记的运动数据集中进行了训练,并产生了一个行为良好,高度语义的潜在空间。我们的模型的设计遵循StyleGAN的多产架构,并将其两个关键技术组件调整为运动域:一组样式编码,这些样式编码注入了生成器层次结构的每个级别和映射功能,并形成了一个学习和形成一个分离的潜在空间。我们表明,尽管数据集中缺乏任何结构,但潜在空间可以在语义上聚集,并促进语义编辑和运动插值。此外,我们提出了一种将未见动作转向潜在空间的技术,并展示了基于潜在的运动编辑操作,否则这些动作无法通过天真地操纵明确的运动表示无法实现。我们的定性和定量实验表明,我们的框架达到了最新的合成质量,可以遵循高度多样化的运动数据集的分布。代码和训练有素的模型将在https://sigal-raab.github.io/modi上发布。
translated by 谷歌翻译
舞蹈需要熟练的复杂动作,遵循音乐的节奏,音调和音色特征。正式地,在一段音乐上产生的舞蹈可以表达为建模高维连续运动信号的问题,该信号以音频信号为条件。在这项工作中,我们为解决这个问题做出了两项贡献。首先,我们提出了一种新颖的概率自回归体系结构,该体系结构使用多模式变压器编码器以先前的姿势和音乐背景为条件,以正常的流程为标准化姿势。其次,我们介绍了目前最大的3D舞蹈动机数据集,该数据集通过各种运动捕捉技术获得,包括专业和休闲舞者。使用此数据集,我们通过客观指标和一个用户研究将新模型与两个基准进行比较,并表明建模概率分布的能力以及能够通过大型运动和音乐背景进行的能力是必要的产生与音乐相匹配的有趣,多样和现实的舞蹈。
translated by 谷歌翻译
机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译