为了获取3D注释,我们仅限于受控环境或合成数据集,导致我们到3D数据集,其概括为现实世界方案。为了在半监督3D手形状和姿势估计的上下文中解决这个问题,我们提出了姿势对齐网络,以将标记帧传播到附近的稀疏注释视频中的附近未标记帧的3D注释。我们表明,在标记 - 未标记的帧对对对准监控允许我们提高姿态估计精度。此外,我们表明所提出的姿势对齐网络可以有效地传播在不良稀疏的视频上的注释而无需微调。
translated by 谷歌翻译
From an image of a person in action, we can easily guess the 3D motion of the person in the immediate past and future. This is because we have a mental model of 3D human dynamics that we have acquired from observing visual sequences of humans in motion. We present a framework that can similarly learn a representation of 3D dynamics of humans from video via a simple but effective temporal encoding of image features. At test time, from video, the learned temporal representation give rise to smooth 3D mesh predictions. From a single image, our model can recover the current 3D mesh as well as its 3D past and future motion. Our approach is designed so it can learn from videos with 2D pose annotations in a semi-supervised manner. Though annotated data is always limited, there are millions of videos uploaded daily on the Internet. In this work, we harvest this Internet-scale source of unlabeled data by training our model on unlabeled video with pseudo-ground truth 2D pose obtained from an off-the-shelf 2D pose detector. Our experiments show that adding more videos with pseudo-ground truth 2D pose monotonically improves 3D prediction performance. We evaluate our model, Human Mesh and Motion Recovery (HMMR), on the recent challenging dataset of 3D Poses in the Wild and obtain state-of-the-art performance on the 3D prediction task without any fine-tuning. The project website with video, code, and data can be found at https://akanazawa.github.io/ human_dynamics/.
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
我们介绍了TemPCLR,这是一种针对3D手重建的结构化回归任务的新的时代对比学习方法。与以前的手部姿势估计方法相抵触方法不同,我们的框架考虑了其增强方案中的时间一致性,并说明了沿时间方向的手部姿势的差异。我们的数据驱动方法利用了未标记的视频和标准CNN,而无需依赖合成数据,伪标签或专业体系结构。我们的方法在HO-3D和Freihand数据集中分别将全面监督的手部重建方法的性能提高了15.9%和7.6%,从而确立了新的最先进的性能。最后,我们证明了我们的方法会随着时间的推移产生更平滑的手部重建,并且与以前的最新作品相比,对重型的闭塞更为强大,我们在定量和定性上表现出来。我们的代码和模型将在https://eth-ait.github.io/tempclr上找到。
translated by 谷歌翻译
Input Reconstruction Side and top down view Part Segmentation Input Reconstruction Side and top down view Part Segmentation Figure 1: Human Mesh Recovery (HMR): End-to-end adversarial learning of human pose and shape. We describe a real time framework for recovering the 3D joint angles and shape of the body from a single RGB image. The first two rowsshow results from our model trained with some 2D-to-3D supervision, the bottom row shows results from a model that is trained in a fully weakly-supervised manner without using any paired 2D-to-3D supervision. We infer the full 3D body even in case of occlusions and truncations. Note that we capture head and limb orientations.
translated by 谷歌翻译
从单眼RGB图像中重建3D手网络,由于其在AR/VR领域的巨大潜在应用,引起了人们的注意力越来越多。大多数最先进的方法试图以匿名方式解决此任务。具体而言,即使在连续录制会话中用户没有变化的实际应用程序中实际上可用,因此忽略了该主题的身份。在本文中,我们提出了一个身份感知的手网格估计模型,该模型可以结合由受试者的内在形状参数表示的身份信息。我们通过将提出的身份感知模型与匿名对待主题的基线进行比较来证明身份信息的重要性。此外,为了处理未见测试对象的用例,我们提出了一条新型的个性化管道来校准固有的形状参数,仅使用该受试者的少数未标记的RGB图像。在两个大型公共数据集上进行的实验验证了我们提出的方法的最先进性能。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
培训视频中人类姿势估计的最先进模型需要具有很难获得的注释的数据集。尽管最近已将变压器用于身体姿势序列建模,但相关方法依靠伪地真相来增强目前有限的培训数据可用于学习此类模型。在本文中,我们介绍了Posebert,Posebert是一个通过掩盖建模对3D运动捕获(MOCAP)数据进行全面训练的变压器模块。它是简单,通用和通用的,因为它可以插入任何基于图像的模型的顶部,以在基于视频的模型中使用时间信息。我们展示了Posebert的变体,不同的输入从3D骨骼关键点到全身或仅仅是手(Mano)的3D参数模型的旋转。由于Posebert培训是任务不可知论的,因此该模型可以应用于姿势细化,未来的姿势预测或运动完成等几个任务。我们的实验结果验证了在各种最新姿势估计方法之上添加Posebert始终提高其性能,而其低计算成本使我们能够在实时演示中使用它,以通过A的机器人手使机器人手通过摄像头。可以在https://github.com/naver/posebert上获得测试代码和型号。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
当标记的数据丰富时,从单个图像中进行3D姿势估计的监督方法非常有效。但是,由于对地面3D标签的获取是劳动密集型且耗时的,最近的关注已转向半决赛和弱监督的学习。产生有效的监督形式,几乎没有注释,仍然在拥挤的场景中构成重大挑战。在本文中,我们建议通过加权区分三角剖分施加多视文几何约束,并在没有标签时将其用作一种自我设计的形式。因此,我们以一种方式训练2D姿势估计器,以使其预测对应于对三角姿势的3D姿势的重新投影,并在其上训练辅助网络以产生最终的3D姿势。我们通过一种加权机制来补充三角剖分,从而减轻了由自我咬合或其他受试者的遮挡引起的嘈杂预测的影响。我们证明了半监督方法对人类36M和MPI-INF-3DHP数据集的有效性,以及在具有闭塞的新的多视频多人数据集上。
translated by 谷歌翻译
3D互动手重建对于促进人机互动和人类行为理解至关重要。以前的工作在此字段中依赖于辅助输入,例如深度图像,或者如果使用单目的RGB图像,则只能处理单手。当应用于紧密互动时,单手方法倾向于产生碰撞手网格,因为它们无法明确地模拟两只手之间的相互作用。在本文中,我们首次尝试重建从单眼单rgb图像的三维交互手。我们的方法可以通过精确的3D姿势和最小冲突生成3D手网格。这是通过两级框架实现的。具体地,第一阶段采用卷积神经网络来产生容忍碰撞但鼓励姿势准确的手网格的粗略预测。第二阶段通过一系列分解改进逐渐改善碰撞,同时保留3D姿势的精确性。考虑到效率和准确性之间的权衡,我们仔细研究了分解改进的潜在实现。大规模数据集的广泛定量和定性结果,例如Interwand2.6m,证明了所提出的方法的有效性。
translated by 谷歌翻译
在全球坐标系中,基于颜色的双手3D姿势估计在许多应用中至关重要。但是,很少有专门用于此任务的数据集,并且没有现有数据集支持在非实验室环境中的估计。这在很大程度上归因于3D手姿势注释所需的复杂数据收集过程,这也导致难以获得野生估计所需的视觉多样性水平的实例。为了实现这一目标,最近提出了一个大规模的数据集EGO2HANDS来解决野外双手分割和检测的任务。拟议的基于组成的数据生成技术可以创建具有质量,数量和多样性的双手实例,从而将其推广到看不见的域。在这项工作中,我们提出了EGO2Handspose,这是包含3D手姿势注释的EGO2HAND的扩展,并且是第一个在看不见域中启用基于颜色的两手3D跟踪的数据集。为此,我们开发了一组参数拟合算法以启用1)使用单个图像的3D手姿势注释,2)自动转换从2D到3D手势和3)具有时间一致性的准确双手跟踪。我们在多阶段管道上提供了增量的定量分析,并表明我们数据集中的培训达到了最新的结果,这些结果大大胜过其他数据集,以实现以自我为中心的双手全球3D姿势估计的任务。
translated by 谷歌翻译
6D对象姿势估计是计算机视觉和机器人研究中的基本问题之一。尽管最近在同一类别内将姿势估计概括为新的对象实例(即类别级别的6D姿势估计)方面已做出了许多努力,但考虑到有限的带注释数据,它仍然在受限的环境中受到限制。在本文中,我们收集了Wild6D,这是一种具有不同实例和背景的新的未标记的RGBD对象视频数据集。我们利用这些数据在野外概括了类别级别的6D对象姿势效果,并通过半监督学习。我们提出了一个新模型,称为呈现姿势估计网络reponet,该模型使用带有合成数据的自由地面真实性共同训练,以及在现实世界数据上具有轮廓匹配的目标函数。在不使用实际数据上的任何3D注释的情况下,我们的方法优于先前数据集上的最先进方法,而我们的WILD6D测试集(带有手动注释进行评估)则优于较大的边距。带有WILD6D数据的项目页面:https://oasisyang.github.io/semi-pose。
translated by 谷歌翻译
了解来自第一人称观点的社交互动对于许多应用来说至关重要,从辅助机器人到AR / VR。谈论相互作用的第一步是理解人类的姿势和形状。但是,该领域的研究目前受到数据缺乏的阻碍。现有数据集根据大小,注释,地面真实捕获方式或相互作用的多样性有限。我们通过提出EGOBODY来解决这一缺点,这是一个用于复杂3D场景中的社交交互的新型大规模数据集。我们采用Microsoft Hololens2耳机来记录富裕的EGEntric数据流(包括RGB,深度,眼睛凝视,头部和手动跟踪)。为了获得准确的3D地面真理,我们将耳机用多kinect钻机校准并配合富有呈现的SMPL-X体网格到多视图RGB-D帧,重建3D人类姿势和相对于场景的形状。我们收集68个序列,跨越不同的社会学互动类别,并提出了从自我监视视图的3D全体姿态和形状估计的第一个基准。我们的数据集和代码将在https://sanweiliti.github.io/egobody/egobody.html中进行研究。
translated by 谷歌翻译
大多数现有的动物姿势和形状估计方法用参数模型重建动物网格。这是因为Smal模型的低维姿势和形状参数使得深网络更容易学习高维动物网。然而,Smal模型从具有限制和形状变化的玩具动物的扫描学习,因此可能无法良好地代表高度不同的真实动物。这可能导致估计网格的差,例如2D证据的差。 2d关键点或剪影。为了缓解此问题,我们提出了一种从单个图像重建3D动物网格的粗细方法。粗略估计阶段首先估计Smal模型的姿势,形状和翻译参数。然后将估计的网格用作图表卷积网络(GCN)的起点,以预测细化阶段的每顶顶点变形。基于SMAL和基于顶点的表示的这种组合来自参数和非参数表示。我们将网眼细化GCN(MRGCN)设计为具有分层特征表示的编码器解码器结构,以克服传统GCN的有限接收领域。此外,我们观察到,现有动物网格重建工作所使用的全局图像特征无法捕获用于网格细化的详细形状信息。因此,我们引入了本地特征提取器来检索顶点级别功能,并将其与全局功能一起用作MRGCN的输入。我们在Stanfordextra DataSet上测试我们的方法,实现最先进的结果。此外,我们在动物姿势和BADJA数据集中测试我们方法的泛化能力。我们的代码可在项目网站上获得。
translated by 谷歌翻译
由于其许多潜在应用,从视频中估算人类运动是一个活跃的研究领域。大多数最先进的方法可以预测单个图像的人类形状和姿势估计,并且不利用视频中可用的时间信息。许多“野生”运动序列被移动的摄像机捕获,这为估计增加了混合的摄像头和人类运动的并发症。因此,我们介绍了Bodyslam,这是一种单眼大满贯系统,共同估计人体的位置,形状和姿势以及摄像机轨迹。我们还引入了一种新型的人类运动模型,以限制顺序身体姿势并观察场景的规模。通过通过移动的单眼相机捕获的人类运动的视频序列进行的一系列实验,我们证明了Bodyslam与单独估计这些估计相比,可以改善所有人体参数和相机的估计。
translated by 谷歌翻译
从单个图像中感知3D人体的能力具有多种应用,从娱乐和机器人技术到神经科学和医疗保健。人类网格恢复中的一个基本挑战是收集训练所需的地面真相3D网格目标,这需要负担重大的运动捕获系统,并且通常仅限于室内实验室。结果,尽管在这些限制性设置中收集的基准数据集上取得了进展,但由于分配变化,模型无法推广到现实世界中的``野外''方案。我们提出了域自适应3D姿势增强(DAPA),这是一种数据增强方法,可增强模型在野外场景中的概括能力。 DAPA通过从综合网格中获得直接监督,并通过使用目标数据集的地面真相2D关键点来结合基于合成数据集的方法的强度。我们定量地表明,使用DAPA的填充有效地改善了基准3DPW和Agora的结果。我们进一步证明了DAPA在一个充满挑战的数据集中,该数据集从现实世界中亲子互动的视频中策划了。
translated by 谷歌翻译
自上而下的方法主导了3D人类姿势和形状估计的领域,因为它们与人类的检测脱钩,并使研究人员能够专注于核心问题。但是,裁剪是他们的第一步,从一开始就丢弃了位置信息,这使自己无法准确预测原始摄像机坐标系中的全局旋转。为了解决此问题,我们建议将完整框架(悬崖)的位置信息携带到此任务中。具体而言,我们通过将裁剪图像功能与其边界盒信息连接在一起来养活更多的整体功能来悬崖。我们通过更广泛的全帧视图来计算2D再投影损失,进行了类似于图像中投射的人的投影过程。克里夫(Cliff)通过全球态度感知信息进行了喂养和监督,直接预测全球旋转以及更准确的明确姿势。此外,我们提出了一个基于Cliff的伪基真实注释,该注释为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了至关重要的全面监督。对流行基准测试的广泛实验表明,悬崖的表现要超过先前的艺术,并在Agora排行榜上获得了第一名(SMPL-Algorithms曲目)。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/cliff中获得。
translated by 谷歌翻译
To date, little attention has been given to multi-view 3D human mesh estimation, despite real-life applicability (e.g., motion capture, sport analysis) and robustness to single-view ambiguities. Existing solutions typically suffer from poor generalization performance to new settings, largely due to the limited diversity of image-mesh pairs in multi-view training data. To address this shortcoming, people have explored the use of synthetic images. But besides the usual impact of visual gap between rendered and target data, synthetic-data-driven multi-view estimators also suffer from overfitting to the camera viewpoint distribution sampled during training which usually differs from real-world distributions. Tackling both challenges, we propose a novel simulation-based training pipeline for multi-view human mesh recovery, which (a) relies on intermediate 2D representations which are more robust to synthetic-to-real domain gap; (b) leverages learnable calibration and triangulation to adapt to more diversified camera setups; and (c) progressively aggregates multi-view information in a canonical 3D space to remove ambiguities in 2D representations. Through extensive benchmarking, we demonstrate the superiority of the proposed solution especially for unseen in-the-wild scenarios.
translated by 谷歌翻译