婴儿运动分析是在儿童早期开发研究中具有重要意义的主题。然而,虽然人类姿势估计的应用变得越来越宽,但是在大规模成年姿势数据集上培训的模型几乎不能在估计婴幼儿姿势,因为它们的身体比率显着差异以及它们的构成的多功能性。此外,隐私和安全考虑因素阻碍了从头划痕培训强大模型所需的适当婴儿姿势数据的可用性。为了解决这个问题,本文提出(1)建立和公开发布具有小但不同实际婴儿图像的混合综合和真正的婴儿姿势(Syrip)数据集以及生成的合成婴儿姿势和(2)多级不变表示学习策略可以将知识从成人姿势和合成婴儿图像的相邻域和综合性婴儿图像转移到我们的微调域适应婴儿姿势(FIDEP)估计模型中。在我们的消融研究中,具有相同的网络结构,在SyRip数据集上培训的模型对唯一的其他公共婴儿姿势数据集接受过的培训明显改进。与具有不同复杂性的姿势估计骨干网络集成,FIDEP比这些模型的微调版本始终如一。我们最先进的暗影模型上最好的婴儿姿势估计表演者显示了93.6的平均平均精度(MAP)。
translated by 谷歌翻译
准确注释的图像数据集是研究动物行为的重要组成部分。与我们知道并且可能存在的物种数量相比,现有的标记姿势数据集仅覆盖其中的一小部分,而构建全面的大规模数据集则非常昂贵。在这里,我们提出了一种非常数据有效的策略,该策略针对四足动物的姿势估计,该策略仅需要少量来自目标动物的真实图像。可以证实,在诸如ImageNet之类的通用图像数据集上具有预计权重的骨干网络可以减轻对目标动物姿势数据的高需求,并通过了解对物体细分和关键点估计的先验知识来缩短训练时间。但是,当面对严重的数据稀缺性(即$ <10^2 $真实图像)时,模型性能保持不令人满意,尤其是对于具有相当灵活性和几个可比零件的四肢而言。因此,我们引入了一种称为Pasyn的先前感知的合成动物数据生成管道,以增强动物姿势数据对可靠的姿势估计所必需的数据。 Pasyn通过在几种动画3D动物模型上训练变异生成模型,生成概率 - valid合成姿势数据集,突触。此外,样式转移策略被用来将合成动物形象融合到真实背景中。我们通过三个流行的骨干网络评估了方法的改进,并测试了其姿势估计的准确性,并在动物园中从真实动物中收集的公共动物姿势图像以及从真实的动物中收集的姿势估计准确性。
translated by 谷歌翻译
内部的姿势估计显示出在医院患者监测,睡眠研究和智能家居等领域的价值。在本文中,我们探讨了借助现有的姿势估计器,从高度模棱两可的压力数据中检测身体姿势的不同策略。我们通过直接使用或通过在两个压力数据集上对其进行重新训练来检查预训练的姿势估计器的性能。我们还利用可学习的预处理域适应步骤探索了其他策略,该步骤将模糊的压力图转换为更接近共同目的姿势估计模块的预期输入空间的表示。因此,我们使用了具有多个尺度的完全卷积网络,以向预训练的姿势估计模块提供压力图的姿势特异性特征。我们对不同方法的完整分析表明,在压力数据上,可学习的预处理模块的组合以及重新训练基于图像的姿势估计器能够克服诸如高度模糊的压力点之类的问题,以实现很高的姿势估计准确性。
translated by 谷歌翻译
从单个图像中感知3D人体的能力具有多种应用,从娱乐和机器人技术到神经科学和医疗保健。人类网格恢复中的一个基本挑战是收集训练所需的地面真相3D网格目标,这需要负担重大的运动捕获系统,并且通常仅限于室内实验室。结果,尽管在这些限制性设置中收集的基准数据集上取得了进展,但由于分配变化,模型无法推广到现实世界中的``野外''方案。我们提出了域自适应3D姿势增强(DAPA),这是一种数据增强方法,可增强模型在野外场景中的概括能力。 DAPA通过从综合网格中获得直接监督,并通过使用目标数据集的地面真相2D关键点来结合基于合成数据集的方法的强度。我们定量地表明,使用DAPA的填充有效地改善了基准3DPW和Agora的结果。我们进一步证明了DAPA在一个充满挑战的数据集中,该数据集从现实世界中亲子互动的视频中策划了。
translated by 谷歌翻译
瑜伽是全球广受好评的,广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中,我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点,以训练一个随机的森林分类器,该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果,该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案,用于通过对1)看不见的帧,2)看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为,对于大多数应用程序,对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集,转移学习的优势以及目标泄漏的可能性。我们进一步证明,分类精度在很大程度上取决于所采用的交叉验证方法,并且通常会产生误导。为了促进进一步的研究,我们已公开提供关键点数据集和代码。
translated by 谷歌翻译
人类姿势信息是许多下游图像处理任务中的关键组成部分,例如活动识别和运动跟踪。同样地,所示字符域的姿势估计器将在辅助内容创建任务中提供有价值的,例如参考姿势检索和自动字符动画。但是,虽然现代数据驱动技术在自然图像上具有显着提高的姿态估计性能,但是对于插图来说已经完成了很少的工作。在我们的工作中,我们通过从域特定的和任务特定的源模型有效地学习来弥合这个域名差距。此外,我们还升级和展开现有的所示姿势估计数据集,并引入两个用于分类和分段子任务的新数据集。然后,我们应用所产生的最先进的角色姿势估算器来解决姿势引导例证检索的新颖任务。所有数据,模型和代码都将公开可用。
translated by 谷歌翻译
Estimating human pose, shape, and motion from images and videos are fundamental challenges with many applications. Recent advances in 2D human pose estimation use large amounts of manually-labeled training data for learning convolutional neural networks (CNNs). Such data is time consuming to acquire and difficult to extend. Moreover, manual labeling of 3D pose, depth and motion is impractical. In this work we present SURREAL (Synthetic hUmans foR REAL tasks): a new large-scale dataset with synthetically-generated but realistic images of people rendered from 3D sequences of human motion capture data. We generate more than 6 million frames together with ground truth pose, depth maps, and segmentation masks. We show that CNNs trained on our synthetic dataset allow for accurate human depth estimation and human part segmentation in real RGB images. Our results and the new dataset open up new possibilities for advancing person analysis using cheap and large-scale synthetic data.
translated by 谷歌翻译
事件摄像头是一种新兴的生物启发的视觉传感器,每像素亮度不同步地变化。它具有高动态范围,高速响应和低功率预算的明显优势,使其能够在不受控制的环境中最好地捕获本地动作。这激发了我们释放事件摄像机进行人姿势估计的潜力,因为很少探索人类姿势估计。但是,由于新型范式从传统的基于框架的摄像机转变,时间间隔中的事件信号包含非常有限的信息,因为事件摄像机只能捕获移动的身体部位并忽略那些静态的身体部位,从而导致某些部位不完整甚至在时间间隔中消失。本文提出了一种新型的密集连接的复发架构,以解决不完整信息的问题。通过这种经常性的体系结构,我们可以明确地对跨时间步骤的顺序几何一致性进行明确模拟,从而从以前的帧中积累信息以恢复整个人体,从而从事件数据中获得稳定且准确的人类姿势估计。此外,为了更好地评估我们的模型,我们收集了一个基于人类姿势注释的大型多模式事件数据集,该数据集是迄今为止我们所知的最具挑战性的数据集。两个公共数据集和我们自己的数据集的实验结果证明了我们方法的有效性和强度。代码可以在线提供,以促进未来的研究。
translated by 谷歌翻译
人类姿势和形状估计的任务中的关键挑战是闭塞,包括自闭合,对象 - 人闭塞和人际闭塞。缺乏多样化和准确的姿势和形状训练数据成为一个主要的瓶颈,特别是对于野外闭塞的场景。在本文中,我们专注于在人际闭塞的情况下估计人类姿势和形状,同时处理对象 - 人闭塞和自动闭塞。我们提出了一种新颖的框架,该框架综合了遮挡感知的轮廓和2D关键点数据,并直接回归到SMPL姿势和形状参数。利用神经3D网格渲染器以启用剪影监控,这有助于形状估计的巨大改进。此外,合成了全景视点中的关键点和轮廓驱动的训练数据,以补偿任何现有数据集中缺乏视点的多样性。实验结果表明,在姿势估计准确性方面,我们在3DPW和3DPW-Crowd数据集中是最先进的。所提出的方法在形状估计方面显着优于秩1方法。在形状预测精度方面,SSP-3D还实现了顶级性能。
translated by 谷歌翻译
We propose a CNN-based approach for 3D human body pose estimation from single RGB images that addresses the issue of limited generalizability of models trained solely on the starkly limited publicly available 3D pose data. Using only the existing 3D pose data and 2D pose data, we show state-of-the-art performance on established benchmarks through transfer of learned features, while also generalizing to in-the-wild scenes. We further introduce a new training set for human body pose estimation from monocular images of real humans that has the ground truth captured with a multi-camera marker-less motion capture system. It complements existing corpora with greater diversity in pose, human appearance, clothing, occlusion, and viewpoints, and enables an increased scope of augmentation. We also contribute a new benchmark that covers outdoor and indoor scenes, and demonstrate that our 3D pose dataset shows better in-the-wild performance than existing annotated data, which is further improved in conjunction with transfer learning from 2D pose data. All in all, we argue that the use of transfer learning of representations in tandem with algorithmic and data contributions is crucial for general 3D body pose estimation.
translated by 谷歌翻译
深度神经网络在人类分析中已经普遍存在,增强了应用的性能,例如生物识别识别,动作识别以及人重新识别。但是,此类网络的性能通过可用的培训数据缩放。在人类分析中,对大规模数据集的需求构成了严重的挑战,因为数据收集乏味,廉价,昂贵,并且必须遵守数据保护法。当前的研究研究了\ textit {合成数据}的生成,作为在现场收集真实数据的有效且具有隐私性的替代方案。这项调查介绍了基本定义和方法,在生成和采用合成数据进行人类分析时必不可少。我们进行了一项调查,总结了当前的最新方法以及使用合成数据的主要好处。我们还提供了公开可用的合成数据集和生成模型的概述。最后,我们讨论了该领域的局限性以及开放研究问题。这项调查旨在为人类分析领域的研究人员和从业人员提供。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
基于图像和视频的3D人类恢复(即姿势和形状估计)取得了实质性进展。但是,由于运动捕获的高度成本,现有的数据集通常受到规模和多样性的限制。在这项工作中,我们通过使用自动注释的3D地面真相玩电子游戏来获得大量的人类序列。具体来说,我们贡献了GTA-Human,这是一种由GTA-V游戏引擎生成的大规模3D人类数据集,具有高度多样化的主题,动作和场景。更重要的是,我们研究游戏玩法数据的使用并获得五个主要见解。首先,游戏数据非常有效。基于框架的简单基线对GTA-Human训练,其优于更复杂的方法的幅度很大。对于基于视频的方法,GTA-Human甚至与内域训练集相当。其次,我们发现合成数据为通常在室内收集的真实数据提供了关键补充。我们对域间隙的调查为简单但有用的数据混合策略提供了解释。第三,数据集的比例很重要。性能提升与可用的其他数据密切相关。一项系统的研究揭示了来自多个关键方面的数据密度的模型敏感性。第四,GTA-Human的有效性还归因于丰富的强制监督标签(SMPL参数),在实际数据集中获取否则它们很昂贵。第五,合成数据的好处扩展到较大的模型,例如更深层次的卷积神经网络(CNN)和变压器,也观察到了重大影响。我们希望我们的工作可以为将3D人类恢复到现实世界铺平道路。主页:https://caizhongang.github.io/projects/gta-human/
translated by 谷歌翻译
近年来,人员检测和人类姿势估计已经取得了很大的进步,通过大规模标记的数据集帮助。但是,这些数据集没有保证或分析人类活动,姿势或情境多样性。此外,隐私,法律,安全和道德问题可能会限制收集更多人类数据的能力。一个新兴的替代方案,用于减轻这些问题的一些问题是合成数据。然而,综合数据生成器的创建令人难以置信的具有挑战性,并防止研究人员探索他们的实用性。因此,我们释放了一个以人为本的合成数据发生器PeoplesAnspeople,它包含模拟就绪3D人类资产,参数化照明和相机系统,并生成2D和3D边界框,实例和语义分段,以及Coco姿态标签。使用PeoplesAnspeople,我们使用Detectron2 KeyPoint R-CNN变体进行基准合成数据训练[1]。我们发现,使用合成数据进行预培训网络和对目标现实世界数据的微调(几次传输到Coco-Person Rain的有限子集[2])导致了60.37 $ 60.37 $的关键点AP( Coco Test-Dev2017)使用相同的实际数据培训的型号优于同一实际数据(35.80美元的Keypoint AP),并使用Imagenet预先培训(Keypoint AP为57.50美元)。这种自由可用的数据发生器应使其在人用于人工以人为主的计算机视野中的临界领域进行实际转移学习的新兴仿真领域。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
自发运动评估可以预测高风险婴儿的长期发育障碍。为了开发用于后续疾病的自动预测的算法,需要通过婴儿姿势估计的段和关节的高精度定位。训练了四种类型的卷积神经网络,并在新颖的婴儿姿势数据集上进行培训,并从临床国际社会中涵盖了1224个视频的大变化。将网络的本地化性能评估为估计的关键点位置和人类专家注释之间的偏差。还评估了计算效率,以确定神经网络在临床实践中的可行性。表现最佳的神经网络对人类专家注释的帧间扩散具有类似的本地化误差,同时仍然有效地运行。总体而言,我们的研究结果表明,婴儿自发运动的姿势估计有巨大的潜力,支持研究潜冲在早期检测儿童发育疾病的潜在脑损伤的发育障碍,这些脑卒中与人为水平绩效的录像量。
translated by 谷歌翻译
Figure 1: Given challenging in-the-wild videos, a recent state-of-the-art video-pose-estimation approach [31] (top), fails to produce accurate 3D body poses. To address this, we exploit a large-scale motion-capture dataset to train a motion discriminator using an adversarial approach. Our model (VIBE) (bottom) is able to produce realistic and accurate pose and shape, outperforming previous work on standard benchmarks.
translated by 谷歌翻译
在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中,我们提出了一种基于域随机化的SIM2REAL传输学习方法,用于对象检测,可以自动生成任意大小和对象类型的标记的合成数据集。随后,对最先进的卷积神经网络Yolov4进行了训练,以检测不同类型的工业对象。通过提出的域随机化方法,我们可以在零射击和单次转移的情况下分别缩小现实差距,分别达到86.32%和97.38%的MAP50分数,其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上,数据生成过程的每图像少于0.5 s,培训持续约12H,这使其方便地用于工业使用。我们的解决方案符合工业需求,因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知,这是迄今为止满足这些约束的唯一工作。
translated by 谷歌翻译
尽管单眼3D姿势估计似乎在公共数据集上取得了非常准确的结果,但它们的概括能力在很大程度上被忽略了。在这项工作中,我们对现有方法进行系统评估,并发现在对不同的摄像机,人体姿势和外观进行测试时,它们会出现更大的错误。为了解决这个问题,我们介绍了VirtualPose,这是一个两阶段的学习框架,以利用该任务特定的隐藏的“免费午餐”,即免费生成无限数量的姿势和摄像头,以免费培训模型。为此,第一阶段将图像转换为抽象的几何表示(AGR),然后第二阶段将它们映射到3D姿势。它从两个方面解决了概括问题:(1)可以在不同的2D数据集上对第一阶段进行培训,以降低过度合适外观的风险; (2)第二阶段可以接受从大量虚拟摄像机和姿势合成的不同AGR训练。它的表现优于SOTA方法,而无需使用任何配对的图像和3D姿势,从而为实用应用铺平了道路。代码可从https://github.com/wkom/virtualpose获得。
translated by 谷歌翻译
2D姿势估计的现有作品主要集中在某个类别上,例如人,动物和车辆。但是,有许多应用程序方案需要检测看不见的对象类的姿势/关键点。在本文中,我们介绍了类别不稳定姿势估计(CAPE)的任务,该任务旨在创建一个姿势估计模型,能够检测仅给出一些具有关键点定义的样本的任何类别对象的姿势。为了实现这一目标,我们将姿势估计问题作为关键点匹配问题制定,并设计一个新颖的Cape框架,称为姿势匹配网络(POMNET)。提出了基于变压器的关键点交互模块(KIM),以捕获不同关键点之间的交互以及支持图像和查询图像之间的关系。我们还介绍了多类姿势(MP-100)数据集,该数据集是包含20K实例的100个对象类别的2D姿势数据集,并且经过精心设计用于开发CAPE算法。实验表明,我们的方法的表现优于其他基线方法。代码和数据可在https://github.com/luminxu/pose-for-venthing上找到。
translated by 谷歌翻译