学习良好的3D人类姿势代表对于人类姿势相关的任务是重要的,例如,人体3D姿势估计和行动识别。在所有这些问题中,保留内在姿势信息和调整以查看变化是两个关键问题。在这项工作中,我们提出了一种新颖的暹罗去噪,通过以完全无监督的方式解开来自人骨架数据的姿势相关和视图依赖性特征来学习3D姿态表示。这两个解缠绕特征被用作3D姿势的表示。要考虑运动学和几何依赖项,还提出了一种顺序双向递归网络(Sebirenet)以模拟人体骨架数据。广泛的实验表明,学习的表示1)保留人类姿势的内在信息,2)在数据集和任务中显示出良好的可转换性。值得注意的是,我们的方法在两个固有的不同任务上实现了最先进的表现:姿势​​去噪和无监督的行动识别。代码和模型可在:\ url {https://github.com/nieqiang001/unsupervised-humanpose.git}
translated by 谷歌翻译
本文认为共同解决估计3D人体的高度相关任务,并从RGB图像序列预测未来的3D运动。基于Lie代数姿势表示,提出了一种新的自投影机制,自然保留了人类运动运动学。通过基于编码器 - 解码器拓扑的序列到序列的多任务架构进一步促进了这一点,这使我们能够利用两个任务共享的公共场所。最后,提出了一个全球细化模块来提高框架的性能。我们的方法称为PoMomemet的效力是通过消融测试和人文3.6M和Humaneva-I基准的实证评估,从而获得与最先进的竞争性能。
translated by 谷歌翻译
最近的2D-3D人类姿势估计工作倾向于利用人体骨架的拓扑形成的图形结构。但是,我们认为这种骨架拓扑太稀疏,无法反映身体结构并遭受严重的2D-3D模糊问题。为了克服这些弱点,我们提出了一种新颖的图表卷积网络架构,层次图形网络(HGN)。它基于我们的多尺度图结构建筑策略产生的密度图形拓扑,从而提供更精细的几何信息。所提出的架构包含三个并行组织的稀疏微小表示子网,其中通过新颖的特征融合策略处理多尺度图形结构特征,并通过新颖的特征融合策略进行交换信息,导致丰富的分层表示。我们还介绍了3D粗网格约束,以进一步提高与细节相关的特征学习。广泛的实验表明,我们的HGN通过减少的网络参数实现了最先进的性能
translated by 谷歌翻译
估计单眼视频的3D人类姿势是由于深度模糊和自动阻塞的具有挑战性的任务。大多数现有的作品试图通过利用空间和时间关系来解决这两个问题。然而,这些作品忽略了它是存在多种可行解决方案(即假设)的逆问题。为了减轻这种限制,我们提出了一种多假设变压器(MHFormer),其学习多个合理的姿势假设的时空表示。为了有效地模拟多假设依赖性并构建跨假设特征的强烈关系,任务分解为三个阶段:(i)生成多个初始假设表示; (ii)模型自立通信,将多个假设合并到单个融合表示中,然后将其分组成几个分歧假设; (iii)学习横向假设通信并汇总多假设特征以合成最终的3D姿势。通过上述过程,最终表示增强,合成的姿势更准确。广泛的实验表明,MHFORMER在两个具有挑战性的数据集上实现最先进的结果:Humanet3.6M和MPI-INF-3DHP。没有钟声和吹口哨,其性能超过了以人3.6M的大幅度为3%的最佳结果。代码和模型可在https://github.com/vegetebird/mhformer中找到。
translated by 谷歌翻译
我们建议在不使用任何手动注释的情况下为人类的姿势估算器进行个性化。虽然人类姿势估计有重大进步,但对于模型来说概括到不同的未知环境和看不见的人仍然非常具有挑战性。我们而不是为每个测试用例使用固定模型,我们在测试时间期间调整我们的姿势估算器以利用特定人的信息。我们首先将我们的模型与监督和自我监督的姿势估算目标相同。我们使用变压器模型来构建自我监控的关键点和监督关键点之间的转换。在测试时间期间,我们通过通过自我监督目标进行微调来个性化和调整我们的模型。然后通过转换更新的自我监督的关键点来改进姿势。我们尝试多个数据集,并显示我们自我监督个性化的姿势估算的显着改进。
translated by 谷歌翻译
对图像分类任务的对比学习成功的鼓励,我们为3D手姿势估计的结构化回归任务提出了一种新的自我监督方法。对比学习利用未标记的数据来通过损失制定来使用未标记的数据,以鼓励学习的特征表示在任何图像转换下都是不变的。对于3D手姿势估计,它也希望具有不变性地与诸如颜色抖动的外观变换。但是,该任务需要在仿射和转换之类的转换下的标准性。为了解决这个问题,我们提出了一种对比的对比目标,并在3D手姿势估计的背景下展示其有效性。我们通过实验研究了不变性和对比的对比目标的影响,并表明学习的等待特征导致3D手姿势估计的任务的更好表示。此外,我们显示具有足够深度的标准Evenet,在额外的未标记数据上培训,在弗雷手中获得高达14.5%的提高,因此在没有任何任务的专用架构的情况下实现最先进的性能。 https://ait.ethz.ch/projects/2021/peclr/使用代码和模型
translated by 谷歌翻译
婴儿运动分析是在儿童早期开发研究中具有重要意义的主题。然而,虽然人类姿势估计的应用变得越来越宽,但是在大规模成年姿势数据集上培训的模型几乎不能在估计婴幼儿姿势,因为它们的身体比率显着差异以及它们的构成的多功能性。此外,隐私和安全考虑因素阻碍了从头划痕培训强大模型所需的适当婴儿姿势数据的可用性。为了解决这个问题,本文提出(1)建立和公开发布具有小但不同实际婴儿图像的混合综合和真正的婴儿姿势(Syrip)数据集以及生成的合成婴儿姿势和(2)多级不变表示学习策略可以将知识从成人姿势和合成婴儿图像的相邻域和综合性婴儿图像转移到我们的微调域适应婴儿姿势(FIDEP)估计模型中。在我们的消融研究中,具有相同的网络结构,在SyRip数据集上培训的模型对唯一的其他公共婴儿姿势数据集接受过的培训明显改进。与具有不同复杂性的姿势估计骨干网络集成,FIDEP比这些模型的微调版本始终如一。我们最先进的暗影模型上最好的婴儿姿势估计表演者显示了93.6的平均平均精度(MAP)。
translated by 谷歌翻译
之前在为人类运动提供合理的限制方面发挥着重要作用。以前的作品在不同情况下遵循各种范式的运动前锋,导致缺乏多功能性。在本文中,我们首先总结了先前运动的不可或缺的特性,并因此设计了一种学习多功能运动的框架,其模拟人类运动的固有概率分布。具体地,对于有效的先前表示学习,我们提出了全局方向归一化,以在原始运动数据空间中删除冗余环境信息。此外,将基于序列的基于段的频率引导引入编码阶段。然后,我们采用去噪培训方案以可学习的方式从输入运动数据中解散环境信息,以产生一致和可区分的表示。在三个不同的任务中嵌入我们的运动前嵌入我们的运动,我们进行了广泛的实验,并且定量和定性结果均表现出我们之前运动的多功能性和有效性。我们的型号和代码可在https://github.com/jchenxu/human-motion-porion -prior上获得。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
虽然数据驱动的故障诊断方法已被广泛应用,但模型培训需要大规模标记数据。然而,在真正的行业实施这一点难以阻碍这些方法的应用。因此,迫切需要在这种情况下运行良好的有效诊断方法。本​​研究中,多级半监督改进的深度嵌入式聚类(MS-SSIDEC)方法,将半监督学习与改进的深度嵌入式聚类相结合(IDEC),建议共同探索稀缺标记的数据和大规模的未标记数据。在第一阶段,提出了一种可以自动将未标记的数据映射到低维特征空间中的跳过连接的卷积自动编码器(SCCAE),并预先培训以成为故障特征提取器。在第二阶段,提出了一个半监督的改进的深嵌入式聚类(SSIDEC)网络以进行聚类。首先用可用标记数据初始化,然后用于同时优化群集标签分配,并使要素空间更加群集。为了解决过度装备现象,在本阶段将虚拟的对抗培训(增值税)作为正则化术语。在第三阶段,伪标签是通过SSIDEC的高质量结果获得的。标记的数据集可以由这些伪标记的数据增强,然后利用以训练轴承故障诊断模型。来自滚动轴承的两个振动数据数据集用于评估所提出的方法的性能。实验结果表明,该方法在半监督和无监督的故障诊断任务中实现了有希望的性能。该方法通过有效地探索无监督数据,提供了在有限标记样本的情况下的故障诊断方法。
translated by 谷歌翻译
对人类姿势和行动的认可对于自治系统与人们顺利互动。然而,相机通常在2D中捕获人类的姿势,作为图像和视频,这在跨越识别任务具有挑战性的观点来具有显着的外观变化。为了解决这个问题,我们探讨了来自2D信息的3D人体姿势中的识别相似性,在现有工作中没有得到很好地研究。在这里,我们提出了一种从2D主体关节键盘学习紧凑型视图 - 不变的嵌入空间的方法,而不明确地预测3D姿势。通过确定性映射难以代表预测和遮挡的2D姿势的输入模糊,因此我们采用了嵌入空间的概率制定。实验结果表明,与3D姿态估计模型相比,我们的嵌入模型在不同相机视图中检索类似的姿势时达到更高的准确性。我们还表明,通过培训简单的时间嵌入模型,我们在姿势序列检索方面取得了卓越的性能,并大大减少了基于堆叠帧的嵌入式的嵌入维度,以实现高效的大规模检索。此外,为了使我们的嵌入能够使用部分可见的输入,我们进一步调查培训期间的不同关键点遮挡增强策略。我们证明这些遮挡增强显着提高了部分2D输入姿势的检索性能。行动识别和视频对齐的结果表明,使用我们的嵌入没有任何额外培训,可以实现相对于每个任务专门培训的其他模型的竞争性能。
translated by 谷歌翻译
面部反欺骗(FAS)在确保人脸识别系统中起着至关重要的作用。经验上,给定图像,在该图像的不同视图上具有更一致的输出的模型通常更好地执行,如图1所示。通过这种令人兴奋的观察,我们猜想令人鼓舞的特征符合不同视图的一致性可能是提升FAS模型的有希望的方法。在本文中,我们通过增强FAS中的嵌入级和预测级别一致性正规(EPCR)来彻底探讨这种方式。具体地,在嵌入级别,我们设计了密集的相似性损失,以最大化两个中间特征映射的所有位置之间以自我监督的方式;虽然在预测级别,我们优化了两个视图的预测之间的均方误差。值得注意的是,我们的EPCR没有注释,可以直接融入半监督的学习计划。考虑到不同的应用方案,我们进一步设计了五种不同的半监督协议,以衡量半监督的FAS技术。我们进行广泛的实验表明EPCR可以显着提高基准数据集上几个监督和半监控任务的性能。代码和协议即将发布。
translated by 谷歌翻译
我们呈现多视图姿势变压器(MVP),用于从多视图图像估计多人3D姿势。而不是从昂贵的体积表示或从多个检测到的2D重建的每人3D姿势估计从昂贵的体积表示或从多个检测到的2D姿势进行估计3D联合位置,而是MVP以清洁和有效的方式直接回归多人3D姿势,而不依赖于中间任务。具体而言,MVP表示作为学习查询嵌入的骨架关节,并让它们从输入图像中逐渐参加和原因,以直接回归实际的3D联合位置。为了提高这种简单管道的准确性,MVP呈现了一个分层方案,简明地代表了多人骨架关节的查询嵌入,并引入了输入相关的查询适应方法。此外,MVP设计了一种新颖的几何引导注意力机制,称为投影注意力,更精确地熔化每个关节的跨视网膜信息。 MVP还介绍了RAYCONV操作,以将视图依赖的相机几何整合到特征表示中,以增加投射注意。我们通过实验展示我们的MVP模型在几个基准上占据了最先进的方法,同时更有效。值得注意的是,它在挑战的Panoptic DataSet上实现了92.3%的AP25,提高了先前的最佳方法[36],提高了9.8%。 MVP是通用的,并且还可以扩展到恢复SMPL模型表示的人网格,因此可用于建模多人身体形状。代码和模型可在https://github.com/sail-sg/mvp上获得。
translated by 谷歌翻译
甚至在没有受限,监督的情况下,也提出了甚至在没有受限或有限的情况下学习普遍陈述的方法。使用适度数量的数据可以微调新的目标任务,或者直接在相应任务中实现显着性能的无奈域中使用的良好普遍表示。这种缓解数据和注释要求为计算机愿景和医疗保健的应用提供了诱人的前景。在本辅导纸上,我们激励了对解散的陈述,目前关键理论和详细的实际构建块和学习此类表示的标准的需求。我们讨论医学成像和计算机视觉中的应用,强调了在示例钥匙作品中进行的选择。我们通过呈现剩下的挑战和机会来结束。
translated by 谷歌翻译
为了获取3D注释,我们仅限于受控环境或合成数据集,导致我们到3D数据集,其概括为现实世界方案。为了在半监督3D手形状和姿势估计的上下文中解决这个问题,我们提出了姿势对齐网络,以将标记帧传播到附近的稀疏注释视频中的附近未标记帧的3D注释。我们表明,在标记 - 未标记的帧对对对准监控允许我们提高姿态估计精度。此外,我们表明所提出的姿势对齐网络可以有效地传播在不良稀疏的视频上的注释而无需微调。
translated by 谷歌翻译
在深度学习的时代,具有未知校准未知校准的多个摄像机的人类姿态估计几乎没有关注迄今为止。我们展示如何培训一个神经模型,以高精度和最小延迟开销来执行此任务。由于多视图闭塞,所提出的模型考虑了联合位置不确定性,并且只需要2D关键点数据进行培训。我们的方法优于良好的人机3.6M数据集上的经典捆绑调整和弱监督单眼3D基线,以及野外滑雪姿势PTZ数据集的更具挑战性。
translated by 谷歌翻译
估计3D人类姿势已被证明是一个具有挑战性的任务,主要是因为人体关节,闭塞和照明条件的可变性的复杂性。在本文中,我们介绍了一个高阶图卷积框架,具有初始剩余连接,用于2D-3D姿势估计。使用多跳邻域进行节点特征聚合,我们的模型能够捕获身体关节之间的远程依赖性。此外,我们的方法利用了通过设计中的设计集成的剩余连接,确保学习的特征表示从输入层的初始特征中保留重要信息,因为网络深度增加。在两个标准基准上进行的实验和消融研究表明了我们模型的有效性,实现了对3D人类姿态估算的强大基线方法的卓越性能。
translated by 谷歌翻译
视频生成是计算机愿景中的一个有趣问题。它非常受欢迎的数据增强,Move,AR / VR等特殊效果。随着深度学习的进步,已经提出了许多深入的生成模型来解决这项任务。这些深度生成模型提供了在线使用所有未标记的图像和视频,因为它可以使用无人监督的方式学习深度特征表示。这些模型还可以生成不同类型的图像,这对于可视应用具有很大的值。然而,生成视频将更具挑战性,因为我们不仅需要模型,不仅需要视频中的对象的外观,而且需要它们的时间运动。在这项工作中,我们会将视频中的任何帧分解为内容和姿势。我们首先使用预先训练的人的姿势检测从视频中提取姿势信息,并使用生成模型来基于内容代码和姿态代码来综合视频。
translated by 谷歌翻译
我们考虑将人体网格重建模型调整为域外流媒体视频的新问题,其中现有的基于SMPL的模型的性能受到不同相机参数,骨长,背景和闭塞的分布换档的显着影响。我们通过在线适应来解决这个问题,逐渐在测试期间纠正模型偏差。有两个主要挑战:首先,缺乏3D注释增加了培训难度并导致3D模糊。其次,非静止数据分布使得难以在拟合常规帧和硬样之间的平衡,具有严重的闭塞或戏剧性的变化。为此,我们提出了动态Bilevel在线适应算法(Dynaboa)。它首先介绍了用于补偿不可用的3D注释的时间约束,并利用BileVel优化过程来解决多目标之间的冲突。 Dynaboa通过使用类似的来源示例提供了额外的3D指导,尽管分布换档。此外,它可以自适应地调整各个帧上的​​优化步骤的数量,以完全适合硬样品并避免过度拟合常规帧。 Dynaboa在三个域名人网格重建基准上实现最先进的结果。
translated by 谷歌翻译