自发运动评估可以预测高风险婴儿的长期发育障碍。为了开发用于后续疾病的自动预测的算法,需要通过婴儿姿势估计的段和关节的高精度定位。训练了四种类型的卷积神经网络,并在新颖的婴儿姿势数据集上进行培训,并从临床国际社会中涵盖了1224个视频的大变化。将网络的本地化性能评估为估计的关键点位置和人类专家注释之间的偏差。还评估了计算效率,以确定神经网络在临床实践中的可行性。表现最佳的神经网络对人类专家注释的帧间扩散具有类似的本地化误差,同时仍然有效地运行。总体而言,我们的研究结果表明,婴儿自发运动的姿势估计有巨大的潜力,支持研究潜冲在早期检测儿童发育疾病的潜在脑损伤的发育障碍,这些脑卒中与人为水平绩效的录像量。
translated by 谷歌翻译
内部的姿势估计显示出在医院患者监测,睡眠研究和智能家居等领域的价值。在本文中,我们探讨了借助现有的姿势估计器,从高度模棱两可的压力数据中检测身体姿势的不同策略。我们通过直接使用或通过在两个压力数据集上对其进行重新训练来检查预训练的姿势估计器的性能。我们还利用可学习的预处理域适应步骤探索了其他策略,该步骤将模糊的压力图转换为更接近共同目的姿势估计模块的预期输入空间的表示。因此,我们使用了具有多个尺度的完全卷积网络,以向预训练的姿势估计模块提供压力图的姿势特异性特征。我们对不同方法的完整分析表明,在压力数据上,可学习的预处理模块的组合以及重新训练基于图像的姿势估计器能够克服诸如高度模糊的压力点之类的问题,以实现很高的姿势估计准确性。
translated by 谷歌翻译
随着牛奶厂的畜群大小继续增加,奶牛的自动健康监测是兴趣的。通过分析奶牛的步态,通常检测到乳制品奶牛中普遍存在的健康障碍。可以使用姿势估计模型在视频中追踪牛的步态,因为模型学会自动本地化图像和视频的解剖标志。大多数动物姿势估计模型是静态的,也就是说,视频是通过帧进行处理的帧,并且不使用任何时间信息。在这项工作中,用于动物姿态估计的静态深度学习模型扩展到包括来自过去框架的信息的时间模型。我们比较了静态和时间姿势估计模型的性能。这些数据由来自通过室外通道的30个不同乳制品牛的视频(30 fps)提取的459个三个连续帧。随着农场环境易于闭塞,我们通过向视频添加人工闭塞来测试静态和时间模型的稳健性。实验表明,在非闭塞数据中,静态和时间方法都达到了正确关键点的百分比(PCKH @ 0.2)99%。在遮挡数据上,我们的时间方法优于静态,高达32.9%,表明使用时间数据有利于易于闭塞的环境中的姿势估计,例如乳制品农场。通过在包含未知奶牛的数据(培训集中不存在的奶牛)上测试了时间模型的泛化能力。结果表明,普通PCKH@0.2在已知的奶牛上为93.8%,在未知的奶牛上为87.6%,表明该模型能够概括为新奶牛,并且它们可以很容易地微调到新牛群。最后,我们展示了更难的任务,例如遮挡和未知的奶牛,更深层次的建筑更有益。
translated by 谷歌翻译
瑜伽是全球广受好评的,广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中,我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点,以训练一个随机的森林分类器,该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果,该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案,用于通过对1)看不见的帧,2)看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为,对于大多数应用程序,对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集,转移学习的优势以及目标泄漏的可能性。我们进一步证明,分类精度在很大程度上取决于所采用的交叉验证方法,并且通常会产生误导。为了促进进一步的研究,我们已公开提供关键点数据集和代码。
translated by 谷歌翻译
Recently developed methods for video analysis, especially models for pose estimation and behavior classification, are transforming behavioral quantification to be more precise, scalable, and reproducible in fields such as neuroscience and ethology. These tools overcome long-standing limitations of manual scoring of video frames and traditional "center of mass" tracking algorithms to enable video analysis at scale. The expansion of open-source tools for video acquisition and analysis has led to new experimental approaches to understand behavior. Here, we review currently available open-source tools for video analysis and discuss how to set up these methods for labs new to video recording. We also discuss best practices for developing and using video analysis methods, including community-wide standards and critical needs for the open sharing of datasets and code, more widespread comparisons of video analysis methods, and better documentation for these methods especially for new users. We encourage broader adoption and continued development of these tools, which have tremendous potential for accelerating scientific progress in understanding the brain and behavior.
translated by 谷歌翻译
本文提出了一个简单的基线框架,用于基于视频的2D/3D人姿势估计,该估计可以比现有作品实现10倍提高效率,而无需任何性能降级,名为Deciwatch。与当前在视频中估算每个帧的解决方案不同,Deciwatch引入了一个简单而有效的样品探测框架框架,该框架只能通过人类动作的连续性和轻巧的姿势表示,仅观看稀疏采样的框架。具体而言,DeciWatch均匀地示例少于10%的视频帧以进行详细估计,以有效的变压器体系结构来确定估计的2D/3D姿势,然后使用另一个基于变压器的网络准确地恢复其余帧。通过四个数据集的三个基于视频的人姿势估计和身体网格恢复任务的全面实验结果验证了Deciwatch的效率和有效性。代码可在https://github.com/cure-lab/deciwatch上找到。
translated by 谷歌翻译
大多数实时人类姿势估计方法都基于检测接头位置。使用检测到的关节位置,可以计算偏差和肢体的俯仰。然而,由于这种旋转轴仍然不观察,因此不能计算沿着肢体沿着肢体至关重要的曲折,这对于诸如体育分析和计算机动画至关重要。在本文中,我们引入了方向关键点,一种用于估计骨骼关节的全位置和旋转的新方法,仅使用单帧RGB图像。灵感来自Motion-Capture Systems如何使用一组点标记来估计全骨骼旋转,我们的方法使用虚拟标记来生成足够的信息,以便准确地推断使用简单的后处理。旋转预测改善了接头角度最佳报告的平均误差48%,并且在15个骨骼旋转中实现了93%的精度。该方法还通过MPJPE在原理数据集上测量,通过MPJPE测量,该方法还改善了当前的最新结果14%,并概括为野外数据集。
translated by 谷歌翻译
本文调查了2D全身人类姿势估计的任务,该任务旨在将整个人体(包括身体,脚,脸部和手)局部定位在整个人体上。我们提出了一种称为Zoomnet的单网络方法,以考虑到完整人体的层次结构,并解决不同身体部位的规模变化。我们进一步提出了一个称为Zoomnas的神经体系结构搜索框架,以促进全身姿势估计的准确性和效率。Zoomnas共同搜索模型体系结构和不同子模块之间的连接,并自动为搜索的子模块分配计算复杂性。为了训练和评估Zoomnas,我们介绍了第一个大型2D人类全身数据集,即可可叶全体V1.0,它注释了133个用于野外图像的关键点。广泛的实验证明了Zoomnas的有效性和可可叶v1.0的重要性。
translated by 谷歌翻译
双边姿势对称性是自闭症谱系障碍(ASD)的潜在风险标志物以及婴儿中先天性肌肉核核糖(CMT)的症状的关键作用,但是当前评估对称性的方法需要费力的临床专家评估。在本文中,我们开发了一个基于计算机视觉的婴儿对称评估系统,利用婴儿的3D人姿势估计。通过对人类角度和对称性评级的调查,我们的发现对我们的系统进行评估和校准,使这种评级表现出较低的评价者可靠性。为了纠正这一点,我们开发了一个贝叶斯的估计量,该估计量是从可犯错的人类评估者的概率图形模型中得出的。我们显示,在预测贝叶斯骨料标签方面,3D婴儿姿势估计模型可以在接收器工作特征曲线性能下实现68%的面积,而2D婴儿姿势估计模型仅为61%,而3D成人姿势估计模型的61%和60% ,强调了3D姿势和婴儿领域知识在评估婴儿身体对称性方面的重要性。我们的调查分析还表明,人类评分易受较高的偏见和不一致性的影响,因此,我们的最终基于3D姿势的对称评估系统是校准的,但没有直接受到贝叶斯汇总人类评分的直接监督,从而产生了更高的一致性和较低水平的水平和​​较低的水平。 LIMB间评估偏见。
translated by 谷歌翻译
音频条件的舞蹈运动合成图的生成模型音乐特征到舞蹈运动。训练模型将运动模式与音频模式相关联,通常没有明确的人体知识。这种方法取决于一些假设:强烈的音乐舞蹈相关性,受控运动数据和相对简单的姿势和运动。在所有现有的舞蹈运动合成数据集中都可以找到这些特征,并且实际上最近的方法可以取得良好的结果。我们引入了一个新的数据集,旨在挑战这些常见的假设,并编译了一组动态舞蹈序列,显示出复杂的人类姿势。我们专注于具有杂技动作和纠结姿势的脱节。我们从红牛BC One竞赛视频中获取数据。由于舞蹈的复杂性以及多个移动的相机录制设置,因此很难从这些视频中估算人类关键点。我们采用混合标签管道利用深度估计模型以及手动注释,以降低的成本获得高质量的关键点序列。我们的努力生产了支架数据集,该数据集包含3个小时30分钟的密集注释姿势。我们在支撑上测试了最新方法,在复杂序列上评估时显示了它们的局限性。我们的数据集可以很容易地促进舞蹈运动合成。有了复杂的姿势和迅速的动作,模型被迫超越学习方式与理性之间的映射,以更有效地了解身体结构和运动。
translated by 谷歌翻译
Because of their close relationship with humans, non-human apes (chimpanzees, bonobos, gorillas, orangutans, and gibbons, including siamangs) are of great scientific interest. The goal of understanding their complex behavior would be greatly advanced by the ability to perform video-based pose tracking. Tracking, however, requires high-quality annotated datasets of ape photographs. Here we present OpenApePose, a new public dataset of 71,868 photographs, annotated with 16 body landmarks, of six ape species in naturalistic contexts. We show that a standard deep net (HRNet-W48) trained on ape photos can reliably track out-of-sample ape photos better than networks trained on monkeys (specifically, the OpenMonkeyPose dataset) and on humans (COCO) can. This trained network can track apes almost as well as the other networks can track their respective taxa, and models trained without one of the six ape species can track the held out species better than the monkey and human models can. Ultimately, the results of our analyses highlight the importance of large specialized databases for animal tracking systems and confirm the utility of our new ape database.
translated by 谷歌翻译
Realtime multi-person 2D pose estimation is a key component in enabling machines to have an understanding of people in images and videos. In this work, we present a realtime approach to detect the 2D pose of multiple people in an image. The proposed method uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. This bottom-up system achieves high accuracy and realtime performance, regardless of the number of people in the image. In previous work, PAFs and body part location estimation were refined simultaneously across training stages. We demonstrate that a PAF-only refinement rather than both PAF and body part location refinement results in a substantial increase in both runtime performance and accuracy. We also present the first combined body and foot keypoint detector, based on an internal annotated foot dataset that we have publicly released. We show that the combined detector not only reduces the inference time compared to running them sequentially, but also maintains the accuracy of each component individually. This work has culminated in the release of OpenPose, the first open-source realtime system for multi-person 2D pose detection, including body, foot, hand, and facial keypoints.
translated by 谷歌翻译
婴儿运动分析是在儿童早期开发研究中具有重要意义的主题。然而,虽然人类姿势估计的应用变得越来越宽,但是在大规模成年姿势数据集上培训的模型几乎不能在估计婴幼儿姿势,因为它们的身体比率显着差异以及它们的构成的多功能性。此外,隐私和安全考虑因素阻碍了从头划痕培训强大模型所需的适当婴儿姿势数据的可用性。为了解决这个问题,本文提出(1)建立和公开发布具有小但不同实际婴儿图像的混合综合和真正的婴儿姿势(Syrip)数据集以及生成的合成婴儿姿势和(2)多级不变表示学习策略可以将知识从成人姿势和合成婴儿图像的相邻域和综合性婴儿图像转移到我们的微调域适应婴儿姿势(FIDEP)估计模型中。在我们的消融研究中,具有相同的网络结构,在SyRip数据集上培训的模型对唯一的其他公共婴儿姿势数据集接受过的培训明显改进。与具有不同复杂性的姿势估计骨干网络集成,FIDEP比这些模型的微调版本始终如一。我们最先进的暗影模型上最好的婴儿姿势估计表演者显示了93.6的平均平均精度(MAP)。
translated by 谷歌翻译
伤害分析可能是基于深度学习的人类姿势估计的最有益的应用之一。为了促进进一步研究本主题,我们为高山滑雪提供了伤害特定的2D数据集,总计533个图像。我们进一步提出了一个后处理程序,它将旋转信息与简单的运动模型相结合。我们可以将秋季情况的检测结果提高到21%,关于pck@0.2指标。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
由于几个因素之间的微妙权衡:参与者的隐私,生态有效性,数据保真度和后勤开销,记录野外未脚本人类互动的动态是具有挑战性的。为了解决这些问题,在社区精神上为社区的“数据集”之后,我们提出了会议生活实验室(Conflab):一个新的概念,用于多模式多模式数据收集,野生野外社交对话。对于此处描述的Conflab的首次实例化,我们在一次大型国际会议上组织了现实生活中的专业网络活动。该数据集涉及48个会议参与者,捕捉了地位,熟人和网络动机的各种组合。我们的捕获设置改善了先前野外数据集的数据保真度,同时保留隐私敏感性:从非侵入性的架空视图中获得8个视频(1920x1080,60 fps),并具有定制的可穿戴传感器,并带有车载记录(完整9) - 轴IMU),具有隐私性的低频音频(1250 Hz)和基于蓝牙的接近度。此外,我们开发了用于采集时分布式硬件同步的自定义解决方案,并以高采样速率对身体关键点和动作进行了及时的连续注释。我们的基准测试展示了与野外隐私保护社交数据分析有关的一些开放研究任务:从高架摄像头视图,基于骨架的No-Audio扬声器检测和F-Formation检测中的关键点检测。
translated by 谷歌翻译
In this paper, we are interested in the human pose estimation problem with a focus on learning reliable highresolution representations. Most existing methods recover high-resolution representations from low-resolution representations produced by a high-to-low resolution network. Instead, our proposed network maintains high-resolution representations through the whole process.We start from a high-resolution subnetwork as the first stage, gradually add high-to-low resolution subnetworks one by one to form more stages, and connect the mutliresolution subnetworks in parallel. We conduct repeated multi-scale fusions such that each of the high-to-low resolution representations receives information from other parallel representations over and over, leading to rich highresolution representations. As a result, the predicted keypoint heatmap is potentially more accurate and spatially more precise. We empirically demonstrate the effectiveness of our network through the superior pose estimation results over two benchmark datasets: the COCO keypoint detection dataset and the MPII Human Pose dataset. In addition, we show the superiority of our network in pose tracking on the PoseTrack dataset. The code and models have been publicly available at https://github.com/leoxiaobin/ deep-high-resolution-net.pytorch.
translated by 谷歌翻译
We propose a CNN-based approach for 3D human body pose estimation from single RGB images that addresses the issue of limited generalizability of models trained solely on the starkly limited publicly available 3D pose data. Using only the existing 3D pose data and 2D pose data, we show state-of-the-art performance on established benchmarks through transfer of learned features, while also generalizing to in-the-wild scenes. We further introduce a new training set for human body pose estimation from monocular images of real humans that has the ground truth captured with a multi-camera marker-less motion capture system. It complements existing corpora with greater diversity in pose, human appearance, clothing, occlusion, and viewpoints, and enables an increased scope of augmentation. We also contribute a new benchmark that covers outdoor and indoor scenes, and demonstrate that our 3D pose dataset shows better in-the-wild performance than existing annotated data, which is further improved in conjunction with transfer learning from 2D pose data. All in all, we argue that the use of transfer learning of representations in tandem with algorithmic and data contributions is crucial for general 3D body pose estimation.
translated by 谷歌翻译
在诸如人类姿态估计的关键点估计任务中,尽管具有显着缺点,但基于热线的回归是主要的方法:Heatmaps本质上遭受量化误差,并且需要过多的计算来产生和后处理。有动力寻找更有效的解决方案,我们提出了一种新的热映射无关声点估计方法,其中各个关键点和空间相关的关键点(即,姿势)被建模为基于密集的单级锚的检测框架内的对象。因此,我们将我们的方法Kapao(发音为“KA-Pow!”)对于关键点并作为对象构成。我们通过同时检测人姿势对象和关键点对象并融合检测来利用两个对象表示的强度来将Kapao应用于单阶段多人人类姿势估算问题。在实验中,我们观察到Kapao明显比以前的方法更快,更准确,这极大地来自热爱处理后处理。此外,在不使用测试时间增强时,精度速度折衷特别有利。我们的大型型号Kapao-L在Microsoft Coco Keypoints验证集上实现了70.6的AP,而无需测试时增强,其比下一个最佳单级模型更准确,4.0 AP更准确。此外,Kapao在重闭塞的存在下擅长。在繁荣试验套上,Kapao-L为一个单级方法实现新的最先进的准确性,AP为68.9。
translated by 谷歌翻译
在分析人类运动视频时,来自现有姿势估计器的输出抖动是高度不平衡的。大多数帧只遭受轻微的傻瓜,而在那些具有遮挡或图像质量差的框架中发生了重要的困难。这种复杂的姿势通常持续存在于视频中,导致估计结果差和大型抖动的连续帧。现有的基于时间卷积网络,经常性神经网络或低通滤波器的现有姿态平滑解决方案不能处理这种长期抖动问题,而不考虑抖动视频段内的显着和持久的错误。通过上述观察,我们提出了一种新颖的即插即用细化网络,即光滑网络,可以附加到任何现有的姿势估计,以提高其时间平滑度,同时提高其每个帧精度。特别是,SmoothNet是一个简单而有效的数据驱动的全连接网络,具有大的接收领域,有效地减轻了长期抖动与不可靠的估计结果的影响。我们在十二个骨干网络上进行广泛的实验,跨越2D和3D姿势估算,身体恢复和下游任务。我们的结果表明,所提出的光滑网络始终如一地优于现有的解决方案,尤其是具有高误差和长期抖动的夹子。
translated by 谷歌翻译