许多参数统计模型没有被正确地归一化并且仅被指定为难以处理的分区函数,这使得参数估计变得困难。非标准化模型的例子是无监督深度学习中的吉布斯分布,马尔可夫随机场和神经网络模型。在以前的工作中,引入了称为噪声对比估计(NCE)的估计原理,其中通过学习数据和辅助之间的区分来估计非标准化模型。噪声。一个悬而未决的问题是如何最好地选择辅助噪声分布。我们在这里提出一种解决这个问题的新方法。所提出的方法与NCE共享将密度估计制定为监督学习问题的想法,但与NCE相反,所提出的方法在生成噪声样本时利用观察到的数据。因此可以以半自动方式产生噪声。我们首先介绍了新方法的基本理论,表明得分匹配作为一个极限情况,验证了连续和离散评估合成数据的方法,并表明当数据位于低维流形时我们可以期望比NCE更好的性能。然后通过估计afour-layer神经图像模型,证明其在无监督深度学习中的适用性。
translated by 谷歌翻译
场景分析中的一个长期挑战是直接从单眼视频中恢复中度到重度遮挡下的场景安排。虽然这个问题仍然是一个积极研究的主题,但是在单眼视频的人体姿势重建的背景下已经取得了同步进展,包括图像 - 空间特征点检测和3D姿势恢复。然而,这些方法在中度到重度遮挡下开始失败,因为问题变得严重受限。我们不同地处理问题。我们观察到人们在相似的场景中进行相似的交互。因此,我们利用场景对象排列与场景中两个方向的运动之间的相关性:首先,在与物体交互时进行的典型运动告诉我们可能的物体排列;第二,对象安排反过来限制了可能的运动。我们提出了iMapper,一种数据驱动的方法,专注于识别人类 - 对象的交互,并共同推理对象和人类移动时空,以恢复合理的场景布置和一致的人类交互。我们首先将特征交互的概念引入时空区域,当信息化的人 - 物体相互作用发生时。接下来是一个新颖的遮挡感知匹配程序,它从交互数据库中搜索和对齐这些特征快照,以最好地解释输入的单目视频。通过定量和定性的重要评估,我们证明了thatiMapper显着提高了专用的artce-the-artcene分析和3D人体姿势恢复方法的性能,特别是在中重度闭塞下。
translated by 谷歌翻译
人体形状估计是视频编辑,动画和时尚产业的重要任务。然而,由于诸如人体,衣服和视点的变化等因素,从自然图像预测3D人体形状是非常具有挑战性的。解决该问题的现有方法通常试图使参数身体模型适合姿势和形状的某些先验。在这项工作中,我们争论一个替代的表示,并提出BodyNet,一个神经网络,从单个图像直接推断体积体形.BodyNet是一个端到端的可训练网络,受益于(i)体积3D损失,(ii)a多视图重投影损失,以及(iii)2D姿势,2D身体部分分割和3D姿势的中间视觉监视。如我们的实验所证明的那样,它们中的每一个都会提高性能。为了评估方法,我们将SMPL模型与我们的网络输出相匹配,并在SURREAL和Unite the People数据集上显示最新结果,优于最近的方法。除了实现最先进的性能外,我们的方法还可以实现体积分割。
translated by 谷歌翻译
We propose a deep learning approach for finding dense correspondences between3D scans of people. Our method requires only partial geometric information inthe form of two depth maps or partial reconstructed surfaces, works for humansin arbitrary poses and wearing any clothing, does not require the two people tobe scanned from similar viewpoints, and runs in real time. We use a deepconvolutional neural network to train a feature descriptor on depth map pixels,but crucially, rather than training the network to solve the shapecorrespondence problem directly, we train it to solve a body regionclassification problem, modified to increase the smoothness of the learneddescriptors near region boundaries. This approach ensures that nearby points onthe human body are nearby in feature space, and vice versa, rendering thefeature descriptor suitable for computing dense correspondences between thescans. We validate our method on real and synthetic data for both clothed andunclothed humans, and show that our correspondences are more robust than ispossible with state-of-the-art unsupervised methods, and more accurate thanthose found using methods that require full watertight 3D geometry.
translated by 谷歌翻译