我们提出了两种基于新的可学习三角测量方法的多视图3D人体姿态估计的新颖解决方案,该方法结合了来自多个2D视图的3D信息。第一(基线)解是基本的可微分的代数三角测量,其中增加了从输入图像估计的置信度。第二种解决方案基于来自中间2D骨干特征图的体积聚集的新方法。然后通过3D卷积来精确聚集的体积,其产生最终的3D关节热图并且允许先前对人体姿势建模。至关重要的是,这两种方法都是端到端可区分的,这使我们能够直接优化目标指标。我们展示了跨数据集的解决方案的可转移性,并显着改善了Human3.6M数据集上的多视图技术水平。 Videodemonstration,注释和其他材料将发布在我们的项目页面(https://saic-violet.github.io/learnable-triangulation)。
translated by 谷歌翻译
我们提出了一种新的深度学习方法,用于人体照片的姿势引导再合成。新方法的核心是基于单张照片估计完整体表面纹理。由于输入的光学图像仅观察到表面的一部分,我们建议采用一种新的修复方法来完成人体的纹理。修复网络不是直接与纹理元素的颜色一起工作,而是针对体表的每个元素估计输入图像中的适当源位置。然后,输入图像和纹理之间的该对应字段基于期望的姿势进一步变形到目标图像坐标系中,即使在姿势变化剧烈时也有效地建立源和目标视图之间的对应关系。最后的卷积网络然后使用建立的对应关系和所有其他可用信息使用具有可变形卷积的完全卷积架构合成输出图像。我们展示了姿势指导合成的最新结果。此外,我们展示了我们的系统进行的服装转移和姿势引导面部再合成的表现。
translated by 谷歌翻译
使用深度卷积网络执行图像处理的系统已经实现了非凡的真实感。基于对抗性鉴别器的感知损失和损失是这些进步背后的两个主要学习目标类别。在这项工作中,我们展示了如何将这两个想法以原则和非加法的方式组合在一起,用于未对齐的图像翻译任务。这是通过生成对抗性学习框架内的歧视者网络的特殊架构来实现的。我们称之为感知鉴别器的新体系结构将预先训练的深度分类网络的卷积部分嵌入鉴别器网络中。得到的体系结构可以在未对齐的图像数据集上进行训练,同时受益于感知损失的鲁棒性和效率。我们通过一系列定性和定量比较来展示新架构的优点,并与基线方法和未对齐图像转换的最新框架进行比较。
translated by 谷歌翻译
我们提出了一个新的,可以说是非常简单的将实例分割减少到语义分割。这种减少允许使用已经提出用于语义分割的架构以端到端方式训练前馈非重复深度实例分割系统。我们的方法通过引入固定数量的标签(颜色)和动态地分配对象实例来进行。训练期间的那些标签(着色)。然后使用标准语义分割目标来训练可以为先前看不见的图像着色的网络。在测试时,可以使用简单的连通分量分析从训练的卷积网络的输出中恢复单个对象实例。在实验验证中,着色方法显示能够解决在自动驾驶(Cityscapesbenchmark),植物表型分析(CVPPP叶片分割挑战)和高通量显微镜图像分析中出现的各种实例分割任务。源代码可公开获取:https://github.com/kulikovv/DeepColoring。
translated by 谷歌翻译
我们提出了一种新的自然图像潜在模型,可以在大规模数据集上学习。学习过程在训练数据集中提供潜在的嵌入预测图像,以及将潜在空间映射到图像空间的深度卷积网络。在训练之后,新模型为各种图像修复任务提供了强大的通用图像,例如大孔修复,超分辨率和着色。 Tomodel高分辨率自然图像,我们的方法使用极高维度的潜在空间(比先前的激活图像模型高一到两个数量级)。为了解决这个高维度问题,我们使用具有特定流形结构(卷积流形)的潜在空间,该结构由某个体系结构的ConvNet参数化。在实验中,我们将学习的潜模型与自动编码器学习的潜在模型,生成对抗网络的高级变体以及使用潜在空间的简单参数化的强基线系统进行比较。我们的模型在一系列恢复任务中优于竞争方法。
translated by 谷歌翻译
Deep convolutional networks have become a popular tool for image generationand restoration. Generally, their excellent performance is imputed to theirability to learn realistic image priors from a large number of example images.In this paper, we show that, on the contrary, the structure of a generatornetwork is sufficient to capture a great deal of low-level image statisticsprior to any learning. In order to do so, we show that a randomly-initializedneural network can be used as a handcrafted prior with excellent results instandard inverse problems such as denoising, super-resolution, and inpainting.Furthermore, the same prior can be used to invert deep neural representationsto diagnose them, and to restore images based on flash-no flash input pairs. Apart from its diverse applications, our approach highlights the inductivebias captured by standard generator network architectures. It also bridges thegap between two very popular families of image restoration methods:learning-based methods using deep convolutional networks and learning-freemethods based on handcrafted image priors such as self-similarity. Code andsupplementary material are available athttps://dmitryulyanov.github.io/deep_image_prior .
translated by 谷歌翻译
我们建议学习深度嵌入的损失。新的损失不会引入需要调整的参数,并且会在一系列数据集和问题中产生非常好的嵌入。通过估计正(匹配)和负(非匹配)样本对的相似性的两个分布来计算损失,然后基于估计的相似性分布计算正对的具有比负对更低的相似性得分的概率。我们表明,这种操作可以使用具有软分配操作的1D直方图以简单且分段可微的方式执行。这使得所提出的损失适合于使用随机优化来学习深度嵌入。在实验中,与最近提出的替代方案相比,新损失表现良好。
translated by 谷歌翻译
It this paper we revisit the fast stylization method introduced in Ulyanovet. al. (2016). We show how a small change in the stylization architectureresults in a significant qualitative improvement in the generated images. Thechange is limited to swapping batch normalization with instance normalization,and to apply the latter both at training and testing times. The resultingmethod can be used to train high-performance architectures for real-time imagegeneration. The code will is made available on github athttps://github.com/DmitryUlyanov/texture_nets. Full paper can be found atarXiv:1701.02096.
translated by 谷歌翻译
Several recent works have shown that image descriptors produced by deepconvolutional neural networks provide state-of-the-art performance for imageclassification and retrieval problems. It has also been shown that theactivations from the convolutional layers can be interpreted as local featuresdescribing particular image regions. These local features can be aggregatedusing aggregation approaches developed for local features (e.g. Fishervectors), thus providing new powerful global descriptors. In this paper we investigate possible ways to aggregate local deep featuresto produce compact global descriptors for image retrieval. First, we show thatdeep features and traditional hand-engineered features have quite differentdistributions of pairwise similarities, hence existing aggregation methods haveto be carefully re-evaluated. Such re-evaluation reveals that in contrast toshallow features, the simple aggregation method based on sum pooling providesarguably the best performance for deep convolutional features. This method isefficient, has few parameters, and bears little risk of overfitting when e.g.learning the PCA matrix. Overall, the new compact global descriptor improvesthe state-of-the-art on four common benchmarks considerably.
translated by 谷歌翻译
表现最佳的深层架构经过大量标记数据的培训。在没有针对特定任务的标记数据的情况下,域适应性提供了有吸引力的选项,因为具有相似性质但来自不同域的标记数据(例如合成图像)是可用的。在这里,我们提出了一种新的深层架构中的域自适应方法,这种方法可以在来自源域的大量标记数据和来自目标域的大量未标记数据(没有标记的目标域数据是必要的)之间进行。随着培训的进行,该方法促进了“深层”特征的出现,这些特征是(i)对源域上的主要学习任务进行区分,以及(ii)对域之间的转换不变。通过用少量标准层和简单的新梯度反转层来增强它,几乎可以在任何前馈模型中实现这种适应行为。可以使用标准反向传播来训练所得到的增强架构。总的来说,使用任何深度学习包都可以轻松实现该方法。该方法在一系列图像分类实验中表现良好,在存在大域移位的情况下实现了适应效果,并且优于Office数据集的先前技术水平。
translated by 谷歌翻译