由于深度网络和大型数据集,已知类别对象的视点估计得到了显着改善,但泛化的已知类别仍然非常具有挑战性。为了提高未知类别的表现,我们引入了类别级别的镜头观点估计问题。我们设计了一个新的框架来成功地为新类别训练视点网络,只有很少的例子(10个或更少)。我们将问题表述为学习估计特定类别的3D扫描形状,相关深度估计和语义2D关键点之一。我们应用元学习来学习我们网络的权重,这些权重是特定于特定类别的微观微调。此外,我们设计了一个灵活的暹罗网络,在元学习过程中最大化信息共享。通过对ObjectNet3D和Pascal3D + benchmark数据集的大量实验,我们证明我们的框架,我们称之为MetaView,明显优于微调状态。 -art模型与fewexamples,我们的方法的具体架构创新是实现良好性能的关键。
translated by 谷歌翻译
人际解剖差异限制了与人无关的凝视估计网络的准确性。然而,需要进一步降低凝血层以使得能够实现更高质量的应用。通过个性化凝视网络可以实现进一步的增益,理想情况下只需很少的校准样本。然而,过度参数化的神经网络并不适用于少数几个例子,因为它们可以快速过度拟合。我们接受了这些挑战,并提出了一种新的少量射击自适应GaZE估计框架(FAZE),用于学习具有极少(少于9个)校准样本的人特定凝视网络。 FAZE学习了一种旋转感知的gazevia潜在表示,一种解缠结的编码器 - 解码器架构以及使用元学习训练的高适应性的估计器。它能够适应任何新人,只需3个样品即可获得显着的性能提升,在GazeCapture上产生3.18度的最先进性能,比现有技术提高19%。
translated by 谷歌翻译
无监督的图像到图像转换方法学习将agiven类中的图像映射到不同类中的类似图像,绘制图像的非结构化(未注册)数据集。虽然非常成功,但是当前的方法需要在训练时访问源类和目标类中的许多图像。我们认为这极大地限制了它们的使用。从人类从一小部分例子中汲取新物体的本质的能力中汲取灵感,并从那里推广,我们寻求一种几乎没有监督的图像到图像的转换算法,该算法可以在之前未指定的目标类上工作,测试时间,只有一些示例图像。我们的模型通过将对抗训练方案与新颖的网络设计相结合来实现这种少数发射能力。通过广泛的实验验证和与基准数据集上的几种基线方法的比较,我们验证了所提出的框架的有效性。代码将在https://nvlabs.github.io/FUNIT上提供。
translated by 谷歌翻译
零件提供了良好的物体中间表示,相对于相机,姿势和外观变化而言是稳健的。现有的部分分割工作由受监督的方法主导,这些方法依赖于大量的手动注释,并且不能概括为看不见的对象类别。我们提出了一种用于分割的自我监督深度学习方法,其中我们设计了几种损失函数,这些函数有助于预测几何集中的部分片段,对于对象变化是鲁棒的,并且在不同的对象实例中在语义上也是一致的。对不同类型的图像集合进行了大量的实验演示与现有的自我监督技术相比,该方法可以生成遵循对象边界的部分片段,并且在对象实例中也更具语义一致性。
translated by 谷歌翻译
在本文中,我们提出了Spatio-TEmporal Progressive(STEP)动作检测器---一种用于视频中时空动作检测的渐进式学习框架。从一些粗略的提议长方体开始,我们的方法逐步完善了针对几步行动的提案。以这种方式,通过利用先前步骤的回归输出,可以在后面的步骤中逐步获得高质量的提议(即,遵守动作运动)。在每一步,我们都会及时自适应地扩展提案,以纳入更多相关的时间背景。与先前在一次运行中执行动作检测的工作相比,我们的渐进式学习框架可以自然地处理动作管内的空间位移,因此为时空建模提供了更有效的方法。我们对UCF101和AVA的方法进行了广泛的评估,并展示了更好的检测结果。值得注意的是,我们通过3个渐进步骤实现了mAP分别为75.0%和18.6%,并且分别仅使用了11和34个初始提案。
translated by 谷歌翻译
由于不同相机的显着级别变化,人员重新识别(重新识别)仍然具有挑战性。最近,人们对利用生成模型来增加训练数据和增强输入变化的不变性产生了浓厚的兴趣。然而,现有方法中的生成管道与判别性重新学习阶段保持相对分离。因此,通常以生成的数据以直接的方式训练re-id模型。在本文中,我们通过更好地利用生成的数据来寻求改进学习的重新嵌入嵌入。为此,我们提出了一个联合学习框架,将端到端的重新学习和数据融合在一起。我们的模型涉及一个生成模块,它将每个人分别编码为外观代码和结构代码,以及与生成模块共享外观编码器的adiscriminative模块。通过切换外观或结构代码,生成模块能够生成高质量的交叉ID组合图像,这些图像在线反馈到外观编码器并用于改进判别模块。提出的联合学习框架在没有基线的情况下显着改善使用生成的数据,在几个基准数据集上实现最先进的性能。
translated by 谷歌翻译
无组织RGB图像的场景重建是许多计算机视觉应用中的重要任务。多视图立体声(MVS)是用于静态场景的密集重建的摄影测量应用中的常见解决方案。然而,静态场景假设限制了MVS算法的一般适用性,因为许多日常场景经历非刚性运动,例如衣服,面部或人体。在本文中,我们开辟了一个新的挑战方向:在视觉,稀疏和宽基线视图中观察到具有非刚性变化的场景的密集3D重建。我们将问题表达为变形和深度估计的联合优化,使用变形图作为基础表示。我们提出了一种新的稀疏3D到2D匹配技术,以及一种密集的补丁匹配评估方案,用光度一致性来估计变形和深度。我们表明,从一些具有非刚性变化的RGB图像创建腺苷四维结构是可能的,并且证明我们的方法可以用于从稀疏视图导出的这些变形估计的各种组合中插入新的变形细胞。
translated by 谷歌翻译
深度感测对于3D重建和场景理解是至关重要的。有源深度传感器提供密集的度量测量,但是经常受到诸如受限操作范围,低空间分辨率,传感器干扰和高功耗的限制。在本文中,我们提出了一种用于从单目视频流连续估计每像素深度及其不确定性的加深学习(DL)方法,目的是有效地将RGB相机转换为RGB-D相机。与先前基于DL的方法不同,我们估计每个像素的深度概率分布而不是单个深度值,从而导致估计每个输入帧的3D深度概率体积。这些深度概率体积在贝叶斯过滤框架下随着时间累积,因为更多的输入帧被顺序处理,这有效地降低了深度不确定性并且提高了准确性,鲁棒性和时间稳定性。与先前的工作相比,所提出的方法实现了更准确和稳定的结果,并且更好地适用于新的数据集。实验结果还表明,可以将ourapproach的输出直接输入到基于经典RGB-D的3D扫描方法中进行三维场景重建。
translated by 谷歌翻译
逆渲染旨在从图像估计物理场景属性(例如,反射率,几何形状和光照)。作为一个长期存在的高度问题,逆渲染主要针对单个3D对象或仅使用仅解决其中一个场景属性的方法进行了研究。据我们所知,我们是第一个提出一种整体方法,用于从具有CNN的单个图像逆向渲染室内场景,其共同估计反射率(反照率和光泽度),表面法线和照明。为了减少标记的真实世界图像,我们创建了一个名为SUNCG-PBR的大规模综合数据集,采用基于物理的渲染,这比以前的数据集有了显着的改进。为了对真实图像进行微调,我们使用重建损失进行自我监督学习,从而合成来自估计分量的输入图像。为了实现对真实数据的自我监督学习,我们的关键贡献是ResidualAppearance渲染器(RAR),它可以被训练以合成复杂的外观效果(例如,相互反射,投射阴影,近场光照和逼真的阴影),这将是实验结果表明,我们的方法优于最先进的方法,特别是在真实图像上。
translated by 谷歌翻译
我们提出极端视图合成,当输入图像的数量很小时,新视图外推的解决方案。在这种背景下,闭塞和深度不确定性是两个最紧迫的问题,并且随着外推程度的增加而恶化。最先进的方法通过平均显式几何约束或学习先验来解决这个问题。我们的关键见解是,只有对深度不确定性和图像先验进行建模才能解决极端情况。我们首先为新视图生成深度概率体积并合成所搜索图像的估计。然后,我们使用学习者与深度不确定性相结合来改进它。我们的方法是第一个显示高达30倍的基线放大倍数的视觉上令人满意的结果。
translated by 谷歌翻译