我们提出极端视图合成,当输入图像的数量很小时,新视图外推的解决方案。在这种背景下,闭塞和深度不确定性是两个最紧迫的问题,并且随着外推程度的增加而恶化。最先进的方法通过平均显式几何约束或学习先验来解决这个问题。我们的关键见解是,只有对深度不确定性和图像先验进行建模才能解决极端情况。我们首先为新视图生成深度概率体积并合成所搜索图像的估计。然后,我们使用学习者与深度不确定性相结合来改进它。我们的方法是第一个显示高达30倍的基线放大倍数的视觉上令人满意的结果。
translated by 谷歌翻译
迄今为止,表现最佳的光流估计方法仅考虑成对的连续帧。虽然优雅和吸引人,但使用两个以上框架的想法尚未产生最先进的结果。我们提出了一种简单而有效的多帧光流融合方法,可以从长期的时间线索中受益。我们的方法首先使从先前帧到当前帧的光流变形,从而产生多个合理的估计。然后,它将这些估计所携带的补充信息融合到一个新的光流场中。在提交时,我们的方法首先在MPI Sintel和KITTI 2015benchmarks中发布的流程方法中。
translated by 谷歌翻译
场景运动,多次反射和传感器噪声在由飞行时间相机执行的深度重建中引入伪像。我们提出了两阶段,深度学习的方法,以同时解决所有这些工件来源。我们还介绍了FLAT,这是一个2000 ToF测量的合成数据集,可以捕获所有这些非理想性,并允许模拟不同的相机硬件。使用Kinect 2相机作为基线,我们在模拟和实际数据上显示了对最先进方法的重建错误。
translated by 谷歌翻译
由常见的半反射器(例如玻璃窗)引起的反射会影响计算机视觉算法的性能。最先进的方法可以消除合成数据和受控场景中的反射。然而,它们基于强烈的假设,并没有很好地概括为现实世界的图像。与常见的误解相反,当使用极化信息时,真实世界的图像是挑战性的。我们提出了一种深度学习方法来分离记录光辐射的反射和透射分量,它们明确地使用了光的偏振特性。为此,我们引入了一个精确的合成数据生成管道,它模拟了真实的反射,包括由曲面和非理想曲面,非静态场景和高动态范围场景生成的反射。
translated by 谷歌翻译
当前维数减少或检索技术的大多数依赖于将学习的特征表示嵌入到可计算的度量空间中。一旦映射了学习的特征,距离度量就有助于类似实例之间的间隙桥接。由于缩放投影在这些方法中被开发,因此在超空间上的判别嵌入成为挑战。在本文中,我们建议按比例向内扩展特征表示,以将它们投射到超球面流形上以进行判别分析。我们进一步提出了一种新颖但更简单的基于卷积神经网络的体系结构,并在分类和检索任务的背景下广泛评估所提出的方法,以获得与最先进技术相当的结果。
translated by 谷歌翻译
多模态方法使用来自多个输入流的数据,例如文本和可视域。深度神经网络已成功用于这些方法。在本文中,我们提出了一种新的多模态方法,它融合了图像和文本描述,以改善现实世界场景中的多模态分类性能。所提出的方法将编码文本合并到图像上以获得信息丰富的图像。为了学习所得图像的特征表示,标准卷积神经网络(CNN)被用于分类任务。我们证明了基于CNN的管道可用于学习新融合方法的表示。我们将我们的方法与两个大规模多模态分类数据集上的各个来源进行比较,同时获得令人鼓舞的结果。此外,我们评估我们针对两种着名的多模态策略的方法,即早期融合和晚期融合。
translated by 谷歌翻译
我们用这项工作回答的问题是:我们可以将文本文档转换为图像,以利用最佳图像分类模型对文档进行分类吗?为了解决这个问题,我们提出了一种新颖的文本分类方法,该方法使用词汇嵌入和卷积神经网络(CNN)的能力将文本文档转换为编码图像,成功应用于图像分类。我们通过在文本分类的一些众所周知的基准数据集中获得有希望的结果来评估我们的方法。这项工作允许将为计算机视觉开发的许多先进CNN架构应用于自然语言处理。我们在多模态数据集上测试所提出的方法,证明可以使用单个深度模型来表示同一特征空间中的文本和图像。
translated by 谷歌翻译
卷积神经网络(CNN)已经广泛用于计算机视觉任务,例如人脸识别和验证,并且由于它们捕获辨别性深度特征的能力而已经获得了最先进的结果。传统上,CNN已经用softmax作为监督信号进行训练以惩罚分类损失。为了进一步增强深度特征的可控性,我们引入了联合超级信号Git loss,它利用了softmax和中心损失函数。我们的损失函数的目标是最小化类内变化以及最大化类间距离。这种最小化和最大化深度特征被认为是面部识别任务的理想选择。我们在两个流行的人脸识别基准数据集上进行实验,并表明我们提出的损失函数实现了不同身份的深层特征之间的最大可分离性,并在两个主要的人脸识别基准数据集上实现了最先进的准确度:野外标记面(LFW)和YouTubeFaces(YTF)。然而,应该指出的是,Git lossis的主要目标是实现不同的深层特征之间的最大可分离性。
translated by 谷歌翻译
本文提出了一种利用图像和文本编码的跨模态检索系统。大多数多模式体系结构采用独立的网络模式来捕获它们之间的语义关系。然而,在工作图像文本编码中,可以在跨模态检索方面获得可比较的结果,而不必为每个模态使用单独的网络。我们证明了文本编码可以捕获多种模态之间的语义关系。据我们所知,这项工作是第一个使用单一网络和融合图像文本嵌入进行跨模态检索的工作。我们在两个着名的多模态数据集上评估我们的方法:MS-COCO和Flickr30K。
translated by 谷歌翻译