深度学习最近证明了其出色的多视点立体声(MVS)性能。然而,当前学习的MVS方法的一个主要限制是可伸缩性:消耗存储器的成本量正则化使得学习的MVS难以应用于高分辨率场景。在本文中,我们介绍了一种基于当前神经网络的可扩展多视图立体框架。建议的循环多视图立体网络(R-MVSNet)不是将整个3D成本量合理化,而是通过门控循环单元(GRU)顺序地规划沿深度方向的2D成本图。这大大减少了内存消耗并使高分辨率重建成为可能。我们首先展示了拟议的R-MVSNet在最近的MVS基准测试中所取得的最先进的性能。然后,我们进一步演示了所提出的方法在几个大规模场景中的可扩展性,其中先前学习的方法由于内存约束而失败。代码可以通过以下网址获得://github.com/YoYo000/MVSNet。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
面部解析,即为面部图像中的每个像素分配语义标签,最近由于其巨大的应用潜力而引起了越来越多的关注。尽管许多面部相关领域(例如,面部识别和面部检测)已经被很好地研究多年,但是现有的用于面部解析的数据集在尺度和质量方面仍然受到严格限制,例如,广泛使用的Helen数据集仅包含2,330个图像。这主要是因为像素级注释是一项成本高且耗时的工作,特别是对于没有明确边界的面部部位。缺乏准确的注释数据集成为面部解析任务进展的主要障碍。利用密集的面部标志来指导解析注释是一种可行的方法。然而,在人脸上注释密集的地标会遇到与解析注释相同的问题。为了克服上述问题,在本文中,我们开发了一个高效的faceparsing注释框架,它通过两个连续的模块大大简化和加速了解析注释。受益于拟议的框架,我们构建了一个新的Dense Landmark Guided Face Parsing(LaPa)基准。它包含22,000个面部图像,表情,姿势,遮挡等方面有很大变化。每个图像都提供了精确的11类像素级标签贴图注释以及106点标记的坐标。据我们所知,它是目前最大的面部解析publicdataset。为了充分利用具有丰富面形和边界先验的LaPa数据集,我们提出了一种简单而有效的边界敏感解析网络(BSPNet)。我们的网络被视为提议的LaPa数据集的基线模型,同时,它在Helen数据集上实现了最先进的性能,而无需借助于外部对齐。
translated by 谷歌翻译
众所周知,人类可以从几个有限的图像样本中有效地学习和识别物体。然而,从一些图像中学习对现有的主流深度神经网络来说是一个巨大的挑战。在人类思维中通过类比推理的启发,一个可行的策略是翻译丰富的源域的丰富图像,以丰富相关的不同目标域。图像数据不足。为了实现这一目标,我们提出了一种基于部分全局学习的新颖,有效的多对抗框架(MA),它实现了一次性跨域图像到图像的翻译。具体而言,我们首先设计一个部分全球对抗性训练方案,以提供一种有效的特征提取方法,并防止歧视者过度拟合。然后,采用多对抗机制来增强图像到图像的翻译能力,以挖掘高级语义表示。此外,还提出了平衡的对抗性损失功能,旨在平衡训练数据和稳定训练过程。大量实验表明,所提出的方法可以在两个极度不平衡的图像域之间的各种数据集上获得令人印象深刻的结果,并且在一次性图像到图像转换方面优于最先进的方法。
translated by 谷歌翻译
在线图像散列最近受到越来越多的研究关注,其以流方式接收大规模数据以即时更新散列函数。其主要挑战在于难以平衡学习时效性和模型准确性。为此,大多数工作都利用了监督设置,即使用类标签来提高散列性能,这在两个方面存在缺陷:首先,需要大量的训练批次来学习最新的散列函数,然而这大大增加了学习复杂。其次,使用强约束,例如正交或相似保持,然而这些约束通常是放松的并且导致大的精度下降。为了应对上述挑战,本文提出了一种名为Hadamard Matrix Guided Online Hashing(HMOH)的小型监督在线哈希方案。我们的关键创新在于哈达马尔矩阵的构造和使用,这是一种正交二进制矩阵,是通过西尔维斯特方法构建的。为了释放强约束的需要,我们将Hadamard矩阵的每一列视为每个类标签的目标代码,其中bynature满足散列代码的几个所需属性。为了加速在线训练,首先采用LSH来对齐目标代码的长度和待学习的二进制代码。然后,我们将哈希函数的学习视为一组二进制分类问题,以适应指定的目标代码。最后,我们建议在所有轮次中集成学习模型,以最大限度地保留过去流数据的信息。通过对三种广泛使用的数据集进行深入的实验,与各种最先进的方法进行比较,证明了所提方法的优越性和效率。
translated by 谷歌翻译
序列模型将概率分配给可变长度序列,例如自然语言文本。序列模型捕获时间依赖性的能力可以通过相关性和相互信息的时间缩放来表征。在本文中,我们研究了周期性神经网络(RNNs)的互信息,包括长期短期记忆和变形金刚等自我关注网络。通过线性RNN的理论研究和非线性RNN的实证研究相结合,我们发现它们的相互信息在时间距离上呈指数衰减。另一方面,变形金刚可以更有效地捕获远程互信息,这使得它在具有慢幂律互信息的建模序列中更为可取,例如自然语言和股票价格。我们讨论这些结果与统计力学的联系。我们还指出了许多自然语言数据集中的非一致性问题。我们希望这项工作能够为理解序列模型的表达能力提供新的视角,并为改进它们的架构提供新的视角。
translated by 谷歌翻译
在这项工作中,我们研究了基于CNN + RNN的图像字幕系统遭受对抗性噪声的鲁棒性。我们建议愚弄图像捕捉系统,为受到对抗性噪音污染的图像生成一些目标部分字幕,即使目标字幕与图像内容完全相关。部分标题表示观察到该标题中某些位置的单词,而其他位置的单词不受限制。这是研究目标部分标题的精确对抗攻击的第一项工作。由于词汇之间的顺序依赖关系,我们将目标部分词汇的对抗性噪声的产生表示为具有潜在变量的结构化输出学习问题。然后采用广义期望最大化算法和带有变量的结构SVM来优化问题。所提出的方法为三种流行的基于CNN + RNN的图像捕获模型生成非常成功的攻击。此外,所提出的攻击方法用于理解图像字幕系统的内部机制,为进一步改进人工自动图像字幕系统提供指导。
translated by 谷歌翻译