深度学习最近证明了其出色的多视点立体声(MVS)性能。然而,当前学习的MVS方法的一个主要限制是可伸缩性:消耗存储器的成本量正则化使得学习的MVS难以应用于高分辨率场景。在本文中,我们介绍了一种基于当前神经网络的可扩展多视图立体框架。建议的循环多视图立体网络(R-MVSNet)不是将整个3D成本量合理化,而是通过门控循环单元(GRU)顺序地规划沿深度方向的2D成本图。这大大减少了内存消耗并使高分辨率重建成为可能。我们首先展示了拟议的R-MVSNet在最近的MVS基准测试中所取得的最先进的性能。然后,我们进一步演示了所提出的方法在几个大规模场景中的可扩展性,其中先前学习的方法由于内存约束而失败。代码可以通过以下网址获得://github.com/YoYo000/MVSNet。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
我们提出了一种端到端的深度学习架构,用于从多视图图像中进行深度图推理。在网络中,我们首先提取深度视觉图像特征,然后通过可微分的单应性变形在参考相机上构建3D成本量。接下来,我们应用3D卷积来初始化和回归初始深度图,然后使用参考图像对其进行细化以生成最终输出。我们的框架使用基于方差的成本度量灵活地适应任意N视图输入,该成本度量将多个特征映射到一个成本特征。拟议的MVSNet在大规模室内DTU数据集上进行了演示。通过简单的后处理,我们的方法不仅明显优于以前的技术水平,而且在运行时也快几倍。我们还在复杂的室外Tanksand Temples数据集上评估MVSNet,我们的方法在2018年4月18日之前排名第一,没有进行任何微调,显示出MVSNet强大的泛化能力。
translated by 谷歌翻译
The search for predictive models that generalize to the long tail of sensor inputs is the central difficulty when developing data-driven models for autonomous vehicles. In this paper, we use lane detection to study modeling and training techniques that yield better performance on real world test drives. On the modeling side, we introduce a novel fully convolutional model of lane detection that learns to decode lane structures instead of delegating structure inference to post-processing. In contrast to previous works, our convo-lutional decoder is able to represent an arbitrary number of lanes per image, preserves the polyline representation of lanes without reducing lanes to polynomials, and draws lanes iteratively without requiring the computational and temporal complexity of recurrent neural networks. Because our model includes an estimate of the joint distribution of neighboring pixels belonging to the same lane, our formulation includes a natural and computationally cheap definition of uncertainty. On the training side, we demonstrate a simple yet effective approach to adapt the model to new environments using unsupervised style transfer. By training FastDraw to make predictions of lane structure that are invariant to low-level stylistic differences between images, we achieve strong performance at test time in weather and lighting conditions that deviate substantially from those of the annotated datasets that are publicly available. We quantitatively evaluate our approach on the CVPR 2017 Tusim-ple lane marking challenge, difficult CULane datasets [29], and a small labeled dataset of our own and achieve competitive accuracy while running at 90 FPS.
translated by 谷歌翻译
对来自多个人口统计群体的数据进行训练的机器学习模型可以表示可能存在于数据中的表示差异(Hashimoto等,2018):对训练过程贡献较少的群体可能在模型准确性方面遭受更高的损失;这反过来可以降低这些群体中的人口保留率,因为它们对训练过程的离岸模型有贡献,从而加剧了长期的表现差异。在这项研究中,我们试图理解模型准确性与潜在群体之间的相互作用。表示以及它们如何在无限期的顺序决策设置中发展,以及公平机器学习的使用如何在这个过程中发挥作用。使用简单的用户动态(arrivaland离开)模型,我们描述了在决策过程的每个阶段强加的一套公平标准下使用机器学习模型的长期性质,包括常用的统计平价和平等机会公平性。我们表明,在这个特定的到达/离开模型下,这两个标准都导致表示差异加剧加剧,导致群体完全从样本池中减少,而均衡损失的标准则更好。我们的结果突出了这样一个事实,即公平性不能在更大的反馈循环之外定义,在这种反馈循环中,用户采取过多的行动(他们要么接受算法做出的决策,要么用数据来训练算法或两者)将确定未来的观察和决策。
translated by 谷歌翻译
变形金刚是强大的序列模型,但需要时间和内存与序列长度呈二次方式。在本文中,我们引入了关注矩阵的稀疏因子,将其减少到$ O(n \ sqrt {n})$。我们还介绍了a)对训练深度网络的体系结构和初始化的变化,b)重新计算注意矩阵以节省内存,以及c)用于训练的快速注意内核。我们称这些变化为稀疏变形金刚的网络,并表明它们可以使用数百层来模拟数万次步长的序列。我们使用相同的架构来处理来自原始字节的模式图像,音频和文本,为Enwik8,CIFAR-10和ImageNet-64的密度建模设置了新的技术水平。我们生成了证明全局一致性和多样性的非条件样本,并且表明原则上可以将自我关注用于长度为一百万或更多的模型序列。
translated by 谷歌翻译
包含存储器的递归神经网络(RNN),长短期存储器网络(LSTM)和存储器网络被广泛用于学习模式无序数据。序列数据具有保持关系的长序列.RNN可以处理长序列,但遭受消失和爆炸梯度问题的困扰。虽然LSTM和其他存储器网络解决了这个问题,但它们不能处理长序列(50个或更多数据点长序列模式)。需要从较长序列学习的语言建模受到在存储器中需要更多信息的影响。本文介绍了长期记忆网络(LTM),它可以解决爆炸和消失的梯度问题,并且可以不遗忘地处理长序列。 LTM被设计为在存储器中缩放数据并且对序列中的输入赋予更高的权重。 LTM在达到最佳结果后通过缩放单元状态来避免过度拟合。 LTM在Penn树库数据集上进行测试,Text8dataset和LTM分别达到83和82的测试困惑度。对于Penn树库,650 LTMcells实现了67的测试困惑,并且600个单元为Text8实现了77的测试困惑。 LTM通过仅为两个数据集使用十个隐藏的LTM单元来实现最先进的结果。
translated by 谷歌翻译