深度学习最近证明了其出色的多视点立体声(MVS)性能。然而,当前学习的MVS方法的一个主要限制是可伸缩性:消耗存储器的成本量正则化使得学习的MVS难以应用于高分辨率场景。在本文中,我们介绍了一种基于当前神经网络的可扩展多视图立体框架。建议的循环多视图立体网络(R-MVSNet)不是将整个3D成本量合理化,而是通过门控循环单元(GRU)顺序地规划沿深度方向的2D成本图。这大大减少了内存消耗并使高分辨率重建成为可能。我们首先展示了拟议的R-MVSNet在最近的MVS基准测试中所取得的最先进的性能。然后,我们进一步演示了所提出的方法在几个大规模场景中的可扩展性,其中先前学习的方法由于内存约束而失败。代码可以通过以下网址获得://github.com/YoYo000/MVSNet。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
在现实生活中的环境中,由于窗户,灯光和物体突然出现阻挡光源,视觉SLAM系统可以很容易地捕捉由过度曝光或过度黑暗引起的低对比度图像。此时,基于像素亮度信息估计相机运动的直接方法是不可行的,并且通常很难在没有图像处理的情况下找到足够的有效特征点。本文提出了HE-SLAM,一种结合直方图均衡和ORB特征提取的新方法,可以在更多场景中稳健,特别是在具有低对比度图像的阶段。由于HE-SLAM使用直方图均衡来改善图像的对比度,因此它可以在低对比度中提取足够的有效特征点,用于后续特征匹配,关键帧选择,束调整和循环闭包检测。所提出的HE-SLAM已经在流行数据集(例如KITTI和EuRoc)上进行了测试,并且通过比较系统运行时和绝对轨迹误差(ATE)的主题平方根误差(RMSE)来证明系统的实时性能和鲁棒性。使用ORB-SLAM2等最先进的方法。
translated by 谷歌翻译
本文提出了发散三角形作为发电机模型,能量模型和推理模型联合训练的框架。发散三角是一个紧凑且对称(反对称)的目标函数,它在一个统一的概率公式中无缝地整合了变分学习,对抗性学习,唤醒 - 睡眠算法和对比差异。这种统一使得采样,推理,能量评估的过程可以在没有需要昂贵的马尔可夫链蒙特卡罗方法。我们的实验证明,发散三角形能够学习(1)具有良好形成的能量景观的基于能量的模型,(2)以发电机网络的形式进行直接采样,以及(3)前馈推断,忠实地重建观察到的以及合成的数据。发散三角形是一种强大的训练方法,可以从不完整的数据中学习。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
车辆互联网是与D2D通信和物联网相关的有前途的领域。我们提出了一种新的视角,用于车辆通信,社交车辆群,在基于代理的模型的帮助下研究和分析车辆的社会意识网络,旨在揭示表面数据背后隐藏的模式。在讨论了其组件,即其代理,环境和规则之后,我们引入了支持技术和方法,深度强化学习,隐私保护数据挖掘和子云计算,以便有效地检测每个人最重要和最感兴趣的信息,这是关键所在。 。最后,讨论了几个相关的研究课题和挑战。
translated by 谷歌翻译
在本文中,我们通过基于自我约束机制捕获丰富的语境依赖性来解决场景分割任务。与通过多尺度特征融合捕获上下文的先前工作不同,我们提出了一种DualAttention Networks(DANet),以自适应地将本地特征与其全局依赖关系集成。具体来说,我们在传统的扩张FCN上添加了两种类型的注意模块,分别对语义相互依赖性和信道维度进行建模。位置关注模块通过所有位置处的特征的加权和来选择性地聚合每个位置处的特征。无论距离如何,类似的特征都将彼此相关。同时,信道关注模块通过整合所有信道映射之间的关联特征来选择性地强调相互依赖的信道映射。我们对两个注意模块的输出求和,以进一步改进特征表示,这有助于更精确地分割结果。我们在三个具有挑战性的场景分割数据集上实现了新的最先进的分割性能,即Cityscapes,PASCAL Context和COCO Stuff数据集。特别是,在不使用粗略数据的情况下,Cityscapes测试集的平均IoU得分为81.5%。我们在https://github.com/junfu1115/DANet上公开提供代码和训练模型
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
我们提出了一种端到端的深度学习架构,用于从多视图图像中进行深度图推理。在网络中,我们首先提取深度视觉图像特征,然后通过可微分的单应性变形在参考相机上构建3D成本量。接下来,我们应用3D卷积来初始化和回归初始深度图,然后使用参考图像对其进行细化以生成最终输出。我们的框架使用基于方差的成本度量灵活地适应任意N视图输入,该成本度量将多个特征映射到一个成本特征。拟议的MVSNet在大规模室内DTU数据集上进行了演示。通过简单的后处理,我们的方法不仅明显优于以前的技术水平,而且在运行时也快几倍。我们还在复杂的室外Tanksand Temples数据集上评估MVSNet,我们的方法在2018年4月18日之前排名第一,没有进行任何微调,显示出MVSNet强大的泛化能力。
translated by 谷歌翻译