深度学习最近证明了其出色的多视点立体声(MVS)性能。然而,当前学习的MVS方法的一个主要限制是可伸缩性:消耗存储器的成本量正则化使得学习的MVS难以应用于高分辨率场景。在本文中,我们介绍了一种基于当前神经网络的可扩展多视图立体框架。建议的循环多视图立体网络(R-MVSNet)不是将整个3D成本量合理化,而是通过门控循环单元(GRU)顺序地规划沿深度方向的2D成本图。这大大减少了内存消耗并使高分辨率重建成为可能。我们首先展示了拟议的R-MVSNet在最近的MVS基准测试中所取得的最先进的性能。然后,我们进一步演示了所提出的方法在几个大规模场景中的可扩展性,其中先前学习的方法由于内存约束而失败。代码可以通过以下网址获得://github.com/YoYo000/MVSNet。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
我们提出了一种端到端的深度学习架构,用于从多视图图像中进行深度图推理。在网络中,我们首先提取深度视觉图像特征,然后通过可微分的单应性变形在参考相机上构建3D成本量。接下来,我们应用3D卷积来初始化和回归初始深度图,然后使用参考图像对其进行细化以生成最终输出。我们的框架使用基于方差的成本度量灵活地适应任意N视图输入,该成本度量将多个特征映射到一个成本特征。拟议的MVSNet在大规模室内DTU数据集上进行了演示。通过简单的后处理,我们的方法不仅明显优于以前的技术水平,而且在运行时也快几倍。我们还在复杂的室外Tanksand Temples数据集上评估MVSNet,我们的方法在2018年4月18日之前排名第一,没有进行任何微调,显示出MVSNet强大的泛化能力。
translated by 谷歌翻译
Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
在本文中,我们提出了一种不精确的块坐标下降算法,用于大规模非光滑非凸优化问题。在每次迭代中,通过不精确地求解关于该块变量的原始优化问题来选择和更新特定块变量。更准确地说,解决了原始优化问题的局部近似。所提出的算法具有几个吸引人的特征,即,i)高灵活性,因为近似函数仅需要严格凸起,并且不必是原始函数的全局上界; ii)快速收敛,因为近似函数可以设计为利用手头的问题结构并且通过线搜索计算步长; iii)低复杂度,因为近似子问题更容易解决并且线搜索方案在a上执行适当构造的不同功能; iv)即使目标函数不具有Lipschitz连续梯度,也保证收敛到静止点。有趣的是,当通过下降算法求解近似子问题时,即使通过终止不完全解决了近似子问题,仍然可以保证收敛到静止点。经过有限次迭代后的下降算法。这些特征使得所提出的算法适用于尺寸超过现有硬件的主题和/或处理能力的大规模问题。这些特征还通过信号处理和机器学习中的若干应用来说明,例如,网络异常检测和相位检索。
translated by 谷歌翻译
法律判断预测(LJP)是根据案件的事实描述确定判断结果。 LJP通常由多个子任务组成,例如适用的法律文章预测,收费预测和惩罚预测的期限。这些多个子任务具有拓扑依赖性,其结果相互影响和验证。然而,现有方法低效地使用多个子任务之间的结果的依赖性。此外,对于具有相似描述但不同处罚的情况,当前方法无法准确预测,因为忽略了单词配置信息。本文基于子任务之间的拓扑结构,提出了一种具有WordCollocation Attention机制的多视角双反馈网络。具体来说,我们设计了一个多视角前向预测和后向验证框架,以有效地利用多个子任务之间的结果依赖性。为了区分具有相似描述但不同的情况的情况,我们通过注意机制将事实描述的单词搭配特征整合到网络中。实验结果表明,我们的模式在所有预测任务的基线上都有显着的改进。
translated by 谷歌翻译
由于Web上用户生成的视频的爆发,有效地查找用户想要的视频内容的需求正在增加。基于现有关键字或基于内容的视频检索方法通常决定视频中的哪些内容,而不是何时何地。在本文中,我们通过制定新任务,即时空视频重新定位来回答何时何地的问题。具体地,给定查询视频和参考视频,时空视频重新定位的目的在于参考视频中的局部小块,使得小管在语义上对应于查询。为了准确地定位参考视频中所需的小管,我们提出了一种新颖的扭曲LSTM网络,该网络长时间传播时空信息,从而捕获相应的长期依赖性。时空视频定位的另一个问题是缺乏适当标记的视频数据集。因此,组织AVA数据集中的视频以形成新的数据集forspatio-temporal视频重新定位研究。大量的实验结果表明,所提出的模型在时空视频重定位任务上实现了优于设计基线的性能。
translated by 谷歌翻译