深度学习最近证明了其出色的多视点立体声(MVS)性能。然而,当前学习的MVS方法的一个主要限制是可伸缩性:消耗存储器的成本量正则化使得学习的MVS难以应用于高分辨率场景。在本文中,我们介绍了一种基于当前神经网络的可扩展多视图立体框架。建议的循环多视图立体网络(R-MVSNet)不是将整个3D成本量合理化,而是通过门控循环单元(GRU)顺序地规划沿深度方向的2D成本图。这大大减少了内存消耗并使高分辨率重建成为可能。我们首先展示了拟议的R-MVSNet在最近的MVS基准测试中所取得的最先进的性能。然后,我们进一步演示了所提出的方法在几个大规模场景中的可扩展性,其中先前学习的方法由于内存约束而失败。代码可以通过以下网址获得://github.com/YoYo000/MVSNet。
translated by 谷歌翻译
准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
我们提出了一种端到端的深度学习架构,用于从多视图图像中进行深度图推理。在网络中,我们首先提取深度视觉图像特征,然后通过可微分的单应性变形在参考相机上构建3D成本量。接下来,我们应用3D卷积来初始化和回归初始深度图,然后使用参考图像对其进行细化以生成最终输出。我们的框架使用基于方差的成本度量灵活地适应任意N视图输入,该成本度量将多个特征映射到一个成本特征。拟议的MVSNet在大规模室内DTU数据集上进行了演示。通过简单的后处理,我们的方法不仅明显优于以前的技术水平,而且在运行时也快几倍。我们还在复杂的室外Tanksand Temples数据集上评估MVSNet,我们的方法在2018年4月18日之前排名第一,没有进行任何微调,显示出MVSNet强大的泛化能力。
translated by 谷歌翻译
长非编码RNA(lncRNA)是一类非编码RNA,在几种生物过程中起着重要作用。基于RNA-seq的转录组测序已广泛用于鉴定lncRNA。然而,准确鉴定RNA-seq数据集中的lncRNA对于探索基因组中的特征功能至关重要,因为大多数编码潜在计算(CPC)工具无法在转录组数据中准确识别它们。众所周知的CPC工具,如CPC2,lncScore,CPAT主要用于基于GENCODE,NONCODE和CANTATAdbdatabases预测lncRNAs。在转录数据集上进行测试时,这些工具的预测精度通常会下降。这导致更高的假阳性结果和功能注释过程中的不准确性。在本研究中,我们提出了一种用于鉴定植物RNA-seq数据集中lncRNA的新工具PLIT.PLIT实现了一种基于L1正则化和随机随机森林(iRF)分类的特征选择方法,用于选择最佳特征。基于序列和密码子偏好特征,它将RNA-seqderived FASTA序列分类为编码或长非编码转录物。使用L1regularization,基于来自8种植物物种的lncRNA和蛋白质编码转录物获得31个最佳特征。使用10倍交叉验证在7种植物RNA-seq数据集上评估该工具的性能。当针对当前可用的最新CPC工具进行评估时,该分析表现出极高的准确性。
translated by 谷歌翻译
长期短期记忆(LSTM)在广泛的任务中取得了最先进的表现。其完美的性能由完美匹配顺序数据的长期存储能力和控制信息流的门控结构保证。然而,LSTM在实际应用中容易受到带内存带宽的限制,并且随着模型尺寸的不断增加,需要无法忍受的训练和推理时间。解决这个问题,已经提出了各种有效的模型压缩方法。他们中的大多数都需要一个庞大且昂贵的预训练模型,这对于资源有限的设备来说是极其重要的,因为内存预算是严格限制的。为了解决这种情况,在本文中,我们将稀疏进化训练(SET)程序结合到LSTM中,提出了一个名为SET-LSTM的新模型。 SET-LSTM不是以完全连接的架构开始,而是具有稀疏拓扑,并且在两个阶段,训练和推理中都显着减少了参数。考虑到LSTM的特定体系结构,放置LSTM单元并嵌入具有稀疏结构的层,并使用进化策略来使稀疏连接适应数据。此外,我们发现SET-LSTM可以提供许多不同的稀疏连接的良好组合。替代密集神经网络的过度参数化优化问题。通过对四个情感分析分类数据集的评估,结果表明我们提出的模型能够实现比其完全连接的部件更好的性能,同时其参数少于4%。
translated by 谷歌翻译
在电子商务业务中,生成准确可靠的销售预测至关重要。当前最先进的技术通常是单变量的方法,其仅考虑单个产品的历史销售数据来产生预测。然而,在大量相关时间序列可用的情况下,调整单个时间序列对类似相关时间序列的过去行为的预测可能是有益的。认为电子商务平台中的产品分类层次包含大量相关的在销售需求模式可以相关的产品中,我们的尝试是将这些跨系列信息整合到一个统一的模型中。我们通过全球培训长期短期记忆网络(LSTM)来实现这一目标,该长期记忆网络利用了电子商务产品分类层次结构中可用的非线性需求关系。除了预测引擎,我们还提出了一个系统的预处理框架,以克服电子商务环境中的挑战。在产品组合中的销售模式不同的情况下,我们还介绍了几种产品分组策略,以补充LSTM学习方案。我们根据Walmart.com的实际在线市场数据集对经过验证的预测框架进行了实证评估。我们的方法在类别级别和超级部门级别数据集上实现了竞争结果,超越了最先进的技术。
translated by 谷歌翻译
创建反映长文本内容的图像是一个复杂的过程,需要一种创造力。例如,根据其摘要或基于其食谱的食物图像创建书籍封面或amovie海报。在本文中,我们提出了从长文本生成图像的新任务,即不直接描述图像的可视内容。为此,我们建立了一个系统,用于生成高分辨率的256美元,价格为256美元的食谱。配方文本(没有itstitle)与图像的视觉内容之间的关系是模糊的,配方的文本结构是复杂的,由两个包含多个句子的部分(成分和指令)组成。我们使用recipe1M数据集来训练和评估基于StackGAN-v2架构的模型。
translated by 谷歌翻译