准确的相对姿势是视觉测距(VO)和同时定位和映射(SLAM)的关键组成部分之一。最近,联合优化相对姿态和目标图像深度的自我监督学习框架引起了社会的关注。以前的工作依赖于相邻帧之间的深度和姿势产生的光度误差,其由于反射表面和遮挡而在真实场景下包含大的系统误差。在本文中,我们通过在自我监督的框架中引入由极性几何约束的匹配损失来弥合几何损耗和光度损失之间的差距。在KITTIdataset上进行评估,我们的方法大大超过了最先进的无监督自我运动估计方法。代码和数据可从以下网址获得://github.com/hlzz/DeepMatchVO。
translated by 谷歌翻译
本文提出了一种新的判别回归方法,称为自适应保守回归(ALPR)进行分类。特别是,ALPR的目的是学习更灵活和有区别的预测,不仅要保留数据的内在结构,还要具有特征选择和可解释性。为此,我们引入了一种目标学习技术,以自适应地学习更具辨别力和灵活性的目标矩阵,而不是用于回归的预定义的严格零 - 一标签矩阵。然后进一步引入由自适应学习权重正则化的局部保持约束来指导投影学习,这有利于学习更具辨别性的投影并避免过度拟合。而且,我们用特殊的l21norm代替传统的“Frobenius范数”来约束投影,这使得该方法能够从原始高维数据中自适应地选择最重要的特征以进行特征提取。这样,可以大大消除冗余特征和驻留在原始数据中的噪声的负面影响。此外,由于l21范数的稀疏性,所提出的方法对特征具有良好的可解释性。在具有多种结构的合成数据库和许多现实世界数据库上进行的大量实验证明了该方法的有效性。
translated by 谷歌翻译
卷积神经网络(CNNs)在物体图像检索方面取得了卓越的性能,而具有手工制作的局部特征的Bag-of-Words(BoW)模型仍然主导着3D重建中重叠图像的检索。在本文中,我们通过提供有效的基于CNN的方法来检索具有重叠的图像来缩小这一差距,我们将其称为可匹配的图像检索问题。与以往基于稀疏重构生成训练数据的方法不同,我们创建了一个具有丰富三维几何的大规模图像数据库,并利用表面重构的信息来获得细粒度的训练数据。我们提出了一种基于batchedtriplet的损失函数与网格重投影相结合,以有效地学习CNN表示。所提出的方法显着加速了3D重建中的图像检索过程,并且优于用于可匹配图像检索的最先进的基于CNN和BoW的方法。代码和数据可从https://github.com/hlzz/mirror获得。
translated by 谷歌翻译
基于卷积神经网络(CNN)的学习局部描述符已经在基于补丁的基准测试中取得了显着的改进,而在基于图像的3D重建的最近基准测试中没有具备强大的泛化能力。在本文中,我们通过提出新的局部描述符学习方法来缓解这种限制,该方法集成了来自多视图重建的几何约束,这有利于数据生成,数据采样和损失计算方面的学习过程。我们将提出的描述符称为GeoDesc,并展示其在各种大型基准测试中的卓越性能,特别是在具有挑战性的重建任务方面取得了巨大成功。此外,我们提供了关于学习描述符在结构动态(SfM)管道中的实际集成的指南,显示了GeoDesc在准确性和效率之间为3D重构任务提供的良好折衷。
translated by 谷歌翻译
点云注册的关键是在3D空间中的点之间建立一组准确的对应关系。通信问题一般通过判别式3D局部描述符的设计和另一方面稳健匹配策略的发展来解决。在这项工作中,我们首先提出了一个多视图本地描述符,它是从多个视图的图像中获取的,用于3D关键点的描述。然后,我们开发了一种强大的匹配方法,旨在基于通过信念的有效推理来拒绝异常匹配。在定义的图形模型上传播。我们已经证明了我们在公共扫描和多视图立体数据集上注册的方法的推进。通过对多种描述符和匹配方法的深入比较,验证了优越的性能。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
我们提出了MedSim,一种基于Publicwell建立的生物医学知识图(KGs)和大规模语料库的新型语义相似性方法,研究抗生素的治疗替代。除了KGs的层次结构和语料库外,MedSim还通过构建多维医学特定的特征向量来进一步解释医学特征。采用医生评分的528种抗生素对数据集进行评价,MedSim与其他语义相似性方法相比具有统计学上的显着改善。此外,还提出了MedSim在药物替代和药物滥用预防方面的一些有希望的应用。
translated by 谷歌翻译
近十年来,随着深度卷积神经网络(CNN)的发展,许多最先进的图像分类和音频分类算法取得了显着的成功。但是,大多数工作只利用单一类型的训练数据。在本文中,我们通过利用CNN对视觉(图像)和音频(声音)数据的组合来对鸟类进行分类的研究,该CNN已被稀疏地处理。具体而言,我们提出了基于CNN的融合策略(早期,中期,晚期)类型的多模态学习模型,以解决组合训练数据跨域的问题。我们提出的方法的优点在于我们可以利用CNN不仅从图像和音频数据(频谱图)中提取特征,而且还可以跨特征模式组合特征。在实验中,我们在综合CUB-200-2011标准数据集上训练和评估网络结构,结合我们最初收集的关于数据种类的音频数据集。我们观察到,利用两种数据的组合的模型优于仅用任何类型的数据训练的模型。我们还表明,转移学习可以显着提高分类性能。
translated by 谷歌翻译
MixUp是一种通过混合随机样本的数据增强方法,已经显示出能够显着提高当前深度神经网络技术的预测准确性。然而,MixUp的力量大多是凭经验建立的,其工作和有效性在任何深度都没有解释。在本文中,我们对MixUp进行了理论上的理解,将其作为流形外正则化的一种形式,它将输入空间上的模型限制在数据流形之外。这项分析研究还使我们能够识别由流形侵入引起的MixUp限制,合成样本与歧管的实际例子相撞。这种侵入行为导致过度正规化,从而不合适。为了解决这个问题,我们进一步提出了一种新颖的正则化器,其中混合策略从数据中自适应地学习,并且包含多种入侵损失以避免与数据流形的冲突。我们使用几个基准数据集凭经验证明了我们的正则化器在超深度分类模型和MixUp的过度避免和精度改进方面的有效性。
translated by 谷歌翻译
通过主动选择小批量,可以提高随机梯度下降(SGD)的收敛速度。我们探索了在同一小批量中不太可能选择类似数据点的抽样方案。特别是,我们证明这种排斥采样方案降低了梯度测量仪的方差。这概括了最近关于将小批量多样化(Zhang et al。,2017)的决定点过程(DPP)用于更广泛的排斥点过程的工作。我们首先表明,通过多样化抽样的方差减少现象特别推广到非平稳点过程。然后,我们表明其他点过程在计算上可能比DPP更有效。特别是,我们提出并研究了泊松盘采样---计算机图形社交中经常遇到的---用于此任务。我们凭经验证明,我们的方法在收敛速度和最终模型性能方面都提高了标准SGD。
translated by 谷歌翻译