Many challenges from natural world can be formulated as a graph matching problem. Previous deep learning-based methods mainly consider a full two-graph matching setting. In this work, we study the more general partial matching problem with multi-graph cycle consistency guarantees. Building on a recent progress in deep learning on graphs, we propose a novel data-driven method (URL) for partial multi-graph matching, which uses an object-to-universe formulation and learns latent representations of abstract universe points. The proposed approach advances the state of the art in semantic keypoint matching problem, evaluated on Pascal VOC, CUB, and Willow datasets. Moreover, the set of controlled experiments on a synthetic graph matching dataset demonstrates the scalability of our method to graphs with large number of nodes and its robustness to high partiality.
translated by 谷歌翻译
大多数以前的基于学习的图形匹配算法通过丢弃一个或多个匹配约束并采用放宽的分配求解器来获取次优关卡的\ Textit {二次分配问题}(QAP)。这种放松可能实际上削弱了原始的图形匹配问题,反过来伤害了匹配的性能。在本文中,我们提出了一种基于深度学习的图形匹配框架,其适用于原始QAP而不会影响匹配约束。特别地,我们设计一个亲和分分配预测网络,共同学习一对亲和力并估计节点分配,然后我们开发由概率亲和力的可分辨率的求解器,其灵感来自对成对亲和力的概率视角。旨在获得更好的匹配结果,概率求解器以迭代方式精制估计的分配,以施加离散和一对一的匹配约束。所提出的方法是在三个普遍测试的基准(Pascal VOC,Willow Object和Spair-71K)上进行评估,并且在所有基准上表现出所有先前的最先进。
translated by 谷歌翻译
近年来,由通过图表神经网络(GNN)模型的学习鉴别表现来源,深图形匹配方法在匹配语义特征的任务中取得了很大的进展。然而,这些方法通常依赖于启发式生成的图形模式,这可能引入不可靠的关系来损害匹配性能。在本文中,我们提出了一个名为Glam的联合\ EMPH {图学习和匹配}网络,以探索用于升压图形匹配的可靠图形结构。 Glam采用纯粹的关注框架,用于图形学习和图形匹配。具体而言,它采用两种类型的注意机制,自我关注和横向于任务。自我关注发现功能之​​间的关系,并通过学习结构进一步更新功能表示;并且横向计算要与特征重建匹配的两个特征集之间的横谱图相关性。此外,最终匹配解决方案直接来自横向层的输出,而不采用特定的匹配决策模块。所提出的方法是在三个流行的视觉匹配基准(Pascal VOC,Willow Object和Spair-71K)上进行评估,并且在以前的最先进的图表匹配方法中通过所有基准测试的重要利润率。此外,我们的模型学习的图形模式被验证,通过用学习的图形结构替换其手工制作的图形结构,能够显着增强先前的深度图匹配方法。
translated by 谷歌翻译
In this paper, we study a novel and widely existing problem in graph matching (GM), namely, Bi-level Noisy Correspondence (BNC), which refers to node-level noisy correspondence (NNC) and edge-level noisy correspondence (ENC). In brief, on the one hand, due to the poor recognizability and viewpoint differences between images, it is inevitable to inaccurately annotate some keypoints with offset and confusion, leading to the mismatch between two associated nodes, i.e., NNC. On the other hand, the noisy node-to-node correspondence will further contaminate the edge-to-edge correspondence, thus leading to ENC. For the BNC challenge, we propose a novel method termed Contrastive Matching with Momentum Distillation. Specifically, the proposed method is with a robust quadratic contrastive loss which enjoys the following merits: i) better exploring the node-to-node and edge-to-edge correlations through a GM customized quadratic contrastive learning paradigm; ii) adaptively penalizing the noisy assignments based on the confidence estimated by the momentum teacher. Extensive experiments on three real-world datasets show the robustness of our model compared with 12 competitive baselines.
translated by 谷歌翻译
在许多领域,包括计算机视觉和模式识别的许多领域,图形匹配(GM)一直是一个基础。尽管最近取得了令人印象深刻的进展,但现有的深入GM方法通常在处理这两个图中的异常值方面都有困难,这在实践中无处不在。我们提出了基于加权图匹配的基于深的增强学习(RL)方法RGM,其顺序节点匹配方案自然适合选择性嵌入式匹配与异常值的策略。设计了可撤销的动作方案,以提高代理商在复杂受约束的匹配任务上的灵活性。此外,我们提出了一种二次近似技术,以在存在异常值的情况下使亲和力矩阵正常化。因此,当目标得分停止增长时,RL代理可以及时完成匹配,否则,否则会有额外的超参数,即需要常见的嵌入式数量来避免匹配异常值。在本文中,我们专注于学习最通用的GM形式的后端求解器:Lawler's QAP,其输入是亲和力矩阵。我们的方法还可以使用亲和力输入来增强其他求解器。合成和现实世界数据集的实验结果展示了其在匹配准确性和鲁棒性方面的出色性能。
translated by 谷歌翻译
在这项工作中,我们提出了一个新颖的基于学习的框架,该框架将对比度学习的局部准确性与几何方法的全球一致性结合在一起,以实现强大的非刚性匹配。我们首先观察到,尽管对比度学习可以导致强大的点特征,但由于标准对比度损失的纯粹组合性质,学到的对应关系通常缺乏平滑度和一致性。为了克服这一局限性,我们建议通过两种类型的平滑度正则化来提高对比性学习,从而将几何信息注入对应学习。借助这种新颖的组合,所得的特征既具有跨个别点的高度歧视性,又可以通过简单的接近查询导致坚固且一致的对应关系。我们的框架是一般的,适用于3D和2D域中的本地功能学习。我们通过在各种挑战性的匹配基准上进行广泛的实验来证明我们的方法的优势,包括3D非刚性形状对应关系和2D图像关键点匹配。
translated by 谷歌翻译
图表匹配是一个重要的问题,它受到了广泛的关注,特别是在计算机视野领域。最近,最先进的方法寻求将图形与深度学习融合。然而,没有研究可以解释图形匹配算法在模型中播放的角色。因此,我们提出了一种积分对匹配问题的MILP制定的方法。该配方解决了最佳,它提供固有的基线。同时,通过释放图形匹配求解器的最佳保证并通过引入质量水平来导出类似的方法。这种质量级别控制了图形匹配求解器提供的解决方案的质量。此外,图表匹配问题的几个放松将进行测试。我们的实验评估提供了若干理论上的见解,并指导深图匹配方法的方向。
translated by 谷歌翻译
3D形状匹配是计算机视觉和计算机图形方面的长期问题。虽然深度神经网络被证明会导致最先进的形状匹配结果,但在多形匹配的背景下,现有基于学习的方法受到限制:(i)他们只专注于匹配的形状和形状和因此,遭受了循环矛盾的多匹配,或者(ii)它们需要明确的模板形状来解决形状集合的匹配。在本文中,我们提出了一种用于深度多形匹配的新颖方法,可确保周期一致的多匹配,而不是依赖于明确的模板形状。为此,我们利用了形状到宇宙的多匹配表示形式,我们将其与强大的功能映射正则化相结合,以便可以完全不受监督的方式对我们的多形匹配的神经网络进行训练。虽然仅在训练时间内考虑了功能图正则化,但并未计算出用于预测对应关系的功能图,从而允许快速推断。我们证明,我们的方法在几个具有挑战性的基准数据集上实现了最新的结果,并且最引人注目的是,我们的无监督方法甚至超过了最近的监督方法。
translated by 谷歌翻译
This paper introduces SuperGlue, a neural network that matches two sets of local features by jointly finding correspondences and rejecting non-matchable points. Assignments are estimated by solving a differentiable optimal transport problem, whose costs are predicted by a graph neural network. We introduce a flexible context aggregation mechanism based on attention, enabling SuperGlue to reason about the underlying 3D scene and feature assignments jointly. Compared to traditional, hand-designed heuristics, our technique learns priors over geometric transformations and regularities of the 3D world through end-to-end training from image pairs. SuperGlue outperforms other learned approaches and achieves state-of-the-art results on the task of pose estimation in challenging real-world indoor and outdoor environments. The proposed method performs matching in real-time on a modern GPU and can be readily integrated into modern SfM or SLAM systems. The code and trained weights are publicly available at github.com/magicleap/SuperGluePretrainedNetwork.
translated by 谷歌翻译
我们开发了从运动管道的结构中恢复损坏的keypoint匹配的新统计信息。统计信息基于Keypoint匹配图的群集结构中出现的一致性约束。统计数据旨在为损坏的匹配和未损坏的匹配提供较小的值。这些新统计数据与迭代重新重量方案相结合以过滤关键点,然后可以将其从运动管道馈送到任何标准结构中。可以有效地实现该滤波方法并将其缩放到大规模的数据集,因为它仅需要稀疏矩阵乘法。我们展示了这种方法对来自运动数据集的合成和实际结构的功效,并表明它在这些任务中实现了最先进的准确性和速度。
translated by 谷歌翻译
3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
translated by 谷歌翻译
在本文中,我们研究了使用它们的关键点的形状和姿势的表示。因此,我们提出了一种端到端的方法,其同时从图像中检测2D关键点并将它们升到3D。该方法仅从2D关键点注释学习2D检测和3D升降。在这方面,提出了一种通过基于增强的循环自我监督来明确地解除姿势和3D形状的新方法。除了在图像到3D学习的图像端到端,我们的方法还使用单个神经网络处理来自多个类别的对象。我们使用基于变换器的架构来检测关键点,以及总结图像的视觉上下文。然后将该视觉上下文信息升降到3D时,以允许基于上下文的推理以获得更好的性能。在提升时,我们的方法学习一小一小一组基础形状和稀疏的非负系数,以表示规范框架中的3D形状。我们的方法可以处理闭塞以及各种各样的对象类。我们对三个基准测试的实验表明,我们的方法比现有技术更好。我们的源代码将公开可用。
translated by 谷歌翻译
我们通过无监督学习的角度探索语义对应估计。我们使用标准化的评估协议彻底评估了最近提出的几种跨多个挑战数据集的无监督方法,在该协议中,我们会改变诸如骨干架构,预训练策略以及预训练和填充数据集等因素。为了更好地了解这些方法的故障模式,并为了提供更清晰的改进途径,我们提供了一个新的诊断框架以及一个新的性能指标,该指标更适合于语义匹配任务。最后,我们引入了一种新的无监督的对应方法,该方法利用了预训练的功能的强度,同时鼓励在训练过程中进行更好的比赛。与当前的最新方法相比,这会导致匹配性能明显更好。
translated by 谷歌翻译
我们考虑了一个类别级别的感知问题,其中给定的2D或3D传感器数据描绘了给定类别的对象(例如,汽车),并且必须重建尽管级别的可变性,但必须重建对象的3D姿势和形状(即,不同的汽车模型具有不同的形状)。我们考虑了一个主动形状模型,其中 - 对于对象类别 - 我们获得了一个潜在的CAD模型库,描述该类别中的对象,我们采用了标准公式,其中姿势和形状是通过非非2D或3D关键点估算的-convex优化。我们的第一个贡献是开发PACE3D*和PACE2D*,这是第一个使用3D和2D关键点进行姿势和形状估计的最佳最佳求解器。这两个求解器都依赖于紧密(即精确)半决赛的设计。我们的第二个贡献是开发两个求解器的异常刺激版本,命名为PACE3D#和PACE2D#。为了实现这一目标,我们提出了Robin,Robin是一种一般的图理论框架来修剪异常值,该框架使用兼容性超图来建模测量的兼容性。我们表明,在类别级别的感知问题中,这些超图可以是通过关键点(以2D)或其凸壳(以3D为单位)构建的,并且可以通过最大的超级计算来修剪许多异常值。最后的贡献是广泛的实验评估。除了在模拟数据集和Pascal数据集上提供消融研究外,我们还将求解器与深关键点检测器相结合,并证明PACE3D#在Apolloscape数据集中在车辆姿势估算中改进了最新技术,并且其运行时间是兼容的使用实际应用。
translated by 谷歌翻译
关键点匹配是多个图像相关应用的关键组件,例如图像拼接,视觉同时定位和映射(SLAM)等。基于手工制作和最近出现的深度学习的关键点匹配方法仅依赖于关键点和本地功能,同时在上述应用中丢失其他可用传感器(如惯性测量单元(IMU))的视觉。在本文中,我们证明IMU集成的运动估计可用于利用图像之间的关键点之前的空间分布。为此,提出了一种注意力制剂的概率视角,以自然地将空间分布集成到注意力图神经网络中。在空间分布的帮助下,可以减少用于建模隐藏特征的网络的努力。此外,我们为所提出的关键点匹配网络提出了一个投影损耗,它在匹配和未匹配的关键点之间提供了平滑的边缘。图像匹配在Visual Slam数据集上的实验表明了呈现的方法的有效性和效率。
translated by 谷歌翻译
在本文中,我们建议超越建立的基于视觉的本地化方法,该方法依赖于查询图像和3D点云之间的视觉描述符匹配。尽管通过视觉描述符匹配关键点使本地化高度准确,但它具有重大的存储需求,提出了隐私问题,并需要长期对描述符进行更新。为了优雅地应对大规模定位的实用挑战,我们提出了Gomatch,这是基于视觉的匹配的替代方法,仅依靠几何信息来匹配图像键点与地图的匹配,这是轴承矢量集。我们的新型轴承矢量表示3D点,可显着缓解基于几何的匹配中的跨模式挑战,这阻止了先前的工作在现实环境中解决本地化。凭借额外的仔细建筑设计,Gomatch在先前的基于几何的匹配工作中改善了(1067m,95.7升)和(1.43m,34.7摄氏度),平均中位数姿势错误,同时需要7个尺寸,同时需要7片。与最佳基于视觉的匹配方法相比,几乎1.5/1.7%的存储容量。这证实了其对现实世界本地化的潜力和可行性,并为不需要存储视觉描述符的城市规模的视觉定位方法打开了未来努力的大门。
translated by 谷歌翻译
像素级别的2D对象语义理解是计算机视觉中的一个重要主题,可以帮助在日常生活中深入了解对象(例如功能和可折扣)。然而,最先前的方法直接在2D图像中的对应关系上培训,这是端到端,但在3D空间中失去了大量信息。在本文中,我们提出了一种关于在3D域中预测图像对应语义的新方法,然后将它们突出回2D图像以实现像素级别的理解。为了获得当前图像数据集中不存在的可靠的3D语义标签,我们构建一个名为KeyPointNet的大型关键点知识引擎,其中包含103,450个关键点和来自16个对象类别的8,234个3D模型。我们的方法利用3D视觉中的优势,并可以明确地理由对物体自动阻塞和可见性。我们表明我们的方法在标准语义基准上给出了比较甚至卓越的结果。
translated by 谷歌翻译
点云注册是许多应用程序(例如本地化,映射,跟踪和重建)的基本任务。成功的注册依赖于提取鲁棒和歧视性的几何特征。现有的基于学习的方法需要高计算能力来同时处理大量原始点。尽管这些方法取得了令人信服的结果,但由于高计算成本,它们很难在现实情况下应用。在本文中,我们介绍了一个框架,该框架使用图形注意网络有效地从经济上提取密集的特征,以进行点云匹配和注册(DFGAT)。 DFGAT的检测器负责在大型原始数据集中找到高度可靠的关键点。 DFGAT的描述符将这些关键点与邻居相结合,以提取不变的密度特征,以准备匹配。图形注意力网络使用了丰富点云之间关系的注意机制。最后,我们将其视为最佳运输问题,并使用Sinkhorn算法找到正匹配和负面匹配。我们对KITTI数据集进行了彻底的测试,并评估了该方法的有效性。结果表明,与其他最先进的方法相比,使用有效紧凑的关键点选择和描述可以实现最佳性能匹配指标,并达到99.88%注册的最高成功率。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译
计算机视觉和机器学习中的许多问题都可以作为代表高阶关系的超图的学习。 HyperGraph Learning的最新方法基于消息传递扩展了图形神经网络,这在建模远程依赖性和表达能力方面很简单但根本上有限。另一方面,基于张量的模棱两可的神经网络具有最大的表现力,但是由于沉重的计算和对固定顺序超中件的严格假设,它们的应用受到了超图的限制。我们解决了这些问题,并目前呈现了模棱两可的HyperGraph神经网络(EHNN),这是实现一般超图学习最大表达性的层的首次尝试。我们还提出了基于超网(EHNN-MLP)和自我注意力(EHNN-TransFormer)的两个实用实现,这些实现易于实施,理论上比大多数消息传递方法更具表现力。我们证明了它们在一系列超图学习问题中的能力,包括合成K边缘识别,半监督分类和视觉关键点匹配,并报告对强烈消息传递基线的改进性能。我们的实施可从https://github.com/jw9730/ehnn获得。
translated by 谷歌翻译