图像注册是一个研究领域,必须将图像进行比较和对齐,并与观点或摄像机特征独立进行对齐。在某些应用中(例如法医生物识别技术,卫星摄影或室外场景标识)经典图像注册系统由于比较的一个图像而失败,这代表了另一个图像的一小部分。例如,在法医掌上识别的情况下,通常只能找到一小部分棕榈印刷,但是在数据库中,整个棕榈印刷已被注册。经典图像注册方法行为不佳的主要原因是两个图像的显着点的量之间的差距,这与被视为离群值的点数有关。通常,当代表场景的微小部分的图像急剧旋转时,找到良好匹配的困难会增加。同样,就掌刻法医而言,很难先确定发现的微型棕榈印刷图像的方向。我们提出了一种旋转不变的注册方法,该方法明确考虑要匹配的图像是较大图像的一小部分。在两种不同的情况下,我们在实验上验证了我们的方法。棕榈印刷识别和室外图像注册。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
translated by 谷歌翻译
点对特征(PPF)广泛用于6D姿势估计。在本文中,我们提出了一种基于PPF框架的有效的6D姿势估计方法。我们介绍了一个目标良好的下采样策略,该策略更多地集中在边缘区域,以有效地提取复杂的几何形状。提出了一种姿势假设验证方法来通过计算边缘匹配度来解决对称歧义。我们对两个具有挑战性的数据集和一个现实世界中收集的数据集进行评估,这证明了我们方法对姿势估计几何复杂,遮挡,对称对象的优越性。我们通过将其应用于模拟穿刺来进一步验证我们的方法。
translated by 谷歌翻译
We report on experiments for the fingerprint modality conducted during the First BioSecure Residential Workshop. Two reference systems for fingerprint verification have been tested together with two additional non-reference systems. These systems follow different approaches of fingerprint processing and are discussed in detail. Fusion experiments I volving different combinations of the available systems are presented. The experimental results show that the best recognition strategy involves both minutiae-based and correlation-based measurements. Regarding the fusion experiments, the best relative improvement is obtained when fusing systems that are based on heterogeneous strategies for feature extraction and/or matching. The best combinations of two/three/four systems always include the best individual systems whereas the best verification performance is obtained when combining all the available systems.
translated by 谷歌翻译
基于通信的点云注册是机器人感知和计算机视觉中的基石,它寻求从推定的对应关系中估计两个点云的最佳刚性变换。然而,由于3D关键点匹配方法的有限稳健性,相应的对应关系中的异常值可能是易于存在的,这使得稳健的注册方法是必要的。遗憾的是,在面对高或极端的比率比率时,现有的强大方法具有自身限制(例如,高计算成本或有限的鲁棒性),可能不适合实际使用。在本文中,我们提出了一种名为Trivoc(三层投票的三层投票,与共识最大化)的新颖,快速,确定性和保证的鲁棒求解器,用于强大的注册问题。我们将最小3点集的选择最小3点集成为3个连续层,并且在每层中,我们基于成对等长约束设计有效的投票和对应分类框架。以这种方式,可以根据排序序列独立地从减少的对应组选择3点集,这可以显着降低计算成本,同时提供了实现最大共识集的强度保证(作为最终Inlier集)只要满足概率终止条件。不同的实验表明,我们的求解器Trivoc非常坚固,高达99%的异常值,高度准确,较效率,即使具有极端的异常比率,也是现实世界应用的实用性,显示出优于其他最先进的竞争对手的性能。
translated by 谷歌翻译
3D点云登记在遥感,摄影测量,机器人和几何计算机视觉中排名最基本的问题。由于3D特征匹配技术的准确性有限,因此可能存在异常值,有时即使在非常大的数字中,则在该对应中也是如此。由于现有的强大的求解器可能会遇到高计算成本或限制性的稳健性,因此我们提出了一种名为VoCra(具有成本函数和旋转平均的投票的新颖,快速,高度强大的解决方案,为极端异常率的点云注册问题。我们的第一款贡献是聘请Tukey的双重强大的成本来引入新的投票和对应分类技术,这证明是在异常值中区分真正的入世性,即使是极端(99%)的异常率。我们的第二次贡献包括基于强大的旋转平均设计时效的共识最大化范例,用于在通信中寻求Inlier候选人。最后,我们使用Tukey的Biweight(GNC-TB)应用毕业的非凸性,以估计所获得的Inlier候选者的正确变换,然后使用它来找到完整的Inlier集。进行了应用于两个实体数据问题的标准基准和现实实验,并且我们表明我们的求解器VORCA对超过99%的异常值较高,而且比最先进的竞争对手更多的时间效率。
translated by 谷歌翻译
In our recent work [1], [2], we proposed Point Feature Histograms (PFH) as robust multi-dimensional features which describe the local geometry around a point p for 3D point cloud datasets. In this paper, we modify their mathematical expressions and perform a rigorous analysis on their robustness and complexity for the problem of 3D registration for overlapping point cloud views. More concretely, we present several optimizations that reduce their computation times drastically by either caching previously computed values or by revising their theoretical formulations. The latter results in a new type of local features, called Fast Point Feature Histograms (FPFH), which retain most of the discriminative power of the PFH. Moreover, we propose an algorithm for the online computation of FPFH features for realtime applications. To validate our results we demonstrate their efficiency for 3D registration and propose a new sample consensus based method for bringing two datasets into the convergence basin of a local non-linear optimizer: SAC-IA (SAmple Consensus Initial Alignment).
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
尽管提取了通过手工制作和基于学习的描述符实现的本地特征的进步,但它们仍然受到不符合非刚性转换的不变性的限制。在本文中,我们提出了一种计算来自静止图像的特征的新方法,该特征对于非刚性变形稳健,以避免匹配可变形表面和物体的问题。我们的变形感知当地描述符,命名优惠,利用极性采样和空间变压器翘曲,以提供旋转,尺度和图像变形的不变性。我们通过将等距非刚性变形应用于模拟环境中的对象作为指导来提供高度辨别的本地特征来培训模型架构端到端。该实验表明,我们的方法优于静止图像中的实际和现实合成可变形对象的不同数据集中的最先进的手工制作,基于学习的图像和RGB-D描述符。描述符的源代码和培训模型在https://www.verlab.dcc.ufmg.br/descriptors/neUrips2021上公开可用。
translated by 谷歌翻译
凭借在运动扫描系统生产的LIDAR点云注册的目的,我们提出了一种新颖的轨迹调整程序,可以利用重叠点云和关节集成之间所选可靠的3D点对应关系的自动提取。 (调整)与所有原始惯性和GNSS观察一起。这是使用紧密耦合的方式执行的动态网络方法来执行,这通过在传感器处的错误而不是轨迹等级来实现最佳补偿的轨迹。 3D对应关系被制定为该网络内的静态条件,并且利用校正的轨迹和可能在调整内确定的其他参数,以更高的精度生成注册点云。我们首先描述了选择对应关系以及将它们作为新观察模型作为动态网络插入的方法。然后,我们描述了对具有低成本MEMS惯性传感器的实用空气激光扫描场景中提出框架的性能进行评估。在进行的实验中,建议建立3D对应关系的方法在确定各种几何形状的点对点匹配方面是有效的,例如树木,建筑物和汽车。我们的结果表明,该方法提高了点云登记精度,否则在确定的平台姿态或位置(以标称和模拟的GNSS中断条件)中的错误受到强烈影响,并且可能仅使用总计的一小部分确定未知的触觉角度建立的3D对应数量。
translated by 谷歌翻译
我们的工作针对自动分析,以量化细菌细菌群体的生长动力学。我们提出了一种创新的方法,通过自动化新的,特定的成本功能的自动化最小化对可变形细胞运动的框架跟踪。这种最小化由专用的玻尔兹曼机器(随机复发神经网络)实现。通过连续的两个成本函数的最小化,对细胞分裂的自动检测进行了类似的处理,从而交替地识别儿童对和父母的识别。我们使用(i)记录模拟细胞菌落的记录来验证提出的自动细胞跟踪算法,这些算法与微流体陷阱和(ii)真实数据密切模仿大肠杆菌的生长动力学。在一批1100个模拟图像框架上,每帧的单元格登记精度范围从94.5%到100%,平均水平很高。我们使用大肠杆菌菌落的实验图像序列(即实际数据)进行的初始测试也产生令人信服的结果,注册精度范围从90%到100%。
translated by 谷歌翻译
本文介绍了一种新颖的体系结构,用于同时估算高度准确的光流和刚性场景转换,以实现困难的场景,在这种情况下,亮度假设因强烈的阴影变化而违反了亮度假设。如果是旋转物体或移动的光源(例如在黑暗中驾驶汽车遇到的光源),场景的外观通常从一个视图到下一个视图都发生了很大变化。不幸的是,用于计算光学流或姿势的标准方法是基于这样的期望,即场景中特征在视图之间保持恒定。在调查的情况下,这些方法可能经常失败。提出的方法通过组合图像,顶点和正常数据来融合纹理和几何信息,以计算照明不变的光流。通过使用粗到最新的策略,可以学习全球锚定的光流,从而减少了基于伪造的伪相应的影响。基于学习的光学流,提出了第二个体系结构,该体系结构可预测扭曲的顶点和正常地图的稳健刚性变换。特别注意具有强烈旋转的情况,这通常会导致这种阴影变化。因此,提出了一个三步程序,该程序可以利用正态和顶点之间的相关性。该方法已在新创建的数据集上进行了评估,该数据集包含具有强烈旋转和阴影效果的合成数据和真实数据。该数据代表了3D重建中的典型用例,其中该对象通常在部分重建之间以很大的步骤旋转。此外,我们将该方法应用于众所周知的Kitti Odometry数据集。即使由于实现了Brighness的假设,这不是该方法的典型用例,因此,还建立了对标准情况和与其他方法的关系的适用性。
translated by 谷歌翻译
从点云中自动创建几何模型在CAD(例如,逆向工程,制造,组装)中具有许多应用,并且通常在形状建模和处理中。给定一个代表人造对象的分段点云,我们提出了一种识别简单几何原语及其相互关系的方法。我们的方法基于Hough Transform(HT),以应对噪音,缺失零件和离群值的能力。在我们的方法中,我们介绍了一种用于处理分段点云的新技术,该技术通过投票程序能够提供表征每种原始类型的几何参数的初始估计。通过使用这些估计值,我们将对最佳解决方案的搜索定位在尺寸还原的参数空间中,从而使将HT扩展到比文献(即平面和球体中通常发现的)更有效。然后,我们提取了许多以唯一特征段的几何描述符,并且根据这些描述符,我们展示了如何汇总原语(段)(段)。对合成和工业扫描的实验揭示了原始拟合方法的鲁棒性及其在推断细分之间关系的有效性。
translated by 谷歌翻译
自主导航的同时本地化和映射(SLAM)框架依赖于强大的数据关联来识别循环封闭以进行后端轨迹优化。对于配备了多层回声器(MBE)的自动水下车辆(AUV),由于海床中可识别的地标的稀缺性,数据关联尤其具有挑战性MBE数据的低分辨率特征。循环封闭检测的深度学习解决方案已显示出来自更结构化环境的数据的出色性能。但是,它们转移到海底领域并不是直接的,并且由于缺乏测深的数据集而阻碍了移植它们的努力。因此,在本文中,我们提出了一种神经网络体系结构,旨在展示将这种技术适应测深数据中对应匹配的潜力。我们从AUV任务中训练我们的框架,并评估其在循环闭合检测任务和粗点云对齐任务上的性能。最后,我们在更传统的方法上展示了其潜力,并释放其实现和所使用的数据集。
translated by 谷歌翻译
Affine correspondences have traditionally been used to improve feature matching over wide baselines. While recent work has successfully used affine correspondences to solve various relative camera pose estimation problems, less attention has been given to their use in absolute pose estimation. We introduce the first general solution to the problem of estimating the pose of a calibrated camera given a single observation of an oriented point and an affine correspondence. The advantage of our approach (P1AC) is that it requires only a single correspondence, in comparison to the traditional point-based approach (P3P), significantly reducing the combinatorics in robust estimation. P1AC provides a general solution that removes restrictive assumptions made in prior work and is applicable to large-scale image-based localization. We propose two parameterizations of the P1AC problem and evaluate our novel solvers on synthetic data showing their numerical stability and performance under various types of noise. On standard image-based localization benchmarks we show that P1AC achieves more accurate results than the widely used P3P algorithm.
translated by 谷歌翻译
结构从动作(SFM)旨在根据输入图像之间的对应关系恢复3D场景结构和相机姿势,因此,由重复结构(即具有强视觉相似的不同结构)引起的歧义始终导致摄像头的姿势和不正确的相机姿势3D结构。为了处理歧义,大多数现有研究通过分析两种观察几何或特征点来求助于其他约束信息或隐式推理。在本文中,我们建议利用场景中的高级信息,即本地区域的空间上下文信息,以指导重建。具体而言,提出了一种新颖的结构,即{\ textit {track-community}},其中每个社区由一组轨道组成,代表场景中的本地段。社区检测算法用于将场景分为几个部分。然后,通过分析轨道的邻域并通过检查姿势一致性来检测潜在的模棱两可的段。最后,我们对每个段进行部分重建,并将它们与新颖的双向一致性成本函数对齐,该函数考虑了3D-3D对应关系和成对相对摄像头的姿势。实验结果表明,我们的方法可以牢固地减轻视觉上无法区分的结构而导致的重建失败,并准确合并部分重建。
translated by 谷歌翻译
We investigate the properties of a metric between two distributions, the Earth Mover's Distance (EMD), for content-based image retrieval. The EMD is based on the minimal cost that must be paid to transform one distribution into the other, in a precise sense, and was first proposed for certain vision problems by Peleg, Werman, and Rom. For image retrieval, we combine this idea with a representation scheme for distributions that is based on vector quantization. This combination leads to an image comparison framework that often accounts for perceptual similarity better than other previously proposed methods. The EMD is based on a solution to the transportation problem from linear optimization, for which efficient algorithms are available, and also allows naturally for partial matching. It is more robust than histogram matching techniques, in that it can operate on variable-length representations of the distributions that avoid quantization and other binning problems typical of histograms. When used to compare distributions with the same overall mass, the EMD is a true metric. In this paper we focus on applications to color and texture, and we compare the retrieval performance of the EMD with that of other distances.
translated by 谷歌翻译
生成一组高质量的对应关系或匹配是点云注册中最关键的步骤之一。本文通过共同考虑点对立的结构匹配来提出学习框架COTREG,以预测3D点云登记的对应关系。具体地,我们将这两个匹配转换为基于Wasserstein距离和基于Gromov-Wasserstein距离的优化。因此,建立对应关系的任务可以自然地重塑成耦合的最佳运输问题。此外,我们设计一个网络,以预测点云的每个点的置信度,其提供重叠区域信息以产生对应关系。我们的对应预测管道可以很容易地集成到基于学习的特征,如FCGF或FPFH等传统描述符。我们在3DMATCH,KITTI,3DCSR和ModelNet40基准上进行了全面的实验,显示了所提出的方法的最先进的性能。
translated by 谷歌翻译
The ICP (Iterative Closest Point) algorithm is widely used for geometric alignment of three-dimensional models when an initial estimate of the relative pose is known. Many variants of ICP have been proposed, affecting all phases of the algorithm from the selection and matching of points to the minimization strategy. We enumerate and classify many of these variants, and evaluate their effect on the speed with which the correct alignment is reached. In order to improve convergence for nearly-flat meshes with small features, such as inscribed surfaces, we introduce a new variant based on uniform sampling of the space of normals. We conclude by proposing a combination of ICP variants optimized for high speed. We demonstrate an implementation that is able to align two range images in a few tens of milliseconds, assuming a good initial guess. This capability has potential application to real-time 3D model acquisition and model-based tracking.
translated by 谷歌翻译