结构从动作(SFM)旨在根据输入图像之间的对应关系恢复3D场景结构和相机姿势,因此,由重复结构(即具有强视觉相似的不同结构)引起的歧义始终导致摄像头的姿势和不正确的相机姿势3D结构。为了处理歧义,大多数现有研究通过分析两种观察几何或特征点来求助于其他约束信息或隐式推理。在本文中,我们建议利用场景中的高级信息,即本地区域的空间上下文信息,以指导重建。具体而言,提出了一种新颖的结构,即{\ textit {track-community}},其中每个社区由一组轨道组成,代表场景中的本地段。社区检测算法用于将场景分为几个部分。然后,通过分析轨道的邻域并通过检查姿势一致性来检测潜在的模棱两可的段。最后,我们对每个段进行部分重建,并将它们与新颖的双向一致性成本函数对齐,该函数考虑了3D-3D对应关系和成对相对摄像头的姿势。实验结果表明,我们的方法可以牢固地减轻视觉上无法区分的结构而导致的重建失败,并准确合并部分重建。
translated by 谷歌翻译
Incremental Structure-from-Motion is a prevalent strategy for 3D reconstruction from unordered image collections. While incremental reconstruction systems have tremendously advanced in all regards, robustness, accuracy, completeness, and scalability remain the key problems towards building a truly general-purpose pipeline. We propose a new SfM technique that improves upon the state of the art to make a further step towards this ultimate goal. The full reconstruction pipeline is released to the public as an open-source implementation.
translated by 谷歌翻译
运动(ISFM)的增量结构已被广泛用于无人机图像方向。然而,由于顺序约束,其效率大大降低。尽管已经利用了分裂和纠纷策略来提高效率,但集群合并变得困难或取决于认真设计的重叠结构。本文提出了一种算法,以提取群集合并的全局模型,并设计平行的SFM解决方案,以实现有效,准确的无人机图像方向。首先,基于词汇树检索,选择了匹配对来构建一个无方向的加权匹配图,其边缘权重是通过考虑特征匹配的数量和分布来计算的。其次,一种称为加权连接的主导集(WCD)的算法旨在实现匹配图的简化并构建全局模型,该模型将边缘权重结合到图形节点选择中,并实现了全局模型的成功重建。第三,将匹配图同时分为紧凑型和非重叠簇。在平行重建后,借助全局模型和群集模型之间的共同3D点进行聚类合并。最后,通过使用经典倾斜和最新优化视图捕获的三个UAV数据集,通过全面的分析和比较来验证所提出的解决方案的验证。实验结果表明,所提出的平行SFM可以实现提高效率的17.4倍和比较取向精度。在绝对BA中,地理引用精度分别是水平和垂直方向中GSD(接地采样距离)值的2.0倍和3.0倍。对于并行SFM,提出的解决方案是更可靠的替代方案。
translated by 谷歌翻译
This paper presents ORB-SLAM, a feature-based monocular SLAM system that operates in real time, in small and large, indoor and outdoor environments. The system is robust to severe motion clutter, allows wide baseline loop closing and relocalization, and includes full automatic initialization. Building on excellent algorithms of recent years, we designed from scratch a novel system that uses the same features for all SLAM tasks: tracking, mapping, relocalization, and loop closing. A survival of the fittest strategy that selects the points and keyframes of the reconstruction leads to excellent robustness and generates a compact and trackable map that only grows if the scene content changes, allowing lifelong operation. We present an exhaustive evaluation in 27 sequences from the most popular datasets. ORB-SLAM achieves unprecedented performance with respect to other state-of-the-art monocular SLAM approaches. For the benefit of the community, we make the source code public.
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
Video provides us with the spatio-temporal consistency needed for visual learning. Recent approaches have utilized this signal to learn correspondence estimation from close-by frame pairs. However, by only relying on close-by frame pairs, those approaches miss out on the richer long-range consistency between distant overlapping frames. To address this, we propose a self-supervised approach for correspondence estimation that learns from multiview consistency in short RGB-D video sequences. Our approach combines pairwise correspondence estimation and registration with a novel SE(3) transformation synchronization algorithm. Our key insight is that self-supervised multiview registration allows us to obtain correspondences over longer time frames; increasing both the diversity and difficulty of sampled pairs. We evaluate our approach on indoor scenes for correspondence estimation and RGB-D pointcloud registration and find that we perform on-par with supervised approaches.
translated by 谷歌翻译
我们提出了一种新颖的方法来重新定位或放置识别,这是许多机器人技术,自动化和AR应用中要解决的基本问题。我们不依靠通常不稳定的外观信息,而是考虑以局部对象形式给出参考图的情况。我们的本地化框架依赖于3D语义对象检测,然后与地图中的对象关联。可能的配对关联集是基于评估空间兼容性的合并度量的层次聚类而生长的。后者特别使用有关​​相对对象配置的信息,该信息相对于全局转换是不变的。随着相机逐步探索环境并检测更多对象,关联集将进行更新和扩展。我们在几种具有挑战性的情况下测试我们的算法,包括动态场景,大型视图变化以及具有重复实例的场景。我们的实验表明,我们的方法在鲁棒性和准确性方面都优于先前的艺术。
translated by 谷歌翻译
我们提出了一种从有限重叠的图像中对场景进行平面表面重建的方法。此重构任务是具有挑战性的,因为它需要共同推理单个图像3D重建,图像之间的对应关系以及图像之间的相对摄像头姿势。过去的工作提出了基于优化的方法。我们引入了一种更简单的方法,即平面形式,该方法使用应用于3D感知平面令牌的变压器执行3D推理。我们的实验表明,我们的方法比以前的工作更有效,并且几项3D特定的设计决策对于成功的成功至关重要。
translated by 谷歌翻译
本文展示了一个视觉大满贯系统,该系统利用点和线云,同时使用嵌入式零件平面重建(PPR)模块,共同提供结构图。为了与跟踪并行构建一致的尺度地图,例如使用单个摄像机会带来挑战,以歧义性歧义重建几何原始图,并进一步引入了捆绑调整(BA)的图形优化的难度。我们通过在重建的线和飞机上提出几个运行时优化来解决这些问题。然后根据单眼框架的设计将系统用深度和立体声传感器扩展。结果表明,我们提出的SLAM紧密结合了语义功能,以增强前端跟踪和后端优化。我们在各种数据集上详尽地评估了系统,并为社区开放代码(https://github.com/peterfws/structure-plp-slam)。
translated by 谷歌翻译
在预先建立的3D环境图中,高精度摄像头重新定位技术是许多任务的基础,例如增强现实,机器人技术和自动驾驶。近几十年来,基于点的视觉重新定位方法已经发达了,但在某些不足的情况下不足。在本文中,我们设计了一条完整的管道,用于使用点和线的相机姿势完善,其中包含创新设计的生产线提取CNN,名为VLSE,线匹配和姿势优化方法。我们采用新颖的线表示,并根据堆叠的沙漏网络自定义混合卷积块,以检测图像上的准确稳定的线路功能。然后,我们采用基于几何的策略,使用表极约束和再投影过滤获得精确的2D-3D线对应关系。构建了以下点线关节成本函数,以通过基于纯点的本地化的初始粗姿势优化相机姿势。在开放数据集(即线框上的线提取器)上进行了足够的实验,在INLOC DUC1和DUC2上的定位性能,以确认我们的点线关节姿势优化方法的有效性。
translated by 谷歌翻译
如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以可靠地估计相机的姿势,并在极端环境中获得的一系列图像,例如深海或外星地形。在这些挑战性条件下获得的数据被无纹理表面,图像退化以及重复性和高度模棱两可的结构所破坏。当天真地部署时,最先进的方法可能会在我们的经验分析确认的那些情况下失败。在本文中,我们试图在这些极端情况下使摄像机重新定位起作用。为此,我们提出:(i)一个分层定位系统,我们利用时间信息和(ii)一种新颖的环境感知图像增强方法来提高鲁棒性和准确性。我们广泛的实验结果表明,在两个极端环境下我们的方法有利于我们的方法:将自动的水下车辆定位,并将行星漫游者定位在火星样的沙漠中。此外,我们的方法仅使用20%的培训数据就可以在室内基准(7片数据集)上使用最先进的方法(7片数据集)实现可比性的性能。
translated by 谷歌翻译
在本文中,我们考虑了视觉同时定位和映射(SLAM)的实际应用中的问题。随着技术在广泛范围中的普及和应用,SLAM系统的可实用性已成为一个在准确性和鲁棒性之后,例如,如何保持系统的稳定性并实现低文本和低文本和中的准确姿势估计动态环境以及如何在真实场景中改善系统的普遍性和实时性能。动态对象在高度动态的环境中的影响。我们还提出了一种新型的全局灰色相似性(GGS)算法,以实现合理的钥匙扣选择和有效的环闭合检测(LCD)。受益于GGS,PLD-SLAM可以在大多数真实场景中实现实时准确的姿势估计,而无需预先训练和加载巨大的功能词典模型。为了验证拟议系统的性能,我们将其与公共数据集Kitti,Euroc MAV和我们提供的室内立体声数据集的现有最新方法(SOTA)方法进行了比较。实验表明,实验表明PLD-SLAM在大多数情况下确保稳定性和准确性,具有更好的实时性能。此外,通过分析GGS的实验结果,我们可以发现它在关键帧选择和LCD中具有出色的性能。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译
注册森林环境的点云是精密林业局部激光雷达应用的必要先决条件。最先进的森林点云登记方法需要提取单个树属性,并且在处理具有致密树的真实森林点云时,它们具有效率的瓶颈。我们提出了一种自动,坚固,高效的方法,用于登记森林点云。我们的方法首先定位树从原料点云茎,然后根据他们的相对空间关系确定准变换茎匹配。相较于现有的方法,我们的算法不需要额外的单株属性,具有线性复杂的环境中的树木数量,允许它的大森林环境对齐点云。广泛的实验表明,我们的方法优于关于登记精度和稳健性的最先进的方法,并且在效率方面显着优于现有技术。此外,我们引入一个新的基准数据集,补充的开发和注册方法评价森林点云的极少数现有的开放的数据集。
translated by 谷歌翻译
结合同时定位和映射(SLAM)估计和动态场景建模可以高效地在动态环境中获得机器人自主权。机器人路径规划和障碍避免任务依赖于场景中动态对象运动的准确估计。本文介绍了VDO-SLAM,这是一种强大的视觉动态对象感知SLAM系统,用于利用语义信息,使得能够在场景中进行准确的运动估计和跟踪动态刚性物体,而无需任何先前的物体形状或几何模型的知识。所提出的方法识别和跟踪环境中的动态对象和静态结构,并将这些信息集成到统一的SLAM框架中。这导致机器人轨迹的高度准确估计和对象的全部SE(3)运动以及环境的时空地图。该系统能够从对象的SE(3)运动中提取线性速度估计,为复杂的动态环境中的导航提供重要功能。我们展示了所提出的系统对许多真实室内和室外数据集的性能,结果表明了对最先进的算法的一致和实质性的改进。可以使用源代码的开源版本。
translated by 谷歌翻译
关键点匹配是多个图像相关应用的关键组件,例如图像拼接,视觉同时定位和映射(SLAM)等。基于手工制作和最近出现的深度学习的关键点匹配方法仅依赖于关键点和本地功能,同时在上述应用中丢失其他可用传感器(如惯性测量单元(IMU))的视觉。在本文中,我们证明IMU集成的运动估计可用于利用图像之间的关键点之前的空间分布。为此,提出了一种注意力制剂的概率视角,以自然地将空间分布集成到注意力图神经网络中。在空间分布的帮助下,可以减少用于建模隐藏特征的网络的努力。此外,我们为所提出的关键点匹配网络提出了一个投影损耗,它在匹配和未匹配的关键点之间提供了平滑的边缘。图像匹配在Visual Slam数据集上的实验表明了呈现的方法的有效性和效率。
translated by 谷歌翻译
从极端视图图像中恢复相机的空间布局和场景的几何形状是计算机视觉的长期挑战。盛行的3D重建算法通常采用匹配范式的图像,并假定场景的一部分是可以在图像上进行的,当输入之间几乎没有重叠时的性能较差。相比之下,人类可以通过形状的先验知识将一个图像中的可见部分与另一个图像中相应的不可见组件相关联。受这个事实的启发,我们提出了一个名为虚拟通信(VC)的新颖概念。 VC是来自两个图像的一对像素,它们的相机射线在3D中相交。与经典的对应关系相似,VC符合异性几何形状;与经典的信件不同,VC不需要在视图上可以共同提供。因此,即使图像不重叠,也可以建立和利用VC。我们介绍了一种方法,可以在场景中找到基于人类的虚拟对应关系。我们展示了如何与经典捆绑捆绑调整无缝集成的风险投资,以恢复跨极视图的相机姿势。实验表明,在具有挑战性的情况下,我们的方法显着优于最先进的摄像头姿势估计方法,并且在传统的密集捕获的设置中是可比的。我们的方法还释放了多个下游任务的潜力,例如在极端视图场景中从多视图立体声和新型视图合成中进行场景重建。
translated by 谷歌翻译
Most existing person re-identification methods compute the matching relations between person images across camera views based on the ranking of the pairwise similarities. This matching strategy with the lack of the global viewpoint and the context's consideration inevitably leads to ambiguous matching results and sub-optimal performance. Based on a natural assumption that images belonging to the same person identity should not match with images belonging to multiple different person identities across views, called the unicity of person matching on the identity level, we propose an end-to-end person unicity matching architecture for learning and refining the person matching relations. First, we adopt the image samples' contextual information in feature space to generate the initial soft matching results by using graph neural networks. Secondly, we utilize the samples' global context relationship to refine the soft matching results and reach the matching unicity through bipartite graph matching. Given full consideration to real-world person re-identification applications, we achieve the unicity matching in both one-shot and multi-shot settings of person re-identification and further develop a fast version of the unicity matching without losing the performance. The proposed method is evaluated on five public benchmarks, including four multi-shot datasets MSMT17, DukeMTMC, Market1501, CUHK03, and a one-shot dataset VIPeR. Experimental results show the superiority of the proposed method on performance and efficiency.
translated by 谷歌翻译
点对特征(PPF)广泛用于6D姿势估计。在本文中,我们提出了一种基于PPF框架的有效的6D姿势估计方法。我们介绍了一个目标良好的下采样策略,该策略更多地集中在边缘区域,以有效地提取复杂的几何形状。提出了一种姿势假设验证方法来通过计算边缘匹配度来解决对称歧义。我们对两个具有挑战性的数据集和一个现实世界中收集的数据集进行评估,这证明了我们方法对姿势估计几何复杂,遮挡,对称对象的优越性。我们通过将其应用于模拟穿刺来进一步验证我们的方法。
translated by 谷歌翻译