We present a method for solving two minimal problems for relative camera pose estimation from three views, which are based on three view correspondences of i) three points and one line and the novel case of ii) three points and two lines through two of the points. These problems are too difficult to be efficiently solved by the state of the art Groebner basis methods. Our method is based on a new efficient homotopy continuation (HC) solver framework MINUS, which dramatically speeds up previous HC solving by specializing HC methods to generic cases of our problems. We characterize their number of solutions and show with simulated experiments that our solvers are numerically robust and stable under image noise, a key contribution given the borderline intractable degree of nonlinearity of trinocular constraints. We show in real experiments that i) SIFT feature location and orientation provide good enough point-and-line correspondences for three-view reconstruction and ii) that we can solve difficult cases with too few or too noisy tentative matches, where the state of the art structure from motion initialization fails.
translated by 谷歌翻译
我们提出了一种解决RANSAC框架中的硬几何优化问题的方法。难度最小的问题是从放宽原始几何优化问题中的许多虚假解决方案的最小问题。我们的方法避免了计算大量杂散解决方案。我们设计一种学习策略,用于选择一个启动问题解决方案对,可以在数值上继续存在问题和感兴趣的解决方案。我们通过开发RANSAC求解器来展示我们的方法,以通过在每个视图中使用四个点计算三个校准相机的相对姿势的问题。平均而言,我们可以在70美元\ mu s下解决一个问题。$我们还通过两个校准相机的相对姿势计算和研究我们的工程选择,通过两个校准相机的相对姿势。意见。
translated by 谷歌翻译
在本文中,我们研究了多视图几何中基本和基本矩阵估计的5-和7点问题的数值不太稳定性。在这两种情况下,我们表征了末极估计的条件号是无限的呈现不良世界场景。我们还以给定的图像数据表征不良实例。为了达到这些结果,我们提出了一般的框架,用于分析基于Riemannian歧管的多视图几何体中最小问题的调理。综合性和现实世界数据的实验然后揭示了一个引人注目的结论:在结构 - 从 - 动作(SFM)中的随机样本共识(RANSAC)不仅用于过滤输出异常值,而且RANSAC还选择用于良好的良好的图像数据,足够分离我们的理论预测的不良座位。我们的研究结果表明,在未来的工作中,人们可以试图通过仅测试良好的图像数据来加速和增加Ransac的成功。
translated by 谷歌翻译
多项式方程系统经常在计算机视觉中产生,特别是在多视图几何问题中。用于解决这些系统的传统方法通常旨在消除变量达到单变量多项式,例如5点姿势估计的第十阶多项式,使用巧妙的操纵,或者更普遍使用Grobner基础,结果和消除模板,导致多视图几何和其他问题的成功算法。然而,当问题复杂时,这些方法不起作用,当他们这样做时,它们面临效率和稳定性问题。同型延续(HC)可以解决更复杂的问题而没有稳定性问题,并且保证全球解决方案,但已知它们是缓慢的。在本文中,我们表明HC可以在GPU上并行化,在多项式基准测试中显示出高达26倍的显着加速。我们还表明,GPU-HC可以在一系列计算机视觉问题上应用于一系列计算机视觉问题,包括具有未知焦距的4视图三角测量和三焦点姿态估计,其无法用消除模板解决,但它们可以用HC有效地解决它们。 GPU-HC打开门,以轻松配方和解决一系列计算机视觉问题。
translated by 谷歌翻译
Affine correspondences have traditionally been used to improve feature matching over wide baselines. While recent work has successfully used affine correspondences to solve various relative camera pose estimation problems, less attention has been given to their use in absolute pose estimation. We introduce the first general solution to the problem of estimating the pose of a calibrated camera given a single observation of an oriented point and an affine correspondence. The advantage of our approach (P1AC) is that it requires only a single correspondence, in comparison to the traditional point-based approach (P3P), significantly reducing the combinatorics in robust estimation. P1AC provides a general solution that removes restrictive assumptions made in prior work and is applicable to large-scale image-based localization. We propose two parameterizations of the P1AC problem and evaluate our novel solvers on synthetic data showing their numerical stability and performance under various types of noise. On standard image-based localization benchmarks we show that P1AC achieves more accurate results than the widely used P3P algorithm.
translated by 谷歌翻译
In this paper we present methods for triangulation of infinite cylinders from image line silhouettes. We show numerically that linear estimation of a general quadric surface is inherently a badly posed problem. Instead we propose to constrain the conic section to a circle, and give algebraic constraints on the dual conic, that models this manifold. Using these constraints we derive a fast minimal solver based on three image silhouette lines, that can be used to bootstrap robust estimation schemes such as RANSAC. We also present a constrained least squares solver that can incorporate all available image lines for accurate estimation. The algorithms are tested on both synthetic and real data, where they are shown to give accurate results, compared to previous methods.
translated by 谷歌翻译
我们考虑了一个类别级别的感知问题,其中给定的2D或3D传感器数据描绘了给定类别的对象(例如,汽车),并且必须重建尽管级别的可变性,但必须重建对象的3D姿势和形状(即,不同的汽车模型具有不同的形状)。我们考虑了一个主动形状模型,其中 - 对于对象类别 - 我们获得了一个潜在的CAD模型库,描述该类别中的对象,我们采用了标准公式,其中姿势和形状是通过非非2D或3D关键点估算的-convex优化。我们的第一个贡献是开发PACE3D*和PACE2D*,这是第一个使用3D和2D关键点进行姿势和形状估计的最佳最佳求解器。这两个求解器都依赖于紧密(即精确)半决赛的设计。我们的第二个贡献是开发两个求解器的异常刺激版本,命名为PACE3D#和PACE2D#。为了实现这一目标,我们提出了Robin,Robin是一种一般的图理论框架来修剪异常值,该框架使用兼容性超图来建模测量的兼容性。我们表明,在类别级别的感知问题中,这些超图可以是通过关键点(以2D)或其凸壳(以3D为单位)构建的,并且可以通过最大的超级计算来修剪许多异常值。最后的贡献是广泛的实验评估。除了在模拟数据集和Pascal数据集上提供消融研究外,我们还将求解器与深关键点检测器相结合,并证明PACE3D#在Apolloscape数据集中在车辆姿势估算中改进了最新技术,并且其运行时间是兼容的使用实际应用。
translated by 谷歌翻译
Outier-bubust估计是一个基本问题,已由统计学家和从业人员进行了广泛的研究。在过去的几年中,整个研究领域的融合都倾向于“算法稳定统计”,该统计数据的重点是开发可拖动的异常体 - 固定技术来解决高维估计问题。尽管存在这种融合,但跨领域的研究工作主要彼此断开。本文桥接了有关可认证的异常抗衡器估计的最新工作,该估计是机器人技术和计算机视觉中的几何感知,并在健壮的统计数据中并行工作。特别是,我们适应并扩展了最新结果对可靠的线性回归(适用于<< 50%异常值的低外壳案例)和列表可解码的回归(适用于>> 50%异常值的高淘汰案例)在机器人和视觉中通常发现的设置,其中(i)变量(例如旋转,姿势)属于非convex域,(ii)测量值是矢量值,并且(iii)未知的异常值是先验的。这里的重点是绩效保证:我们没有提出新算法,而是为投入测量提供条件,在该输入测量值下,保证现代估计算法可以在存在异常值的情况下恢复接近地面真相的估计值。这些条件是我们所谓的“估计合同”。除了现有结果的拟议扩展外,我们认为本文的主要贡献是(i)通过指出共同点和差异来统一平行的研究行,(ii)在介绍先进材料(例如,证明总和证明)中的统一行为。对从业者的可访问和独立的演讲,(iii)指出一些即时的机会和开放问题,以发出异常的几何感知。
translated by 谷歌翻译
我们引入了与针孔摄像机中图像形成相关的代数几何对象的地图集。地图集的节点是代数品种或它们的消失理想,分别通过投影,消除,限制或专业化相互关联。该地图集为研究3D计算机视觉中的问题提供了一个统一的框架。我们通过完全表征来自三角剖分问题的部分地图集来启动地图集的研究。我们以几个空旷的问题和地图集的概括结束。
translated by 谷歌翻译
在计算机视觉中,从3D几何实体之间的对应关系及其对图像的投影进行了摄影姿势估计已被广泛研究。尽管大多数最先进的方法利用了诸如点或线之类的低级原始方法,但近年来非常有效的基于CNN的对象探测器的出现为使用具有有意义语义有意义的高级功能铺平了道路信息。开拓性朝这个方向起作用,表明通过椭圆形对3D对象进行建模,而椭圆检测2D检测则提供了方便的方式来链接2D和3D数据。但是,相关垃圾中最常使用的数学形式主义不能轻易将椭圆形和椭圆形和其他四边形和圆锥形区分开,从而导致某些发展中可能有害的特异性丧失。此外,投影方程的线性化过程产生了相机参数的过度代表,也可能导致效率损失。因此,在本文中,我们引入了一个特定于椭圆形的理论框架,并在姿势估计的背景下证明了其有益的特性。更确切地说,我们首先表明拟议的形式主义使椭圆形姿势估计问题将其减少到仅位置或方向估计问题,其中剩余未知数可以以封闭形式得出。然后,我们证明它可以进一步简化为1个自由度(1DOF)问题,并提供姿势的分析表达,这是该唯一标量未知的函数。我们通过视觉示例说明了我们的理论考虑。最后,我们发布了这项工作,以便为更有效的椭圆形相关姿势估计问题做出贡献。
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
Incremental Structure-from-Motion is a prevalent strategy for 3D reconstruction from unordered image collections. While incremental reconstruction systems have tremendously advanced in all regards, robustness, accuracy, completeness, and scalability remain the key problems towards building a truly general-purpose pipeline. We propose a new SfM technique that improves upon the state of the art to make a further step towards this ultimate goal. The full reconstruction pipeline is released to the public as an open-source implementation.
translated by 谷歌翻译
图像是航天器导航和观察到的空间对象的三维重建的重要信息来源。当相机具有已知态度时,这两种应用都采用三角剖分问题的形式,并且从图像中提取的测量值是视线(LOS)方向。这项工作对三角剖分的历史和理论基础进行了全面的综述。回顾了多种经典三角算法,包括许多次优线性方法(许多LOS测量值)和Hartley和Sturm的最佳方法(只有两个LOS测量)。结果表明,使用新的线性最佳正弦三角剖分(丢失)方法,可以在没有迭代作为线性系统的情况下解决最佳的多测量情况。在仅进行两次测量的情况下,Hartley和Sturm的丢失和多项式方法都提供了相同的结果。通过一些数值示例评估了各种三角测量算法,包括行星地形相对导航,天王星的仅角度光学导航,巴黎圣母院的3-D重建以及仅角度的相对导航。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
We propose AstroSLAM, a standalone vision-based solution for autonomous online navigation around an unknown target small celestial body. AstroSLAM is predicated on the formulation of the SLAM problem as an incrementally growing factor graph, facilitated by the use of the GTSAM library and the iSAM2 engine. By combining sensor fusion with orbital motion priors, we achieve improved performance over a baseline SLAM solution. We incorporate orbital motion constraints into the factor graph by devising a novel relative dynamics factor, which links the relative pose of the spacecraft to the problem of predicting trajectories stemming from the motion of the spacecraft in the vicinity of the small body. We demonstrate the excellent performance of AstroSLAM using both real legacy mission imagery and trajectory data courtesy of NASA's Planetary Data System, as well as real in-lab imagery data generated on a 3 degree-of-freedom spacecraft simulator test-bed.
translated by 谷歌翻译
运动结构在现实世界中非常普遍。它们范围从简单的铰接物对象到复杂的机械系统。但是,尽管它们相关,但大多数基于模型的3D跟踪方法仅考虑刚性对象。为了克服这一限制,我们提出了一个灵活的框架,该框架允许将现有的6DOF算法扩展到运动结构。我们的方法着重于采用类似牛顿的优化技术的方法,这些方法广泛用于对象跟踪中。该框架考虑了树状和封闭的运动学结构,并允许对关节和约束的灵活配置。为了从单个刚体到多体系统的项目方程式,使用了雅各布人。对于封闭的运动链,开发了一种具有Lagrange乘数的新型配方。在详细的数学证明中,我们表明我们的约束配方会导致精确的运动解,并在单个迭代中收敛。基于提出的框架,我们将ICG扩展到了最新的刚性对象跟踪算法,将其扩展到多体跟踪。为了进行评估,我们创建了一个高度现实的合成数据集,该数据集具有大量序列和各种机器人。基于此数据集,我们进行了多种实验,这些实验证明了开发框架和我们的多体跟踪器的出色性能。
translated by 谷歌翻译
解决逆运动学问题是针对清晰机器人的运动计划,控制和校准的基本挑战。这些机器人的运动学模型通常通过关节角度进行参数化,从而在机器人构型和最终效果姿势之间产生复杂的映射。或者,可以使用机器人附加点之间的不变距离来表示运动学模型和任务约束。在本文中,我们将基于距离的逆运动学的等效性和大量铰接式机器人和任务约束的距离几何问题进行形式化。与以前的方法不同,我们使用距离几何形状和低级别矩阵完成之间的连接来通过局部优化完成部分欧几里得距离矩阵来找到逆运动学解决方案。此外,我们用固定级革兰氏矩阵的Riemannian歧管来参数欧几里得距离矩阵的空间,从而使我们能够利用各种成熟的Riemannian优化方法。最后,我们表明,绑定的平滑性可用于生成知情的初始化,而无需大量的计算开销,从而改善收敛性。我们证明,我们的逆运动求解器比传统技术获得更高的成功率,并且在涉及许多工作区约束的问题上大大优于它们。
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
拼图解决问题,从一组非重叠的无序视觉碎片构建一个连贯的整体,是许多应用的基础,然而,过去二十年的大部分文献都集中在较不太现实的谜题上正方形。在这里,我们正规化一种新型的拼图拼图,其中碎片是通过用任意数量的直切割的全局多边形/图像切割而产生的一般凸多边形,这是由庆祝的懒人辅助er序列的产生模型。我们分析了这种难题的理论特性,包括在碎片被几何噪声被污染时解决它们的固有挑战。为了应对此类困难并获得易行的解决方案,我们摘要作为一种具有分层循环约束和分层重建过程的多体弹簧质量动态系统的问题。我们定义了评估指标,并在普通植物和图案谜题上呈现实验结果,以表明它们是完全自动溶解的。
translated by 谷歌翻译