在这项工作中,我们使用最近引入的动态优化算法(DOA)解决了现实世界应用中IA的动态优化问题(DOA),该算法(DOA)最近引入了最近引入的。我们使用FDA从隧道上进行CCTV摄像头饲料进行IA。由于摄像机的观点可以通过多种原因(例如风,维护等)变化。需要对齐来保证基于视频的流量安全系统的正确功能。
translated by 谷歌翻译
机器人钉孔组件由于其准确性的高度需求而仍然是一项具有挑战性的任务。先前的工作倾向于通过限制最终效果的自由度,或限制目标与初始姿势位置之间的距离来简化问题,从而阻止它们部署在现实世界中。因此,我们提出了一种粗到精细的视觉致毒(CFV)钉孔法,基于3D视觉反馈实现了6DOF最终效应器运动控制。CFV可以通过在细化前进行快速姿势估计来处理任意倾斜角度和较大的初始对齐误差。此外,通过引入置信度图来忽略对象无关的轮廓,CFV可以抵抗噪声,并且可以处理训练数据以外的各种目标。广泛的实验表明,CFV的表现优于最先进的方法,并分别获得100%,91%和82%的平均成功率,分别为3-DOF,4-DOF和6-DOF PEG-IN-IN-HOLE。
translated by 谷歌翻译
This paper presents a robust end-to-end method for sports cameras extrinsic parameters optimization using a novel evolution strategy. First, we developed a neural network architecture for an edge or area-based segmentation of a sports field. Secondly, we implemented the evolution strategy, which purpose is to refine extrinsic camera parameters given a single, segmented sports field image. Experimental comparison with state-of-the-art camera pose refinement methods on real-world data demonstrates the superiority of the proposed algorithm. We also perform an ablation study and propose a way to generalize the method to additionally refine the intrinsic camera matrix.
translated by 谷歌翻译
由于其对环境变化的鲁棒性,视觉猛感的间接方法是受欢迎的。 ORB-SLAM2 \ CITE {ORBSLM2}是该域中的基准方法,但是,除非选择帧作为关键帧,否则它会消耗从未被重用的描述符。轻量级和高效,因为它跟踪相邻帧之间的关键点而不计算描述符。为此,基于稀疏光流提出了一种两个级粗到微小描述符独立的Keypoint匹配方法。在第一阶段,我们通过简单但有效的运动模型预测初始关键点对应,然后通过基于金字塔的稀疏光流跟踪鲁棒地建立了对应关系。在第二阶段,我们利用运动平滑度和末端几何形状的约束来改进对应关系。特别是,我们的方法仅计算关键帧的描述符。我们在\ texit {tum}和\ texit {icl-nuim} RGB-D数据集上测试Fastorb-Slam,并将其准确性和效率与九种现有的RGB-D SLAM方法进行比较。定性和定量结果表明,我们的方法实现了最先进的准确性,并且大约是ORB-SLAM2的两倍。
translated by 谷歌翻译
全球定位系统(GPS)已成为我们日常生活的一部分,其主要目标是提供地理位置服务。对于无人驾驶系统(UAS),地理定位能力是极为重要的必要性,使用惯性导航系统(INS)伴随着GPS的心脏而实现。没有地理位置服务,UAS将无法飞往目的地或回家。不幸的是,GPS信号可能会被堵塞,并在Urban Canyons中遇到多路径问题。我们的目标是提出一种替代方法,以降级或拒绝GPS信号时地理位置化UA。考虑到UAS在其平台上具有下降摄像头,可以在平台飞行时获得实时图像,因此我们将现代深度学习技术应用于地理定位。特别是,我们执行图像匹配,以在UAS获得的图像和卫星正尾之间建立潜在特征共轭物。特征匹配的典型应用遭受高层建筑物和该领域的新结构的影响,这些建筑物将不确定性引入同型估算中,因此导致地理定位性能差。取而代之的是,我们将GIS信息从OpenStreetMap(OSM)提取到语义段匹配的功能中,以纳入建筑物和地形类。 GIS掩码在选择语义匹配的功能时可以作为过滤器,从而增强了Coplanarity条件和UAS地理定位精度。发表论文后,我们的代码将在https://github.com/osupcvlab/ubiheredrone2021上公开获得。
translated by 谷歌翻译
注册森林环境的点云是精密林业局部激光雷达应用的必要先决条件。最先进的森林点云登记方法需要提取单个树属性,并且在处理具有致密树的真实森林点云时,它们具有效率的瓶颈。我们提出了一种自动,坚固,高效的方法,用于登记森林点云。我们的方法首先定位树从原料点云茎,然后根据他们的相对空间关系确定准变换茎匹配。相较于现有的方法,我们的算法不需要额外的单株属性,具有线性复杂的环境中的树木数量,允许它的大森林环境对齐点云。广泛的实验表明,我们的方法优于关于登记精度和稳健性的最先进的方法,并且在效率方面显着优于现有技术。此外,我们引入一个新的基准数据集,补充的开发和注册方法评价森林点云的极少数现有的开放的数据集。
translated by 谷歌翻译
我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译
我们介绍了日常桌面对象的998 3D型号的数据集及其847,000个现实世界RGB和深度图像。每个图像的相机姿势和对象姿势的准确注释都以半自动化方式执行,以促进将数据集用于多种3D应用程序,例如形状重建,对象姿势估计,形状检索等。3D重建由于缺乏适当的现实世界基准来完成该任务,并证明我们的数据集可以填补该空白。整个注释数据集以及注释工具和评估基线的源代码可在http://www.ocrtoc.org/3d-reconstruction.html上获得。
translated by 谷歌翻译
关键点匹配是多个图像相关应用的关键组件,例如图像拼接,视觉同时定位和映射(SLAM)等。基于手工制作和最近出现的深度学习的关键点匹配方法仅依赖于关键点和本地功能,同时在上述应用中丢失其他可用传感器(如惯性测量单元(IMU))的视觉。在本文中,我们证明IMU集成的运动估计可用于利用图像之间的关键点之前的空间分布。为此,提出了一种注意力制剂的概率视角,以自然地将空间分布集成到注意力图神经网络中。在空间分布的帮助下,可以减少用于建模隐藏特征的网络的努力。此外,我们为所提出的关键点匹配网络提出了一个投影损耗,它在匹配和未匹配的关键点之间提供了平滑的边缘。图像匹配在Visual Slam数据集上的实验表明了呈现的方法的有效性和效率。
translated by 谷歌翻译
经典的视觉同时定位和映射(SLAM)算法通常假设环境是刚性的。此假设限制了这些算法的适用性,因为它们无法准确估算包含移动物体的现实生活场景中的相机姿势和世界结构(例如汽车,自行车,行人等)。为了解决这个问题,我们提出了Twistlam:一种语义,动态和立体声猛击系统,可以跟踪环境中的动态对象。我们的算法根据其语义类创建积分群。得益于通过机械关节建模的集群间约束(语义类的功能)的定义,因此,新颖的约束束调整能够共同估计移动物体的姿势和速度以及古典世界结构和摄像机轨迹。我们对公共Kitti数据集的多个序列进行了评估,并定量证明它与最新方法相比改进了相机和对象跟踪。
translated by 谷歌翻译
我们研究学习特征姿势的问题,即比例和方向,以构成感兴趣的图像区域。尽管它显然很简单,但问题是不平凡的。很难获得具有模型直接从中学习的明确姿势注释的大规模图像区域。为了解决这个问题,我们通过直方图对准技术提出了一个自制的学习框架。它通过随机重新缩放/旋转来生成成对的图像贴片,然后训练估计器以预测其比例/方向值,从而使其相对差异与所使用的重新分组/旋转一致。估算器学会了预测规模/方向的非参数直方图分布,而无需任何监督。实验表明,它在规模/方向估计中显着优于先前的方法,还可以通过将我们的斑块姿势纳入匹配过程中来改善图像匹配和6个DOF相机姿势估计。
translated by 谷歌翻译
我们考虑一个对象姿势估计和模型拟合问题,其中 - 给定对象的部分点云 - 目标是通过将CAD模型拟合到传感器数据来估计对象姿势。我们通过组合(i)基于语义关键点的姿势估计模型,(ii)一种新型的自我监督训练方法以及(iii)认证程序,不仅验证模型产生的输出是否正确,解决了这个问题。是否没有,但也标志着产生的解决方案的唯一性。语义关键点检测器模型最初是在模拟中训练的,并且由于域间隙而在实际数据上表现不佳。我们的自我监督培训程序使用校正器和认证模块来改善检测器。校正器模块纠正检测到的关键点以补偿域间隙,并作为声明性层实现,我们为其制定一个简单的分化规则。认证模块声明该模型产生的校正输出是否可认证(即正确)。在每次迭代中,该方法对仅由可认证输入输出对引起的损失进行优化。随着培训的进行,我们看到可认证的输出的比例增加,在许多情况下最终达到了$ 100 \%$。我们还介绍了强认证性的概念,其中该模型可以确定预测的对象模型拟合是否唯一。检测到的语义关键可以帮助我们在前向通行证中实施这一点。我们进行了广泛的实验,以评估使用Shapenet和YCB数据集的纠正措施,认证和提议的自我监督培训的培训,并显示所提出的方法可以在不需要完全监督的基线的情况下实现与完全有监督的基线相当的性能数据。
translated by 谷歌翻译
6-DOF的视觉定位系统利用植根于3D几何形状的原则方法来对图像进行准确的摄像头姿势估计图。当前的技术使用层次管道并学到了2D功能提取器来提高可扩展性并提高性能。但是,尽管典型召回@0.25m类型的指标获得了,但由于其“最差”性能领域,这些系统仍然对实际应用(如自动驾驶汽车)的实用性有限 - 在某种程度上提供不足的召回率的位置。在这里,我们研究了使用“位置特定配置”的实用性,其中将地图分割为多个位置,每个位置都有自己的配置,用于调节姿势估计步骤,在这种情况下,在多摄像机系统中选择摄像机。在福特AV基准数据集上,我们证明了与使用现成管道相比,我们证明了最大的最差案例定位性能 - 最小化数据集的百分比,该数据集的百分比降低了一定的误差耐受性,并提高了整体定位性能。我们提出的方法尤其适用于自动驾驶汽车部署的众群体模型,在该模型中,AV机队定期穿越已知的路线。
translated by 谷歌翻译
多视图点云注册在3D重建中至关重要。由于从不同角度捕获的点云之间存在密切的连接,因此如果正确利用这些连接,则可以增强注册性能。因此,本文将注册问题建模为多任务优化,并提出了一种新颖的双通道知识共享机制,以有效,有效地解决问题。多视点云注册作为多任务优化的建模是双重的。通过同时考虑两个点云的局部精度以及所涉及的所有点云带来的全局一致性,得出了具有自适应阈值的健身函数。还定义了共同进化搜索过程的框架,以同时优化属于相关任务的多个健身函数。为了提高解决方案质量和收敛速度,拟议的双通道知识共享机制发挥了作用。任务内的知识共享引入了求解更简单的帮助任务,并且在辅助任务和原始任务上共享有用的信息,从而加速了搜索过程。任务间知识共享探讨了原始任务中埋葬的共同点,旨在防止任务陷入本地Optima。在模型对象以及场景点云上进行的综合实验显示了所提出的方法的功效。
translated by 谷歌翻译
我们提出了一种基于相交的球体的新型关键点投票方案,其比现有方案更准确,并且允许较小的更多分散关键点。该方案基于点之间的距离,其作为1D数量可以比在先前的工作中的2D和3D向量和偏移量中更精确地回归,从而产生更准确的小点定位。该方案构成了RGB-D数据中的6 DOF姿势估计的所提出的RCVPOS方法的基础,这在处理闭塞时特别有效。训练CNN以估计与每个RGB像素的深度模式对应的3D点之间的距离,以及在对象帧中定义的一组3分散键点。在推断下,产生在每个3D点处的球体,其半径等于该估计距离。这些球体的表面投票给增量3D累加器空间,其峰值指示Keypoint位置。所提出的径向投票方案比以前的矢量或偏移方案更准确,并且稳健地分散关键点。实验表明,RCPOSE是高度准确和竞争的,在LineMod 99.7%和YCB-Video 97.2%数据集上实现最先进的结果,显着得分+ 7.9%(71.1%)比以前的挑战遮挡Linemod上的方法数据集。
translated by 谷歌翻译
Differentiable rendering aims to compute the derivative of the image rendering function with respect to the rendering parameters. This paper presents a novel algorithm for 6-DoF pose estimation through gradient-based optimization using a differentiable rendering pipeline. We emphasize two key contributions: (1) instead of solving the conventional 2D to 3D correspondence problem and computing reprojection errors, images (rendered using the 3D model) are compared only in the 2D feature space via sparse 2D feature correspondences. (2) Instead of an analytical image formation model, we compute an approximate local gradient of the rendering process through online learning. The learning data consists of image features extracted from multi-viewpoint renders at small perturbations in the pose neighborhood. The gradients are propagated through the rendering pipeline for the 6-DoF pose estimation using nonlinear least squares. This gradient-based optimization regresses directly upon the pose parameters by aligning the 3D model to reproduce a reference image shape. Using representative experiments, we demonstrate the application of our approach to pose estimation in proximity operations.
translated by 谷歌翻译
在这项研究中,我们提出了一种新型的视觉定位方法,以根据RGB摄像机的可视数据准确估计机器人在3D激光镜头内的六个自由度(6-DOF)姿势。使用基于先进的激光雷达的同时定位和映射(SLAM)算法,可获得3D地图,能够收集精确的稀疏图。将从相机图像中提取的功能与3D地图的点进行了比较,然后解决了几何优化问题,以实现精确的视觉定位。我们的方法允许使用配备昂贵激光雷达的侦察兵机器人一次 - 用于映射环境,并且仅使用RGB摄像头的多个操作机器人 - 执行任务任务,其本地化精度高于常见的基于相机的解决方案。该方法在Skolkovo科学技术研究所(Skoltech)收集的自定义数据集上进行了测试。在评估本地化准确性的过程中,我们设法达到了厘米级的准确性;中间翻译误差高达1.3厘米。仅使用相机实现的确切定位使使用自动移动机器人可以解决需要高度本地化精度的最复杂的任务。
translated by 谷歌翻译
Point cloud registration (PCR) is a popular research topic in computer vision. Recently, the registration method in an evolutionary way has received continuous attention because of its robustness to the initial pose and flexibility in objective function design. However, most evolving registration methods cannot tackle the local optimum well and they have rarely investigated the success ratio, which implies the probability of not falling into local optima and is closely related to the practicality of the algorithm. Evolutionary multi-task optimization (EMTO) is a widely used paradigm, which can boost exploration capability through knowledge transfer among related tasks. Inspired by this concept, this study proposes a novel evolving registration algorithm via EMTO, where the multi-task configuration is based on the idea of solution space cutting. Concretely, one task searching in cut space assists another task with complex function landscape in escaping from local optima and enhancing successful registration ratio. To reduce unnecessary computational cost, a sparse-to-dense strategy is proposed. In addition, a novel fitness function robust to various overlap rates as well as a problem-specific metric of computational cost is introduced. Compared with 7 evolving registration approaches and 4 traditional registration approaches on the object-scale and scene-scale registration datasets, experimental results demonstrate that the proposed method has superior performances in terms of precision and tackling local optima.
translated by 谷歌翻译
在本文中,我们提出了一个基于对象的摄像头姿势效果估计,并从单个RGB图像和以椭圆形模型表示的对象图中构建图。我们表明,与点对应关系相反,表征3D对象在2D对象检测上的投影的成本函数的定义并不简单。我们根据水平集采样开发了椭圆形成本,展示了其处理部分可见对象并将其性能与其他常见指标进行比较的良好属性。最后,我们表明,在检测到的椭圆上使用预测性不确定性允许对对应关系的贡献进行公平的权衡,从而改善了计算的姿势。该代码在https://gitlab.inria.fr/tangram/level-set基于camera-pose-Estimation上发布。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译