关键点检测和描述是计算机视觉系统中常用的构建块,特别是用于机器人和自主驾驶。然而,大多数迄今为止的技术都集中在标准相机上,几乎没有考虑到Fisheye相机,这些摄像机通常用于城市驾驶和自动停车处。在本文中,我们提出了一种用于鱼眼图像的新型培训和评估管道。我们利用SuperPoint作为我们的基线,这是一个自我监督的Keypoint检测器和描述符,该探测器和描述符已经实现了最先进的同位估计。我们介绍了一种Fisheye适应管道,以便在未造成的Fisheye图像上培训。我们通过在牛津机Robotcar数据集上引入用于检测可重复性和描述符的鱼眼基于评估方法来评估HPAPTES基准测试的性能。
translated by 谷歌翻译
This paper presents a self-supervised framework for training interest point detectors and descriptors suitable for a large number of multiple-view geometry problems in computer vision. As opposed to patch-based neural networks, our fully-convolutional model operates on full-sized images and jointly computes pixel-level interest point locations and associated descriptors in one forward pass. We introduce Homographic Adaptation, a multi-scale, multihomography approach for boosting interest point detection repeatability and performing cross-domain adaptation (e.g., synthetic-to-real). Our model, when trained on the MS-COCO generic image dataset using Homographic Adaptation, is able to repeatedly detect a much richer set of interest points than the initial pre-adapted deep model and any other traditional corner detector. The final system gives rise to state-of-the-art homography estimation results on HPatches when compared to LIFT, SIFT and ORB.
translated by 谷歌翻译
尽管提取了通过手工制作和基于学习的描述符实现的本地特征的进步,但它们仍然受到不符合非刚性转换的不变性的限制。在本文中,我们提出了一种计算来自静止图像的特征的新方法,该特征对于非刚性变形稳健,以避免匹配可变形表面和物体的问题。我们的变形感知当地描述符,命名优惠,利用极性采样和空间变压器翘曲,以提供旋转,尺度和图像变形的不变性。我们通过将等距非刚性变形应用于模拟环境中的对象作为指导来提供高度辨别的本地特征来培训模型架构端到端。该实验表明,我们的方法优于静止图像中的实际和现实合成可变形对象的不同数据集中的最先进的手工制作,基于学习的图像和RGB-D描述符。描述符的源代码和培训模型在https://www.verlab.dcc.ufmg.br/descriptors/neUrips2021上公开可用。
translated by 谷歌翻译
小天体的任务在很大程度上依赖于光学特征跟踪,以表征和相对导航。尽管深度学习导致了功能检测和描述方面的巨大进步,但由于大规模,带注释的数据集的可用性有限,因此培训和验证了空间应用程序的数据驱动模型具有挑战性。本文介绍了Astrovision,这是一个大规模数据集,由115,970个密集注释的,真实的图像组成,这些图像是过去和正在进行的任务中捕获的16个不同物体的真实图像。我们利用Astrovision开发一组标准化基准,并对手工和数据驱动的功能检测和描述方法进行详尽的评估。接下来,我们采用Astrovision对最先进的,深刻的功能检测和描述网络进行端到端培训,并在多个基准测试中表现出改善的性能。将公开使用完整的基准管道和数据集,以促进用于空间应用程序的计算机视觉算法的发展。
translated by 谷歌翻译
Local feature detection is a key ingredient of many image processing and computer vision applications, such as visual odometry and localization. Most existing algorithms focus on feature detection from a sharp image. They would thus have degraded performance once the image is blurred, which could happen easily under low-lighting conditions. To address this issue, we propose a simple yet both efficient and effective keypoint detection method that is able to accurately localize the salient keypoints in a blurred image. Our method takes advantages of a novel multi-layer perceptron (MLP) based architecture that significantly improve the detection repeatability for a blurred image. The network is also light-weight and able to run in real-time, which enables its deployment for time-constrained applications. Extensive experimental results demonstrate that our detector is able to improve the detection repeatability with blurred images, while keeping comparable performance as existing state-of-the-art detectors for sharp images.
translated by 谷歌翻译
可学习的关键点探测器和描述符开始超过经典的手工制作的特征提取方法。关于视觉表示的自我监督学习的最新研究推动了基于深网的可学习模型的不断增长。通过利用传统的数据增强和本性转换,这些网络学会在不利条件下检测到拐角,例如极端照明变化。但是,它们的概括功能仅限于通过经典方法或合成生成的数据检测到的类似角的特征。在本文中,我们提出了对应网络(Corrnet),该网络学会了检测可重复的关键点并通过在空间约束下通过无监督的对比度学习提取歧视性描述。我们的实验表明,Corrnet不仅能够检测到诸如角落之类的低级特征,还可以通过我们提议的关节引导的潜在空间反向传播来代表一对输入图像中存在相似对象的高级特征。我们的方法在视点变化下获得了竞争结果,并在照明变化下实现了最先进的性能。
translated by 谷歌翻译
在许多计算机视觉管道中,在图像之间建立一组稀疏的关键点相关性是一项基本任务。通常,这转化为一个计算昂贵的最近邻居搜索,必须将一个图像的每个键盘描述符与其他图像的所有描述符进行比较。为了降低匹配阶段的计算成本,我们提出了一个能够检测到每个图像处的互补关键集的深度提取网络。由于仅需要在不同图像上比较同一组中的描述符,因此匹配相计算复杂度随集合数量而降低。我们训练我们的网络以预测关键点并共同计算相应的描述符。特别是,为了学习互补的关键点集,我们引入了一种新颖的无监督损失,对不同集合之间的交叉点进行了惩罚。此外,我们提出了一种基于描述符的新型加权方案,旨在惩罚使用非歧视性描述符的关键点的检测。通过广泛的实验,我们表明,我们的功能提取网络仅在合成的扭曲图像和完全无监督的方式进行训练,以降低匹配的复杂性,在3D重建和重新定位任务上取得了竞争成果。
translated by 谷歌翻译
This paper introduces SuperGlue, a neural network that matches two sets of local features by jointly finding correspondences and rejecting non-matchable points. Assignments are estimated by solving a differentiable optimal transport problem, whose costs are predicted by a graph neural network. We introduce a flexible context aggregation mechanism based on attention, enabling SuperGlue to reason about the underlying 3D scene and feature assignments jointly. Compared to traditional, hand-designed heuristics, our technique learns priors over geometric transformations and regularities of the 3D world through end-to-end training from image pairs. SuperGlue outperforms other learned approaches and achieves state-of-the-art results on the task of pose estimation in challenging real-world indoor and outdoor environments. The proposed method performs matching in real-time on a modern GPU and can be readily integrated into modern SfM or SLAM systems. The code and trained weights are publicly available at github.com/magicleap/SuperGluePretrainedNetwork.
translated by 谷歌翻译
In this paper, we propose an end-to-end framework that jointly learns keypoint detection, descriptor representation and cross-frame matching for the task of image-based 3D localization. Prior art has tackled each of these components individually, purportedly aiming to alleviate difficulties in effectively train a holistic network. We design a self-supervised image warping correspondence loss for both feature detection and matching, a weakly-supervised epipolar constraints loss on relative camera pose learning, and a directional matching scheme that detects key-point features in a source image and performs coarse-to-fine correspondence search on the target image. We leverage this framework to enforce cycle consistency in our matching module. In addition, we propose a new loss to robustly handle both definite inlier/outlier matches and less-certain matches. The integration of these learning mechanisms enables end-to-end training of a single network performing all three localization components. Bench-marking our approach on public data-sets, exemplifies how such an end-to-end framework is able to yield more accurate localization that out-performs both traditional methods as well as state-of-the-art weakly supervised methods.
translated by 谷歌翻译
我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
我们提出了一种新颖的端到端方法,用于在事件流中进行关键点检测和跟踪,该方法比以前的方法提供了更好的精度和更长的关键点轨道。两项贡献共同努力使这成为可能。首先,我们提出了一个简单的过程来生成稳定的关键点标签,我们用来训练复发架构。该培训数据导致检测随着时间的推移非常一致。此外,我们观察到以前的按键检测方法在一段时间内集成事件的表示形式(例如时间表面)。由于需要这种集成,因此我们声称最好预测时间段的关键点的轨迹,而不是单个位置,如先前的方法中所做的那样。我们以一系列热图的形式预测这些轨迹在整合时间段。这可以改善关键点本地化。我们的体系结构也可以保持非常简单,从而导致非常快的推理时间。我们在HVGA ATIS角数据集以及“事件相机数据集和模拟器”数据集上演示了我们的方法,并将其显示为“关键点”轨道的三倍,几乎是最好的先前最佳先前最佳先前的轨道轨迹。 - 艺术方法。我们认为我们的方法可以推广到其他基于事件的相机问题,并发布我们的源代码以鼓励其他作者探索它。
translated by 谷歌翻译
对应匹配是计算机视觉和机器人技术应用中的一个基本问题。最近使用神经网络解决对应匹配问题最近正在上升。旋转等级和比例等级性在对应匹配应用中都至关重要。经典的对应匹配方法旨在承受缩放和旋转转换。但是,使用卷积神经网络(CNN)提取的功能仅在一定程度上是翻译等值的。最近,研究人员一直在努力改善基于群体理论的CNN的旋转均衡性。 SIM(2)是2D平面中的相似性转换组。本文介绍了专门用于评估SIM(2) - 等级对应算法的专门数据集。我们比较了16个最先进(SOTA)对应匹配方法的性能。实验结果表明,在各种SIM(2)转换条件下,组模棱两可算法对于对应匹配的重要性。由于基于CNN的对应匹配方法达到的子像素精度不令人满意,因此该特定领域需要在未来的工作中获得更多关注。我们的数据集可公开可用:mias.group/sim2e。
translated by 谷歌翻译
Sparse local feature extraction is usually believed to be of important significance in typical vision tasks such as simultaneous localization and mapping, image matching and 3D reconstruction. At present, it still has some deficiencies needing further improvement, mainly including the discrimination power of extracted local descriptors, the localization accuracy of detected keypoints, and the efficiency of local feature learning. This paper focuses on promoting the currently popular sparse local feature learning with camera pose supervision. Therefore, it pertinently proposes a Shared Coupling-bridge scheme with four light-weight yet effective improvements for weakly-supervised local feature (SCFeat) learning. It mainly contains: i) the \emph{Feature-Fusion-ResUNet Backbone} (F2R-Backbone) for local descriptors learning, ii) a shared coupling-bridge normalization to improve the decoupling training of description network and detection network, iii) an improved detection network with peakiness measurement to detect keypoints and iv) the fundamental matrix error as a reward factor to further optimize feature detection training. Extensive experiments prove that our SCFeat improvement is effective. It could often obtain a state-of-the-art performance on classic image matching and visual localization. In terms of 3D reconstruction, it could still achieve competitive results. For sharing and communication, our source codes are available at https://github.com/sunjiayuanro/SCFeat.git.
translated by 谷歌翻译
在双胞胎输血综合征(TTTS)中,单座管胎盘中的异常血管吻合可能会在两个胎儿之间产生不均匀的流量。在当前的实践中,通过使用激光消融闭合异常吻合来对TTT进行手术治疗。该手术在最小的侵入性中依赖于胎儿镜检查。有限的视野使吻合术识别成为外科医生的具有挑战性的任务。为了应对这一挑战,我们提出了一个基于学习的框架,用于视野扩展的体内胎儿镜框架注册。该框架的新颖性依赖于基于学习的关键点提案网络以及基于胎儿镜图像细分和(ii)不一致的同符的编码策略(i)无关的关键点。我们在来自6个不同女性的6个TTT手术的6个术中序列的数据集中验证了我们的框架,这是根据最新的最新算法状态,该算法依赖于胎盘血管的分割。与艺术的状态相比,提出的框架的性能更高,为稳健的马赛克在TTTS手术期间提供背景意识铺平了道路。
translated by 谷歌翻译
兴趣点检测是计算机视觉和图像处理中最根本,最关键的问题之一。在本文中,我们对图像特征信息(IFI)提取技术进行了全面综述,以进行利益点检测。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了IFI提取技术的分类学检测。根据该分类法,我们讨论了不同类型的IFI提取技术以进行兴趣点检测。此外,我们确定了与现有的IFI提取技术有关的主要未解决的问题,以及以前尚未讨论过的任何兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估和讨论了18种最先进方法的性能。此外,还详细阐述了有关IFI提取技术的未来研究方向。
translated by 谷歌翻译
本文介绍了一种用于水下车辆机械手系统(UVMS)的新型视野映射方法,具有特定强调自然海底环境中的鲁棒映射。水下场景映射的先前方法通常会离线处理数据,而实时运行的现有水下SLAM方法通常会集中在本地化上而不是映射。我们的方法使用GPU加速SIFT功能在图形优化框架中构建一个特征映射。地图刻度由车辆安装的立体声相机的特征约束,我们通过将机械手系统的动态定位能力从手腕安装的Fisheye摄像机融合到地图中,以将其延伸到车辆安装摄像机的有限视点之外。我们的混合SLAM方法是在Costa rican Continental Shelf级别的自然深海环境中采用UVMS收集的挑战性图像序列,我们还在浅礁调查数据集中评估立体声的立体声。这些数据集的结果证明了我们的系统的高准确性,适合于在不同的自然海底环境中运营。
translated by 谷歌翻译
在本文中,我们学习了我们使用首先构建地图的可视化功能,然后在整天的照明变化中,包括在暗中驾驶的机器人。我们训练一个神经网络,以预测具有相关描述符和分数的稀疏关键点,可以与古典姿势估计器一起使用以进行本地化。我们的培训管道包括一个可差化的姿势估计,使得培训可以通过预先收集的数据,从预先收集的数据姿势进行监督,从2016年和2017年聚集使用多体验视觉教学和重复(VT&R)。我们将学习功能插入现有的VT&R管道,以在非结构化的户外环境中执行闭环路径。我们在所有照明条件下都显示出在所有照明条件的成功路径,尽管是使用日光条件构建的机器人的地图。此外,我们通过在特征训练数据集中不存在的新区域中的所有照明条件下驱动机器人来探讨特征的普遍性。总而言之,我们在具有挑战性条件下进行了35.5公里处以35.5公里的自主途径进行了验证。
translated by 谷歌翻译
In this paper, we present a novel scale-and rotation-invariant interest point detector and descriptor, coined SURF (Speeded Up Robust Features). It approximates or even outperforms previously proposed schemes with respect to repeatability, distinctiveness, and robustness, yet can be computed and compared much faster.This is achieved by relying on integral images for image convolutions; by building on the strengths of the leading existing detectors and descriptors (in casu, using a Hessian matrix-based measure for the detector, and a distribution-based descriptor); and by simplifying these methods to the essential. This leads to a combination of novel detection, description, and matching steps. The paper presents experimental results on a standard evaluation set, as well as on imagery obtained in the context of a real-life object recognition application. Both show SURF's strong performance.
translated by 谷歌翻译
摄像机是自动化驱动系统中的主要传感器。它们提供高信息密度,并对检测为人类视野提供的道路基础设施线索最优。环绕式摄像机系统通常包括具有190 {\ DEG} +视野的四个鱼眼相机,覆盖在车辆周围的整个360 {\ DEG}集中在近场传感上。它们是低速,高精度和近距离传感应用的主要传感器,如自动停车,交通堵塞援助和低速应急制动。在这项工作中,我们提供了对这种视觉系统的详细调查,在可以分解为四个模块化组件的架构中,设置调查即可识别,重建,重建和重组。我们共同称之为4R架构。我们讨论每个组件如何完成特定方面,并提供一个位置论证,即它们可以协同组织以形成用于低速自动化的完整感知系统。我们通过呈现来自以前的作品的结果,并通过向此类系统提出架构提案来支持此参数。定性结果在视频中呈现在HTTPS://youtu.be/ae8bcof7777uy中。
translated by 谷歌翻译