在这项工作中,我们分析了两个卫星之间的相对姿势初始化问题:一个追逐者和一个不合作目标。该分析针对两种基于单眼摄像头系统的近距离方法:Sharma-ventura-d'amico(SVD)方法和Silhouette匹配方法。两种方法均基于对目标几何形状的先验知识,但是不需要基准标记或先验范围的测量或状态信息。测试是使用2U立方体模型进行的,该目标是连接到机动旋转阶段的目标,以模拟其相对于追赶者摄像机的相对运动。运动捕获系统用作参考仪器,该工具提供了两个模型之间的基准相对运动,并允许评估所分析的初始化算法的性能。
translated by 谷歌翻译
Differentiable rendering aims to compute the derivative of the image rendering function with respect to the rendering parameters. This paper presents a novel algorithm for 6-DoF pose estimation through gradient-based optimization using a differentiable rendering pipeline. We emphasize two key contributions: (1) instead of solving the conventional 2D to 3D correspondence problem and computing reprojection errors, images (rendered using the 3D model) are compared only in the 2D feature space via sparse 2D feature correspondences. (2) Instead of an analytical image formation model, we compute an approximate local gradient of the rendering process through online learning. The learning data consists of image features extracted from multi-viewpoint renders at small perturbations in the pose neighborhood. The gradients are propagated through the rendering pipeline for the 6-DoF pose estimation using nonlinear least squares. This gradient-based optimization regresses directly upon the pose parameters by aligning the 3D model to reproduce a reference image shape. Using representative experiments, we demonstrate the application of our approach to pose estimation in proximity operations.
translated by 谷歌翻译
这项工作介绍了斯坦福大学的Rendezvous和光学导航(Tron)的机器人测试的最新进展 - 这是一个能够验证空间载光学导航机器学习算法的第一个机器人试验。 Tron设施包括两个6度自由的Kuka机器人武器和一组Vicon运动轨道摄像机,以重新配置相机和目标样机模型之间的任意相对姿势。该设施包括多个地球玻璃灯箱和阳光灯,以重建高保真星源照明条件。在该设施概述后,该工作详细说明了多源校准程序,使物体与相机之间的相对姿势估计,具有毫米级位置和跨越级别的方向精度。最后,使用在合成图像上预先培训的卷积神经网络(CNN)进行合成和Tron模拟成像的比较分析。结果显示了CNN性能相当大的差距,表明Tron模拟图像可用于验证从计算机图形学更容易访问的合成图像训练的任何机器学习算法的鲁棒性。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
This paper proposes a novel application system for the generation of three-dimensional (3D) character animation driven by markerless human body motion capturing. The entire pipeline of the system consists of five stages: 1) the capturing of motion data using multiple cameras, 2) detection of the two-dimensional (2D) human body joints, 3) estimation of the 3D joints, 4) calculation of bone transformation matrices, and 5) generation of character animation. The main objective of this study is to generate a 3D skeleton and animation for 3D characters using multi-view images captured by ordinary cameras. The computational complexity of the 3D skeleton reconstruction based on 3D vision has been reduced as needed to achieve frame-by-frame motion capturing. The experimental results reveal that our system can effectively and efficiently capture human actions and use them to animate 3D cartoon characters in real-time.
translated by 谷歌翻译
本文介绍了基于神经网络的无气体卡尔曼滤波器(UKF),以跟踪已知的,非合作的,翻滚的目标航天飞机的姿势(即位置和方向),以近距离呈现场景。 UKF根据使用卷积神经网络(CNN)从目标航天器的传入单眼图像中提取的姿势信息估计目标相对于服务器的相对轨道和态度状态。为了启用可靠的跟踪,使用自适应状态噪声补偿在线调整UKF的过程噪声协方差矩阵。具体而言,新得出和实现了相对态度动力学的封闭形式的过程噪声模型。为了全面分析提议的CNN驱动UKF的性能和鲁棒性,本文还介绍了卫星硬件在环上的轨迹轨迹(衬衫)数据集,其中包括两个具有代表性的聚会轨迹的标签图像低地球轨道。对于每个轨迹,分别从图形渲染器和机器人测试台创建了两组图像,以允许测试跨域间隙的滤波器的鲁棒性。拟议的UKF在衬衫的两个轨迹领域进行了评估,并被证明在稳态下具有次数级的位置和程度级别的方向误差。
translated by 谷歌翻译
小天体的任务在很大程度上依赖于光学特征跟踪,以表征和相对导航。尽管深度学习导致了功能检测和描述方面的巨大进步,但由于大规模,带注释的数据集的可用性有限,因此培训和验证了空间应用程序的数据驱动模型具有挑战性。本文介绍了Astrovision,这是一个大规模数据集,由115,970个密集注释的,真实的图像组成,这些图像是过去和正在进行的任务中捕获的16个不同物体的真实图像。我们利用Astrovision开发一组标准化基准,并对手工和数据驱动的功能检测和描述方法进行详尽的评估。接下来,我们采用Astrovision对最先进的,深刻的功能检测和描述网络进行端到端培训,并在多个基准测试中表现出改善的性能。将公开使用完整的基准管道和数据集,以促进用于空间应用程序的计算机视觉算法的发展。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
We propose AstroSLAM, a standalone vision-based solution for autonomous online navigation around an unknown target small celestial body. AstroSLAM is predicated on the formulation of the SLAM problem as an incrementally growing factor graph, facilitated by the use of the GTSAM library and the iSAM2 engine. By combining sensor fusion with orbital motion priors, we achieve improved performance over a baseline SLAM solution. We incorporate orbital motion constraints into the factor graph by devising a novel relative dynamics factor, which links the relative pose of the spacecraft to the problem of predicting trajectories stemming from the motion of the spacecraft in the vicinity of the small body. We demonstrate the excellent performance of AstroSLAM using both real legacy mission imagery and trajectory data courtesy of NASA's Planetary Data System, as well as real in-lab imagery data generated on a 3 degree-of-freedom spacecraft simulator test-bed.
translated by 谷歌翻译
基于自主视觉的太空传播导航是未来轨道服务和空间物流任务的启用技术。虽然一般的计算机愿景受益于机器学习(ML),但由于在空间环境中获取了预期目标的图像的图像的大规模标记数据集的不切实性,培训和验证的星式载体ML模型非常具有挑战性。迄今为止,诸如航天器姿势估计数据集(速度)的现有数据集主要依赖于培训和验证的合成图像,这很容易批量生产,但不能类似于目标星载图像固有的视觉特征和照明可变性。为了弥合当前实践与未来空间任务中的预期应用之间的差距,介绍了速度+:下一代航天器姿势估计数据集具有特定强调域间隙。除了用于训练的60,000个合成图像外,Speed +还包括从Rendezvous和光学导航(Tron)设施的试验台捕获的航天器模型模型的9,531个硬件映像。 Tron是一种专门的机器人测试用机器,能够以准确和最大多样化的姿势标签和高保真星载照明条件捕获任意数量的目标图像。 Speed +用于由平板和欧洲空间机构的平板和高级概念团队共同主办的第二次国际卫星造型估算挑战,以评估和比较在合成图像上培训的星式载ML模型的稳健性。
translated by 谷歌翻译
来自运动(SFM)技术的结构越来越多地用于从包括环境监测的许多域中的图像中创建3D地图。然而,SFM技术通常在视觉重复环境中被混淆,因为它们依赖于全局不同的图像特征。同时定位和映射(SLAM)技术在视觉重复环境中提供了潜在的解决方案,因为它们使用本地特征匹配,但是SLAM接近最佳地用广角相机,通常不适合记录环境系统的环境系统。我们通过提出双摄像机SLAM方法来解决这个问题,该方法使用前向广角相机进行定位,以及用于文档的向下的面对较窄的角度,高分辨率相机。使用前向相机视频获取的视频帧使用标准的SLAM方法处理,该方法通过环境提供成像系统的轨迹,然后用于指导文档相机图像的登记。随后从文档摄像机图像由单眼摄像机图像产生的零碎地图随后缩放并与定位相机轨迹对齐,最后经过全局优化过程以产生统一的精细地图。具有多种最先进的SFM方法的实验比较显示了基于地面控制点标记的选择样本在重复环境系统中执行的双相机液化方法。
translated by 谷歌翻译
使用合成数据训练的深层模型需要适应域的适应性,以弥合模拟环境和目标环境之间的差距。最新的域适应方法通常需要来自目标域的足够数量(未标记的)数据。但是,当目标域是极端环境(例如空间)时,这种需求很难满足。在本文中,我们的目标问题是接近卫星姿势估计,从实际的会合任务中获取卫星的图像是昂贵的。我们证明,事件传感提供了一种有希望的解决方案,可以在Stark照明差异下从模拟到目标域。我们的主要贡献是一种基于事件的卫星姿势估计技术,纯粹是对合成事件数据进行培训的,该数据具有基本数据增强,以提高针对实际(嘈杂)事件传感器的鲁棒性。基础我们的方法是一个具有仔细校准的地面真相的新型数据集,其中包括通过在剧烈的照明条件下在实验室中模拟卫星集合场景获得的真实事件数据。数据集上的结果表明,我们基于事件的卫星姿势估计方法仅在没有适应的情况下接受合成数据训练,可以有效地概括为目标域。
translated by 谷歌翻译
视网膜手术是一种复杂的医疗程序,需要特殊的专业知识和灵巧。为此目的,目前正在开发几种机器人平台,以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航,成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力,因此是机器人视网膜手术中的开放挑战之一。为此目的,我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri(蜂鸟)使用只使用视觉将其喙对齐,我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势,机器人能够自主地对齐并导航仪器朝向贸易圈的入口点(TEP),最后执行插入。我们的实验表明,该方法能够精确地估计套管针的位置和姿势,实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性,因此增加了系统集成到临床工作流程的直观。
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
这项工作描述了使用配备有单个向上的鱼眼相机和背光的移动校准机器人,该机器人的自动注册(约40个)固定网络(约40个)的固定,天花板安装的环境相机(约800平方米)的自动注册(约800平方米) Aruco标记以容易检测。 Fisheye摄像头用于进行视觉进程(VO),Aruco标记有助于在环境摄像机中轻松检测校准机器人。此外,鱼眼摄像机还能够检测到环境相机。这个双向双向检测限制了环境摄像机的姿势以解决优化问题。这种方法可用于自动注册用于监视,自动停车或机器人应用的大型多摄像机系统。这种基于VO的多机登记方法是使用现实世界实验进行了广泛验证的,并且还与使用LIDAR的类似方法进行了比较,该方法使用LIDAR(一种昂贵,更重,更重,饥饿的传感器)。
translated by 谷歌翻译
Traditional approaches to extrinsic calibration use fiducial markers and learning-based approaches rely heavily on simulation data. In this work, we present a learning-based markerless extrinsic calibration system that uses a depth camera and does not rely on simulation data. We learn models for end-effector (EE) segmentation, single-frame rotation prediction and keypoint detection, from automatically generated real-world data. We use a transformation trick to get EE pose estimates from rotation predictions and a matching algorithm to get EE pose estimates from keypoint predictions. We further utilize the iterative closest point algorithm, multiple-frames, filtering and outlier detection to increase calibration robustness. Our evaluations with training data from multiple camera poses and test data from previously unseen poses give sub-centimeter and sub-deciradian average calibration and pose estimation errors. We also show that a carefully selected single training pose gives comparable results.
translated by 谷歌翻译
农业行业不断寻求农业生产中涉及的不同过程的自动化,例如播种,收获和杂草控制。使用移动自主机器人执行这些任务引起了极大的兴趣。耕地面向同时定位和映射(SLAM)系统(移动机器人技术的关键)面临着艰巨的挑战,这是由于视觉上的难度,这是由于高度重复的场景而引起的。近年来,已经开发了几种视觉惯性遗传(VIO)和SLAM系统。事实证明,它们在室内和室外城市环境中具有很高的准确性。但是,在农业领域未正确评估它们。在这项工作中,我们从可耕地上的准确性和处理时间方面评估了最相关的最新VIO系统,以便更好地了解它们在这些环境中的行为。特别是,该评估是在我们的车轮机器人记录的大豆领域记录的传感器数据集中进行的,该田间被公开发行为Rosario数据集。评估表明,环境的高度重复性外观,崎terrain的地形产生的强振动以及由风引起的叶子的运动,暴露了当前最新的VIO和SLAM系统的局限性。我们分析了系统故障并突出观察到的缺点,包括初始化故障,跟踪损失和对IMU饱和的敏感性。最后,我们得出的结论是,即使某些系统(例如Orb-Slam3和S-MSCKF)在其他系统方面表现出良好的结果,但应采取更多改进,以使其在某些申请中的农业领域可靠,例如作物行的土壤耕作和农药喷涂。 。
translated by 谷歌翻译
本文介绍了一种用于水下车辆机械手系统(UVMS)的新型视野映射方法,具有特定强调自然海底环境中的鲁棒映射。水下场景映射的先前方法通常会离线处理数据,而实时运行的现有水下SLAM方法通常会集中在本地化上而不是映射。我们的方法使用GPU加速SIFT功能在图形优化框架中构建一个特征映射。地图刻度由车辆安装的立体声相机的特征约束,我们通过将机械手系统的动态定位能力从手腕安装的Fisheye摄像机融合到地图中,以将其延伸到车辆安装摄像机的有限视点之外。我们的混合SLAM方法是在Costa rican Continental Shelf级别的自然深海环境中采用UVMS收集的挑战性图像序列,我们还在浅礁调查数据集中评估立体声的立体声。这些数据集的结果证明了我们的系统的高准确性,适合于在不同的自然海底环境中运营。
translated by 谷歌翻译