In this paper, we discuss an imitation learning based method for reducing the calibration error for a mixed reality system consisting of a vision sensor and a projector. Unlike a head mounted display, in this setup, augmented information is available to a human subject via the projection of a scene into the real world. Inherently, the camera and projector need to be calibrated as a stereo setup to project accurate information in 3D space. Previous calibration processes require multiple recording and parameter tuning steps to achieve the desired calibration, which is usually time consuming process. In order to avoid such tedious calibration, we train a CNN model to iteratively correct the extrinsic offset given a QR code and a projected pattern. We discuss the overall system setup, data collection for training, and results of the auto-correction model.
translated by 谷歌翻译
视网膜手术是一种复杂的医疗程序,需要特殊的专业知识和灵巧。为此目的,目前正在开发几种机器人平台,以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航,成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力,因此是机器人视网膜手术中的开放挑战之一。为此目的,我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri(蜂鸟)使用只使用视觉将其喙对齐,我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势,机器人能够自主地对齐并导航仪器朝向贸易圈的入口点(TEP),最后执行插入。我们的实验表明,该方法能够精确地估计套管针的位置和姿势,实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性,因此增加了系统集成到临床工作流程的直观。
translated by 谷歌翻译
多模式传感器的融合在自动驾驶和智能机器人中变得越来越流行,因为它可以比任何单个传感器提供更丰富的信息,从而在复杂的环境中增强可靠性。多传感器外部校准是传感器融合的关键因素之一。但是,由于传感器方式的种类以及对校准目标和人工的需求,这种校准很困难。在本文中,我们通过关注立体相机,热摄像机和激光传感器之间的外部转换,展示了一个新的无目标跨模式校准框架。具体而言,立体声和激光器之间的校准是通过最小化登记误差在3D空间中进行的,而通过优化边缘特征的对齐方式来估计其他两个传感器的热外部传感器。我们的方法不需要专门的目标,并且可以在没有人类相互作用的情况下进行一次镜头进行多传感器校准。实验结果表明,校准框架是准确且适用于一般场景的。
translated by 谷歌翻译
Language-conditioned policies allow robots to interpret and execute human instructions. Learning such policies requires a substantial investment with regards to time and compute resources. Still, the resulting controllers are highly device-specific and cannot easily be transferred to a robot with different morphology, capability, appearance or dynamics. In this paper, we propose a sample-efficient approach for training language-conditioned manipulation policies that allows for rapid transfer across different types of robots. By introducing a novel method, namely Hierarchical Modularity, and adopting supervised attention across multiple sub-modules, we bridge the divide between modular and end-to-end learning and enable the reuse of functional building blocks. In both simulated and real world robot manipulation experiments, we demonstrate that our method outperforms the current state-of-the-art methods and can transfer policies across 4 different robots in a sample-efficient manner. Finally, we show that the functionality of learned sub-modules is maintained beyond the training process and can be used to introspect the robot decision-making process. Code is available at https://github.com/ir-lab/ModAttn.
translated by 谷歌翻译
Traditional approaches to extrinsic calibration use fiducial markers and learning-based approaches rely heavily on simulation data. In this work, we present a learning-based markerless extrinsic calibration system that uses a depth camera and does not rely on simulation data. We learn models for end-effector (EE) segmentation, single-frame rotation prediction and keypoint detection, from automatically generated real-world data. We use a transformation trick to get EE pose estimates from rotation predictions and a matching algorithm to get EE pose estimates from keypoint predictions. We further utilize the iterative closest point algorithm, multiple-frames, filtering and outlier detection to increase calibration robustness. Our evaluations with training data from multiple camera poses and test data from previously unseen poses give sub-centimeter and sub-deciradian average calibration and pose estimation errors. We also show that a carefully selected single training pose gives comparable results.
translated by 谷歌翻译
机器人操纵可以配制成诱导一系列空间位移:其中移动的空间可以包括物体,物体的一部分或末端执行器。在这项工作中,我们提出了一个简单的模型架构,它重新排列了深度功能,以从视觉输入推断出可视输入的空间位移 - 这可以参数化机器人操作。它没有对象的假设(例如规范姿势,模型或关键点),它利用空间对称性,并且比我们学习基于视觉的操纵任务的基准替代方案更高的样本效率,并且依赖于堆叠的金字塔用看不见的物体组装套件;从操纵可变形的绳索,以将堆积的小物体推动,具有闭环反馈。我们的方法可以表示复杂的多模态策略分布,并推广到多步顺序任务,以及6dof拾取器。 10个模拟任务的实验表明,它比各种端到端基线更快地学习并概括,包括使用地面真实对象姿势的政策。我们在现实世界中使用硬件验证我们的方法。实验视频和代码可在https://transporternets.github.io获得
translated by 谷歌翻译
相机校准与机器人和计算机视觉算法是一体的,用于从可视输入流中推断场景的几何属性。在实践中,校准是一种艰苦的程序,需要专门的数据收集和仔细调整。每当相机变化的参数时,必须重复该过程,这可能是移动机器人和自主车辆的频繁发生。相反,自我监督的深度和自我运动估计方法可以通过推断优化视图综合目标的每个帧投影模型来绕过明确的校准。在本文中,我们扩展了这种方法,以明确校准野外Raw视频的各种相机。我们提出了一种学习算法,使用高效的一般相机模型来回归每序列校准参数。我们的程序通过子像素再分注意误差实现自校准结果,优于基于其他学习的方法。我们在各种相机几何形状上验证了我们的方法,包括透视,鱼眼和昏迷。最后,我们表明我们的方法导致深度估计下游任务的改进,在EUROC数据集中实现了最先进的计算效率,而不是当代方法。
translated by 谷歌翻译
机器人外科助理(RSAs)通常用于通过专家外科医生进行微创手术。然而,长期以来充满了乏味和重复的任务,如缝合可以导致外科医生疲劳,激励缝合的自动化。随着薄反射针的视觉跟踪极具挑战性,在未反射对比涂料的情况下修改了针。作为朝向无修改针的缝合子任务自动化的步骤,我们提出了休斯顿:切换未经修改,外科手术,工具障碍针,一个问题和算法,它使用学习的主动传感策略与立体声相机本地化并对齐针头进入另一臂的可见和可访问的姿势。为了补偿机器人定位和针头感知误差,然后算法执行使用多个摄像机的高精度抓握运动。在使用Da Vinci研究套件(DVRK)的物理实验中,休斯顿成功通过了96.7%的成功率,并且能够在故障前平均地在臂32.4倍之间顺序地执行切换。在培训中看不见的针头,休斯顿实现了75-92.9%的成功率。据我们所知,这项工作是第一个研究未修改的手术针的切换。查看https://tinyurl.com/huston-surgery用于额外​​的材料。
translated by 谷歌翻译
在这项工作中,我们介绍了一种新的方法来从单一人类演示中学习日常的多阶段任务,而无需任何先前的对象知识。灵感灵感来自最近的粗型仿制方法,我们模拟仿制学习作为学习对象达到的阶段,然后是演示者操作的开放循环重放。我们建立在这方面的多阶段任务,在人类演示之后,机器人可以通过在序列中到达下一个对象然后重复演示,然后重复在序列中自动收集整个多级任务的图像数据,然后在a中重复循环任务的所有阶段。我们对一系列类似的多阶段任务进行了真实的实验,我们表明我们的方法可以从单一的演示解决。视频和补充材料可以在https://www.robot-learning.uk/self -replay中找到。
translated by 谷歌翻译
已知人类凝视是在操纵任务期间的潜在人类意图和目标的强大指标。这项工作研究人类教师的凝视模式证明了机器人的任务,并提出了这种模式可用于增强机器人学习的方式。使用Kinesthetic教学和视频演示,我们在教学中识别新颖的意图揭示凝视行为。这些在各种问题中被证明是从参考帧推理到多步任务的分割的各种问题。基于我们的研究结果,我们提出了两个概念验证算法,该算法表明,凝视数据可以增强多台任务的子任务分类,高达6%,奖励推理和策略学习,可为单步任务高达67%。我们的调查结果为机器人学习中的自然人凝视模型提供了基础,从演示设置上学习,并在利用人凝游来提高机器人学习的开放问题。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
尽管最近的进步,但是,尽管最近的进展,但是从单个图像中的人类姿势的全3D估计仍然是一个具有挑战性的任务。在本文中,我们探讨了关于场景几何体的强先前信息的假设可用于提高姿态估计精度。为了主弱地解决这个问题,我们已经组装了一种新的$ \ textbf {几何姿势提供} $ DataSet,包括与各种丰富的3D环境交互的人员的多视图图像。我们利用商业运动捕获系统来收集场景本身的姿势和构造精确的几何3D CAD模型的金标估计。要将对现有框架的现有框架注入图像的现有框架,我们介绍了一种新颖的,基于视图的场景几何形状,一个$ \ textbf {多层深度图} $,它采用了多次射线跟踪到简明地编码沿着每种相机视图光线方向的多个表面入口和退出点。我们提出了两种不同的机制,用于集成多层深度信息姿势估计:输入作为升降2D姿势的编码光线特征,其次是促进学习模型以支持几何一致姿态估计的可差异损失。我们通过实验展示这些技术可以提高3D姿势估计的准确性,特别是在遮挡和复杂场景几何形状的存在中。
translated by 谷歌翻译
虽然对理解计算机视觉中的手对象交互进行了重大进展,但机器人执行复杂的灵巧操纵仍然非常具有挑战性。在本文中,我们提出了一种新的平台和管道DEXMV(来自视频的Dexerous操纵)以进行模仿学习。我们设计了一个平台:(i)具有多指机器人手和(ii)计算机视觉系统的复杂灵巧操纵任务的仿真系统,以记录进行相同任务的人类手的大规模示范。在我们的小说管道中,我们从视频中提取3D手和对象姿势,并提出了一种新颖的演示翻译方法,将人类运动转换为机器人示范。然后,我们将多个仿制学习算法与演示进行应用。我们表明,示威活动确实可以通过大幅度提高机器人学习,并解决独自增强学习无法解决的复杂任务。具有视频的项目页面:https://yzqin.github.io/dexmv
translated by 谷歌翻译
本文介绍了一个数据集,用于培训和评估方法,以估算由标准RGB摄像机捕获的任务演示中手持工具的6D姿势。尽管6D姿势估计方法取得了重大进展,但它们的性能通常受到严重遮挡的对象的限制,这在模仿学习中是一个常见的情况,而操纵手通常会部分遮住对象。当前,缺乏数据集可以使这些条件的稳健6D姿势估计方法开发。为了克服这个问题,我们收集了一个新的数据集(IMITROB),该数据集针对模仿学习和其他人类持有工具并执行任务的其他应用中的6D姿势估计。该数据集包含三个不同工具和六个操纵任务的图像序列,这些任务具有两个相机观点,四个人类受试者和左/右手。每个图像都伴随着由HTC Vive运动跟踪设备获得的6D对象姿势的准确地面真相测量。通过训练和评估各种设置中的最新6D对象估计方法(DOPE)来证明数据集的使用。数据集和代码可在http://imitrob.ciirc.cvut.cz/imitrobdataset.php上公开获得。
translated by 谷歌翻译
我们介绍了工业金属对象的多样化数据集。这些对象是对称的,无纹理的和高度反射的,导致在现有数据集中未捕获的具有挑战性的条件。我们的数据集包含具有6D对象姿势标签的现实世界和合成多视图RGB图像。现实世界数据是通过记录具有不同对象形状,材料,载体,组成和照明条件的场景的多视图图像获得的。这将产生超过30,000张图像,并使用新的公共工具准确标记。合成数据是通过仔细模拟现实世界条件并以受控和现实的方式改变它们来获得的。这导致超过500,000张合成图像。合成数据和现实世界数据与受控变化之间的密切对应关系将有助于SIM到现实的研究。我们的数据集的规模和挑战性的性质将有助于研究涉及反射材料的各种计算机视觉任务。数据集和随附的资源可在项目网站https://pderoovere.github.io/dimo上提供。
translated by 谷歌翻译
我们提出了圆顶,这是一种单发模仿学习的新颖方法,可以从单个演示中学习任务,然后立即部署,而无需任何进一步的数据收集或培训。圆顶不需要事先任务或对象知识,并且可以在新颖的对象配置和干扰器中执行任务。圆顶以图像条件的对象分割网络,然后是一个学习的视觉宣传网络,将机器人的最终效应器移至相同的相对姿势到对象,之后可以通过重播来完成任务,将机器人的最终效果转移到对象上,将机器人的最终效果转移到对象上,以将机器人的最终效果转移到对象上,从而完成了一个相同的相对姿势演示的最终效应速度。我们表明,圆顶在7个现实世界的日常任务上取得了接近100%的成功率,并且我们进行了几项研究,以彻底了解圆顶的每个组成部分。视频和补充材料可在以下网址获得:https://www.robot-learning.uk/dome。
translated by 谷歌翻译
从数字艺术到AR和VR体验,图像编辑和合成已经变得无处不在。为了生产精美的复合材料,需要对相机进行几何校准,这可能很乏味,需要进行物理校准目标。代替传统的多图像校准过程,我们建议使用深层卷积神经网络直接从单个图像中直接从单个图像中推断摄像机校准参数,例如音高,滚动,视场和镜头失真。我们使用大规模全景数据集中自动生成样品训练该网络,从而在标准L2误差方面产生了竞争精度。但是,我们认为将这种标准误差指标最小化可能不是许多应用程序的最佳选择。在这项工作中,我们研究了人类对几何相机校准中不准确性的敏感性。为此,我们进行了一项大规模的人类感知研究,我们要求参与者以正确和有偏见的摄像机校准参数判断3D对象的现实主义。基于这项研究,我们为摄像机校准开发了一种新的感知度量,并证明我们的深校准网络在标准指标以及这一新型感知度量方面都优于先前基于单像的校准方法。最后,我们演示了将校准网络用于多种应用程序,包括虚拟对象插入,图像检索和合成。可以在https://lvsn.github.io/deepcalib上获得我们方法的演示。
translated by 谷歌翻译
同时定位和映射(SLAM)对于自主机器人(例如自动驾驶汽车,自动无人机),3D映射系统和AR/VR应用至关重要。这项工作提出了一个新颖的LIDAR惯性 - 视觉融合框架,称为R $^3 $ LIVE ++,以实现强大而准确的状态估计,同时可以随时重建光线体图。 R $^3 $ LIVE ++由LIDAR惯性探针(LIO)和视觉惯性探测器(VIO)组成,均为实时运行。 LIO子系统利用从激光雷达的测量值重建几何结构(即3D点的位置),而VIO子系统同时从输入图像中同时恢复了几何结构的辐射信息。 r $^3 $ live ++是基于r $^3 $ live开发的,并通过考虑相机光度校准(例如,非线性响应功能和镜头渐滴)和相机的在线估计,进一步提高了本地化和映射的准确性和映射接触时间。我们对公共和私人数据集进行了更广泛的实验,以将我们提出的系统与其他最先进的SLAM系统进行比较。定量和定性结果表明,我们所提出的系统在准确性和鲁棒性方面对其他系统具有显着改善。此外,为了证明我们的工作的可扩展性,{我们基于重建的辐射图开发了多个应用程序,例如高动态范围(HDR)成像,虚拟环境探索和3D视频游戏。}最后,分享我们的发现和我们的发现和为社区做出贡献,我们在GitHub上公开提供代码,硬件设计和数据集:github.com/hku-mars/r3live
translated by 谷歌翻译
在本报告中,我们提出了在哥斯达黎加太平洋架子和圣托里尼 - Kolumbo Caldera Complex中,在寻找寿命中的寻找寿命任务中的自主海洋机器人技术协调,操作策略和结果。它作为可能存在于海洋超越地球的环境中的类似物。本报告侧重于ROV操纵器操作的自动化,用于从海底获取有针对性的生物样品收集和返回的。在未来的外星勘查任务到海洋世界的背景下,ROV是一个模拟的行星着陆器,必须能够有能力的高水平自主权。我们的田间试验涉及两个水下车辆,冰(Nui)杂交ROV的两个水下车辆(即,龙眼或自主)任务,都配备了7-DOF液压机械手。我们描述了一种适应性,硬件无关的计算机视觉架构,可实现高级自动化操作。 Vision系统提供了对工作空间的3D理解,以便在复杂的非结构化环境中通知操纵器运动计划。我们展示了视觉系统和控制框架通过越来越具有挑战性的环境中的现场试验的有效性,包括来自活性Undersea火山,Kolumbo内的自动收集和生物样品的回报。根据我们在该领域的经验,我们讨论了我们的系统的表现,并确定了未来研究的有希望的指示。
translated by 谷歌翻译
掌控的摄像机校准是机器人中的基本和长期研究的问题。我们展示了使用基于学习的方法在线解决此问题的研究,同时使用完全合成数据培训我们的模型。我们研究了三种主要方法:直接从图像预测外部矩阵的直接回归模型,一个稀疏的对应模型回归2D关键点,然后使用PNP,以及使用回归深度和分割映射的一个密集对应模型来实现ICP姿势估计。在我们的实验中,我们将这些方法互相基准,并反对建立良好的经典方法,以找到直接回归优于其他方法的令人惊讶的结果,并且我们对这些结果进行了进一步的见解来进行噪声敏感性分析。
translated by 谷歌翻译