智能论文笔记

Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound Imaging

Jianzhi Long , Jicang Cai , Abdullah Al-Battal , Shiwei Jin , Jing Zhang , Dacheng Tao , Truong Nguyen

分类：计算机视觉 | 机器人

2022-12-15

Ultrasound is progressing toward becoming an affordable and versatile solution to medical imaging. With the advent of COVID-19 global pandemic, there is a need to fully automate ultrasound imaging as it requires trained operators in close proximity to patients for long period of time. In this work, we investigate the important yet seldom-studied problem of scan target localization, under the setting of lung ultrasound imaging. We propose a purely vision-based, data driven method that incorporates learning-based computer vision techniques. We combine a human pose estimation model with a specially designed regression model to predict the lung ultrasound scan targets, and deploy multiview stereo vision to enhance the consistency of 3D target localization. While related works mostly focus on phantom experiments, we collect data from 30 human subjects for testing. Our method attains an accuracy level of 15.52 (9.47) mm for probe positioning and 4.32 (3.69){\deg} for probe orientation, with a success rate above 80% under an error threshold of 25mm for all scan targets. Moreover, our approach can serve as a general solution to other types of ultrasound modalities. The code for implementation has been released.

translated by 谷歌翻译

6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques for a Fast and Accurate Object Grasping

Tuan-Tang Le , Trung-Son Le , Yu-Ru Chen , Joel Vidal , Chyi-Yeu Lin

分类：计算机视觉 | 机器人

2021-11-11

实时机器人掌握，支持随后的精确反对操作任务，是高级高级自治系统的优先目标。然而，尚未找到这样一种可以用时间效率进行充分准确的掌握的算法。本文提出了一种新的方法，其具有2阶段方法，它使用深神经网络结合快速的2D对象识别，以及基于点对特征框架的随后的精确和快速的6D姿态估计来形成实时3D对象识别和抓握解决方案能够多对象类场景。所提出的解决方案有可能在实时应用上稳健地进行，需要效率和准确性。为了验证我们的方法，我们进行了广泛且彻底的实验，涉及我们自己的数据集的费力准备。实验结果表明，该方法在5CM5DEG度量标准中的精度97.37％，平均距离度量分数99.37％。实验结果显示了通过使用该方法的总体62％的相对改善（5cm5deg度量）和52.48％（平均距离度量）。此外，姿势估计执行也显示出运行时间的平均改善47.6％。最后，为了说明系统在实时操作中的整体效率，进行了一个拾取和放置的机器人实验，并显示了90％的准确度的令人信服的成功率。此实验视频可在https://sites.google.com/view/dl-ppf6dpose/上获得。

translated by 谷歌翻译

Precise Repositioning of Robotic Ultrasound: Improving Registration-based Motion Compensation using Ultrasound Confidence Optimization

Zhongliang Jiang , Nehil Danis , Yuan Bi , Mingchuan Zhou , Markus Kroenke , Thomas Wendler , Nassir Navab

分类：机器人

2022-08-10

机器人超声（US）成像已被视为克服美国自由手检查的局限性，即操作员互操作机构的局限性。 \修订{然而，机器人美国系统在扫描过程中无法对主体运动做出反应，这限制了他们的临床接受。}关于人类超声检查员，他们经常通过重新定位探针甚至重新启动摄取，尤其是因为扫描而对患者的运动做出反应。具有较长结构等肢体动脉的解剖学。为了实现这一特征，我们提出了一个基于视觉的系统来监视受试者的运动并自动更新扫描轨迹，从而无缝获得目标解剖结构的完整3D图像。使用RGB图像中的分段对象掩码开发运动监视模块。一旦受试者移动，机器人将通过使用迭代最接近点算法在移动前后获得的对象的表面点云来停止并重新计算合适的轨迹。之后，为了确保重新定位US探针后的最佳接触条件，使用基于置信的微调过程来避免探针和接触表面之间的潜在间隙。最后，整个系统在具有不均匀表面的人类臂幻象上进行了验证，而对象分割网络也在志愿者上得到验证。结果表明，提出的系统可以对对象运动做出反应，并可靠地提供准确的3D图像。

translated by 谷歌翻译

Learning Markerless Robot-Depth Camera Calibration and End-Effector Pose Estimation

Bugra C. Sefercik , Baris Akgun

分类：机器人 | 计算机视觉

2022-12-15

Traditional approaches to extrinsic calibration use fiducial markers and learning-based approaches rely heavily on simulation data. In this work, we present a learning-based markerless extrinsic calibration system that uses a depth camera and does not rely on simulation data. We learn models for end-effector (EE) segmentation, single-frame rotation prediction and keypoint detection, from automatically generated real-world data. We use a transformation trick to get EE pose estimates from rotation predictions and a matching algorithm to get EE pose estimates from keypoint predictions. We further utilize the iterative closest point algorithm, multiple-frames, filtering and outlier detection to increase calibration robustness. Our evaluations with training data from multiple camera poses and test data from previously unseen poses give sub-centimeter and sub-deciradian average calibration and pose estimation errors. We also show that a carefully selected single training pose gives comparable results.

translated by 谷歌翻译

MonoGraspNet: 6-DoF Grasping with a Single RGB Image

Guangyao Zhai , Dianye Huang , Shun-Cheng Wu , Hyunjun Jung , Yan Di , Fabian Manhardt , Federico Tombari , Nassir Navab , Benjamin Busam

分类：机器人 | 人工智能 | 计算机视觉

2022-09-26

6多机器人抓钩是一个持久但未解决的问题。最近的方法利用强3D网络从深度传感器中提取几何抓握表示形式，表明对公共物体的准确性卓越，但对光度化挑战性物体（例如，透明或反射材料中的物体）进行不满意。瓶颈在于这些物体的表面由于光吸收或折射而无法反射准确的深度。在本文中，与利用不准确的深度数据相反，我们提出了第一个称为MonograspNet的只有RGB的6-DOF握把管道，该管道使用稳定的2D特征同时处理任意对象抓握，并克服由光学上具有挑战性挑战的对象引起的问题。 MonograspNet利用关键点热图和正常地图来恢复由我们的新型表示形式表示的6-DOF抓握姿势，该表示的2D键盘具有相应的深度，握把方向，抓握宽度和角度。在真实场景中进行的广泛实验表明，我们的方法可以通过在抓住光学方面挑战的对象方面抓住大量对象并超过基于深度的竞争者的竞争成果。为了进一步刺激机器人的操纵研究，我们还注释并开源一个多视图和多场景现实世界抓地数据集，其中包含120个具有20m精确握把标签的混合光度复杂性对象。

translated by 谷歌翻译

ColibriDoc: An Eye-in-Hand Autonomous Trocar Docking System

Shervin Dehghani , Michael Sommersperger , Junjie Yang , Benjamin Busam , Kai Huang , Peter Gehlbach , Iulian Iordachita , Nassir Navab , M. Ali Nasseri

分类：机器人 | 计算机视觉

2021-11-30

视网膜手术是一种复杂的医疗程序，需要特殊的专业知识和灵巧。为此目的，目前正在开发几种机器人平台，以实现或改善显微外科任务的结果。由于这种机器人的控制通常被设计用于在视网膜附近导航，成功的套管针对接并将仪器插入眼睛中代表了一种额外的认知努力，因此是机器人视网膜手术中的开放挑战之一。为此目的，我们为自主套管针对接的平台结合了计算机愿景和机器人设置。灵感来自古巴Colibri（蜂鸟）使用只使用视觉将其喙对齐，我们将相机安装到机器人系统的内逸线器上。通过估计套管针的位置和姿势，机器人能够自主地对齐并导航仪器朝向贸易圈的入口点（TEP），最后执行插入。我们的实验表明，该方法能够精确地估计套管针的位置和姿势，实现可重复的自主对接。这项工作的目的是降低机器人设置准备在手术任务之前的复杂性，因此增加了系统集成到临床工作流程的直观。

translated by 谷歌翻译

Human keypoint detection for close proximity human-robot interaction

Jan Docekal , Jakub Rozlivek , Jiri Matas , Matej Hoffmann

分类：计算机视觉 | 机器人

2022-07-15

我们研究了在紧邻人类机器人相互作用的背景下，最先进的人关键点探测器的性能。在这种情况下的检测是具体的，因为只有手和躯干等身体部位的子集在视野中。特别是（i）我们从近距离图像的角度调查了具有人类姿势注释的现有数据集，并准备并使公开可用的新人（HICP）数据集；（ii）我们在此数据集上进行定量和定性比较人类全身2D关键点检测方法（openpose，mmpose，onphapose，detectron2）；（iii）由于对手指的准确检测对于使用交接的应用至关重要，因此我们评估了介质手工检测器的性能；（iv）我们在头部上带有RGB-D摄像头的人形机器人上部署算法，并在3D Human KeyPoint检测中评估性能。运动捕获系统用作参考。在紧邻近端的最佳性能全身关键点探测器是mmpose和字母，但两者都难以检测手指。因此，我们提出了在单个框架中为人体和手介载体的mmpose或字母组合的组合，提供了最准确，最强大的检测。我们还分析了单个探测器的故障模式 - 例如，图像中人的头部缺失在多大程度上降低了性能。最后，我们在一个场景中演示了框架，其中类人类机器人与人相互作用的人类机器人使用检测到的3D关键点进行全身避免动作。

translated by 谷歌翻译

Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from Depth Maps

Alessandro Simoni , Stefano Pini , Guido Borghi , Roberto Vezzani

分类：计算机视觉 | 机器人

2022-07-06

了解协作环境中工人和机器人的确切3D位置可以实现多种真实应用，例如检测不安全情况或用于统计和社会目的的相互作用的研究。在本文中，我们提出了一个基于深度设备和深度神经网络的非侵入性和光变色的框架，以估算外部摄像头的3D机器人姿势。该方法可以应用于任何机器人，而无需硬件访问内部状态。我们介绍了预测姿势的新颖代表，即半光谱脱钩的热图（SPDH），以准确计算世界坐标中的3D关节位置，以适应为2D人类姿势估计设计的有效的深层网络。所提出的方法可以作为基于XYZ坐标的输入深度表示，可以在合成深度数据上进行训练，并应用于现实世界设置，而无需域适应技术。为此，我们根据合成和真实深度图像介绍SIMBA数据集，并将其用于实验评估。结果表明，由特定的深度图表示和SPDH制成的建议方法克服了当前的最新状态。

translated by 谷歌翻译

Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on Youtube

Aravind Sivakumar , Kenneth Shaw , Deepak Pathak

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2022-02-21

我们构建了一个系统，可以通过自己的手展示动作，使任何人都可以控制机器人手和手臂。机器人通过单个RGB摄像机观察人类操作员，并实时模仿其动作。人的手和机器人的手在形状，大小和关节结构上有所不同，并且从单个未校准的相机进行这种翻译是一个高度不受约束的问题。此外，重新定位的轨迹必须有效地在物理机器人上执行任务，这要求它们在时间上平稳且没有自我收集。我们的关键见解是，虽然配对的人类机器人对应数据的收集价格昂贵，但互联网包含大量丰富而多样的人类手视频的语料库。我们利用这些数据来训练一个理解人手并将人类视频流重新定位的系统训练到机器人手臂轨迹中，该轨迹是平稳，迅速，安全和语义上与指导演示的相似的系统。我们证明，它使以前未经训练的人能够在各种灵巧的操纵任务上进行机器人的态度。我们的低成本，无手套，无标记的远程遥控系统使机器人教学更容易访问，我们希望它可以帮助机器人学习在现实世界中自主行动。视频https://robotic-telekinesis.github.io/

translated by 谷歌翻译

Bumblebee: A Path Towards Fully Autonomous Robotic Vine Pruning

Abhisesh Silwal , Francisco Yandun , Anjana Nellithimaru , Terry Bates , George Kantor

分类：机器人

2021-12-01

休眠季节葡萄树修剪需要熟练的季节性工人，这在冬季变得越来越缺乏。随着在短期季节性招聘文化和低工资的短期季节性招聘文化和低工资的时间内，随着工人更少的葡萄藤，葡萄藤往往被修剪不一致地导致葡萄化物不平衡。除此之外，目前现有的机械方法无法选择性地修剪葡萄园和手动后续操作，通常需要进一步提高生产成本。在本文中，我们展示了崎岖，全自治机器人的设计和田间评估，用于休眠季节葡萄园的端到最终修剪。该设计的设计包括新颖的相机系统，运动冗余机械手，地面机器人和在感知系统中的新颖算法。所提出的研究原型机器人系统能够在213秒/葡萄藤中完全从两侧刺激一排藤蔓，总修枝精度为87％。与机械预灌浆试验相比，商业葡萄园中自治系统的初始现场测试显示出休眠季节修剪的显着变化。在手稿中描述了设计方法，系统组件，经验教训，未来增强以及简要的经济分析。

translated by 谷歌翻译

Towards Autonomous Atlas-based Ultrasound Acquisitions in Presence of Articulated Motion

Zhongliang Jiang , Yuan Gao , Le Xie , Nassir Navab

分类：机器人 | 人工智能

2022-08-10

机器人超声（US）成像旨在克服美国自由企业考试的一些局限性，例如难以保证操作员可重复性。然而，由于患者之间的解剖学和生理变化以及解剖下结构的相对运动，富有鲁棒性产生最佳轨迹以检查感兴趣的解剖学时，当他们构成明确的关节时，这是一项挑战。为了应对这一挑战，本文提出了一种基于视觉的方法，允许自动机器人美国肢体扫描。为此，使用带注释的血管结构的人臂的Atlas MRI模板用于生成轨迹并注册并将其投射到患者的皮肤表面上，以进行机器人的美国获得。为了有效地细分并准确地重建目标的3D容器，我们通过将通道注意模块纳入U-NET型神经网络中，利用连续美国框架中的空间连续性。自动轨迹生成方法对具有各种铰接关节角度的六名志愿者进行评估。在所有情况下，该系统都可以成功地获取志愿者四肢上计划的血管结构。对于一名志愿者，还提供了MRI扫描，可以评估美国图像中扫描动脉的平均半径，从而导致半径估计（$ 1.2 \ pm0.05〜mm $）可与MRI地面真相相当（$ 1.2 \ $ $） PM0.04〜mm $）。

translated by 谷歌翻译

Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments

分类：

We introduce a new dataset, Human3.6M, of 3.6 Million accurate 3D Human poses, acquired by recording the performance of 5 female and 6 male subjects, under 4 different viewpoints, for training realistic human sensing systems and for evaluating the next generation of human pose estimation models and algorithms. Besides increasing the size of the datasets in the current state of the art by several orders of magnitude, we also aim to complement such datasets with a diverse set of motions and poses encountered as part of typical human activities (taking photos, talking on the phone, posing, greeting, eating, etc.), with additional synchronized image, human motion capture and time of flight (depth) data, and with accurate 3D body scans of all the subject actors involved. We also provide controlled mixed reality evaluation scenarios where 3D human models are animated using motion capture and inserted using correct 3D geometry, in complex real environments, viewed with moving cameras, and under occlusion. Finally, we provide a set of large scale statistical models and detailed evaluation baselines for the dataset illustrating its diversity and the scope for improvement by future work in the research community. Our experiments show that our best large scale model can leverage our full training set to obtain a 20% improvement in performance compared to a training set of the scale of the largest existing public dataset for this problem. Yet the potential for improvement by leveraging higher capacity, more complex models with our large dataset, is substantially vaster and should stimulate future research. The dataset together with code for the associated large-scale learning models, features, visualization tools, as well as the evaluation server, is available online at http://vision.imar.ro/human3.6m.

translated by 谷歌翻译

GKNet: grasp keypoint network for grasp candidates detection

Ruinian Xu , Fu-Jen Chu , Patricio A. Vela

分类：机器人 | 计算机视觉

2021-06-16

当代掌握检测方法采用深度学习，实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点，可转换为掌握代表= {x，y，w，{\ theta}} t，而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系，将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系，并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡（在41.67和23.26 fps的96.9％和98.39％）之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet，反映不同滋扰的速度：静态抓握，动态抓握，在各种相机角度抓住，夹住。 GKNet优于静态和动态掌握实验中的参考基线，同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设，为预期的滋扰因素提供鲁棒性。

translated by 谷歌翻译

Geometric Pose Affordance: 3D Human Pose with Scene Constraints

Zhe Wang , Liyan Chen , Shaurya Rathore , Daeyun Shin , Charless Fowlkes

分类：计算机视觉

2019-05-19

尽管最近的进步，但是，尽管最近的进展，但是从单个图像中的人类姿势的全3D估计仍然是一个具有挑战性的任务。在本文中，我们探讨了关于场景几何体的强先前信息的假设可用于提高姿态估计精度。为了主弱地解决这个问题，我们已经组装了一种新的$ \ textbf {几何姿势提供} $ DataSet，包括与各种丰富的3D环境交互的人员的多视图图像。我们利用商业运动捕获系统来收集场景本身的姿势和构造精确的几何3D CAD模型的金标估计。要将对现有框架的现有框架注入图像的现有框架，我们介绍了一种新颖的，基于视图的场景几何形状，一个$ \ textbf {多层深度图} $，它采用了多次射线跟踪到简明地编码沿着每种相机视图光线方向的多个表面入口和退出点。我们提出了两种不同的机制，用于集成多层深度信息姿势估计：输入作为升降2D姿势的编码光线特征，其次是促进学习模型以支持几何一致姿态估计的可差异损失。我们通过实验展示这些技术可以提高3D姿势估计的准确性，特别是在遮挡和复杂场景几何形状的存在中。

translated by 谷歌翻译

Towards Autonomous Robotic Precision Harvesting: Mapping, Localization, Planning and Control for a Legged Tree Harvester

Edo Jelavic , Dominic Jud , Pascal Egli , Marco Hutter

分类：机器人

2021-04-20

本文介绍了使用腿收割机进行精密收集任务的集成系统。我们的收割机在狭窄的GPS拒绝了森林环境中的自主导航和树抓取了一项挑战性的任务。提出了映射，本地化，规划和控制的策略，并集成到完全自主系统中。任务从使用定制的传感器模块开始使用人员映射感兴趣区域。随后，人类专家选择树木进行收获。然后将传感器模块安装在机器上并用于给定地图内的本地化。规划算法在单路径规划问题中搜索一个方法姿势和路径。我们设计了一个路径，后面的控制器利用腿的收割机的谈判粗糙地形的能力。在达接近姿势时，机器用通用夹具抓住一棵树。此过程重复操作员选择的所有树。我们的系统已经在与树干和自然森林中的测试领域进行了测试。据我们所知，这是第一次在现实环境中运行的全尺寸液压机上显示了这一自主权。

translated by 谷歌翻译

Estimating Pose from Pressure Data for Smart Beds with Deep Image-based Pose Estimators

Vandad Davoodnia , Saeed Ghorbani , Ali Etemad

分类：计算机视觉

2022-06-13

内部的姿势估计显示出在医院患者监测，睡眠研究和智能家居等领域的价值。在本文中，我们探讨了借助现有的姿势估计器，从高度模棱两可的压力数据中检测身体姿势的不同策略。我们通过直接使用或通过在两个压力数据集上对其进行重新训练来检查预训练的姿势估计器的性能。我们还利用可学习的预处理域适应步骤探索了其他策略，该步骤将模糊的压力图转换为更接近共同目的姿势估计模块的预期输入空间的表示。因此，我们使用了具有多个尺度的完全卷积网络，以向预训练的姿势估计模块提供压力图的姿势特异性特征。我们对不同方法的完整分析表明，在压力数据上，可学习的预处理模块的组合以及重新训练基于图像的姿势估计器能够克服诸如高度模糊的压力点之类的问题，以实现很高的姿势估计准确性。

translated by 谷歌翻译

Image-Guided Navigation of a Robotic Ultrasound Probe for Autonomous Spinal Sonography Using a Shadow-aware Dual-Agent Framework

Keyu Li , Yangxin Xu , Jian Wang , Dong Ni , Li Liu , Max Q. -H. Meng

分类：机器人 | 人工智能

2021-11-03

超声（US）成像通常用于协助诊断和脊柱疾病的干预，而通过手动操作探针进行标准化美国收购需要大量的经验和超声检查的培训。在这项工作中，我们提出了一种新的双代理框架，集成了强化学习（RL）代理和深度学习（DL）代理，以共同确定基于实时超声图像美国探测器的移动，以模拟专家超声检查操作者的决策过程，以实现脊柱超声自主标准视图收购。此外，通过美国传播的性质和脊柱解剖的特性的启发，我们引入一个视图特定的声影奖励利用阴影信息来隐式地引导朝向脊柱的不同标准视图探针的导航。我们的方法在从$ $ 17名志愿者获得的美国经济数据建立了一个模拟环境的定量和定性实验验证。平均导航精度朝向不同的标准视图达到$5.18毫米/ 5.25 ^ \ CIRC $ $和12.87毫米/ 17.49 ^ \ CIRC $在分子内和主体间设置，分别。结果表明，我们的方法可以有效地解释美国的图像和导航探头获取脊柱多种标准的意见。

translated by 谷歌翻译

Vision-Based Environmental Perception for Autonomous Driving

Fei Liu , Zihao Lu , Xianke Lin

分类：计算机视觉

2022-12-22

Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.

translated by 谷歌翻译

Instance-specific 6-DoF Object Pose Estimation from Minimal Annotations

Rohan Pratap Singh , Iori Kumagai , Antonio Gabas , Mehdi Benallegue , Yusuke Yoshiyasu , Fumio Kanehiro

分类：计算机视觉 | 机器人

2022-07-27

在许多机器人应用中，要执行已知，刚体对象及其随后的抓握的6多-DOF姿势估计的环境设置几乎保持不变，甚至可能是机器人事先知道的。在本文中，我们将此问题称为特定实例的姿势估计：只有在有限的一组熟悉的情况下，该机器人将以高度准确性估算姿势。场景中的微小变化，包括照明条件和背景外观的变化，是可以接受的，但没有预期的改变。为此，我们提出了一种方法，可以快速训练和部署管道，以估算单个RGB图像的对象的连续6-DOF姿势。关键的想法是利用已知的相机姿势和刚性的身体几何形状部分自动化大型标记数据集的生成。然后，数据集以及足够的域随机化来监督深度神经网络的培训，以预测语义关键。在实验上，我们证明了我们提出的方法的便利性和有效性，以准确估计物体姿势，仅需要少量的手动注释才能进行训练。

translated by 谷歌翻译

Neural Camera Models

Igor Vasiljevic

分类：计算机视觉

2022-08-27

现代计算机视觉已超越了互联网照片集的领域，并进入了物理世界，通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用，相机越来越多地用作深度传感器，重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步，但仍然存在重大挑战：（1）地面真相深度标签很难大规模收集，（2）通常认为相机信息是已知的，但通常是不可靠的，并且（3）限制性摄像机假设很常见，即使在实践中使用了各种各样的相机类型和镜头。在本论文中，我们专注于放松这些假设，并描述将相机变成真正通用深度传感器的最终目标的贡献。

translated by 谷歌翻译