在这项工作中,我们探讨了常见对象的形状之间的细微差异是如何用语言表达的,基于对象的图像和3D模型。我们首先构建一个大规模,精心控制的人类话语数据集,每个数据集都指的是3D CAD模型的2D渲染,以便将其与一组形状相似的替代方案区分开来。使用这个数据集,我们开发了神经语言理解(听力)和生产(说话)模型,这些模型的基础不同(纯粹的3D形式通过点云,渲染的2D图像),捕获的语用推理程度(例如说明听众的说话者)或不)和神经结构(例如有或没有注意)。我们发现模型能够与合成伙伴和人类合作伙伴一起表现良好,并且能够保持话语和物体。我们还指出,这些模型适用于零射击转移学习到novelobject类(例如从椅子上的培训转移到灯上测试),以及从家具目录中抽取的真实世界图像。病变研究表明,神经聆听者严重依赖于与部分相关的词语,并将这些词语与对象的视觉部分正确关联(没有对象部分进行任何明确的网络训练),并且当已知的部分词语可用时,转移到新的类别是最成功的。这项工作说明了语言基础的实用方法,并提供了对象形状和语言结构之间关系的案例研究。
translated by 谷歌翻译
本文提出了一种基于学习的框架,用于从函数运算符重建三维形状,紧凑编码为小尺寸矩阵。为此,我们引入了一种名为OperatorNet的新型神经架构,它采用一组表示形状的线性算子并生成其3D嵌入。我们证明了这种方法在同一问题上明显优于以前的几何方法。此外,我们引入了一个新的功能操作符,它编码外在的或依赖于姿势的形状信息,从而补充了纯粹的内在姿势 - 不经意的操作符,例如经典的拉普拉斯算子。与这种新颖的算子相结合,我们的重构网络实现了非常高的重建精度,即使在关于形状的不完整信息的存在下,给定以减少的基础表示的软或功能图。最后,我们证明了在形状插值和形状类比应用的背景下,这些算子所享有的乘法函数代数可用于合成全新看不见的形状。
translated by 谷歌翻译
当前的3D物体检测方法受到2D探测器的严重影响。为了利用2D探测器中的架构,它们经常将3D点云转换为常规网格(即,到体素网格或鸟瞰图像),或者在2D图像中检测到提出3D盒子。很少有人尝试直接检测点云中的物体。在这项工作中,我们回到第一个原则,为点云数据和asgeneric构建一个3D检测管道。然而,由于数据的稀疏性 - 来自3D空间中的2D流形的样本 - 当从场景点直接预测边界框参数时我们面临一个主要挑战:3D对象质心可能远离任何表面点,因此难以准确地回归一步。为了应对这一挑战,我们提出了VoteNet,一种基于深点集网络和Hough投票协同作用的端到端3D物体检测网络。 Ourmodel通过简单的设计,紧凑的模型尺寸和高效率,在真实3D扫描,ScanNet和SUN RGB-D两个大型数据集上实现了最先进的3D检测。值得注意的是,VoteNet通过使用纯粹的几何信息而不依赖于彩色图像,优于以前的方法。
translated by 谷歌翻译
我们提出了核点卷积(KPConv),一种新的点卷积设计,即在没有任何中间表示的情况下对点云进行操作。 KPConv的卷积权重由核心点位于欧几里德空间中,并应用于靠近它们的输入点。它能够使用任意数量的内核点,使KPConv比固定的网格卷更具灵活性。此外,这些位置在空间上是连续的并且可以由网络学习。因此,KPConv可以扩展到可变形的卷积,学习如何使核心点适应局部几何。感谢常规的子采样策略,KPConv对于不同的密度也是高效且稳健的。无论是将可变形KPConv用于复杂任务,还是将KPconv用于更简单的任务,我们的网络在几个数据集上都优于最先进的分类和分割方法。我们还进行了研究和可视化,以提供对KPConv已经学到的知识的理解,并验证可变形KPConv的描述能力。
translated by 谷歌翻译
基于不同输入模式(例如图像或点云)的几何体的重建已经在计算机辅助设计和计算机图形的开发中起到了作用。这些应用程序的最佳实现传统上涉及在其核心使用基于样条的表示。大多数此类方法试图解决最小化输出 - 目标不匹配的优化问题。然而,这些优化技术需要足够接近的初始化,因为它们本质上是本地方法。我们提出了一种深度学习架构,可以相应地执行样条拟合任务,为上述传统方法提供补充结果。我们通过基于输入图像或pointcloud重构样条曲线和曲面来展示我们的方法的性能。
translated by 谷歌翻译
本文的目的是估计RGB-D图像中的非显示对象实例的6D姿势和尺寸。与“实例级”6D姿势估计任务相反,我们的问题假设在训练或测试时间内没有精确的对象CAD模型可用。为了处理给定类别中的不同和看不见的对象实例,我们引入了规范化对象坐标空间(NOCS) - 一个类别中所有可能的对象实例的共享规范表示。然后训练基于Ourregion的神经网络直接推断从观察像素到该共享对象表示(NOCS)的对应性以及诸如类标签和实例掩模之类的其他对象信息。这些预测可以与深度图组合以联合估计主题6D在杂乱的场景中的多个对象的姿势和尺寸。为了统一我们的网络,我们提出了一种新的上下文感知技术,以生成大量完全注释的混合现实数据。为了进一步改进我们的模型并评估其在实际数据上的性能,我们还提供了具有大型环境和实例变体的完全注释的真实世界数据集。大量实验表明,所提出的方法能够在重新环境中进行环节估计看不见的物体实例的姿态和大小,同时还能在标准的6Dpose估算基准上实现最先进的性能。
translated by 谷歌翻译
计算机视觉的最终承诺之一是帮助机器人代理执行活动任务,例如提供包裹或做家务。然而,解决“视觉”的传统方法是定义一组离线识别问题(例如物体检测)并解决这些问题。首先,这种方法面临着最近兴起的Deep ReinforcementLearning框架的挑战,这些框架使用图像作为输入从头开始学习活动任务。这提出了一系列基本问题:如果从头开始学习一切,计算机视觉的作用是什么?中间视觉任务是否可以实际执行任意下游活动任务?我们表明,正确使用中级感知比从头开始训练具有明显的优势。我们将感知模块实现为中级可视化表示的集合,并证明学习具有中级特征的活动任务具有更高的样本效率,并且能够在从刮擦方法失败的情况下进行概括。但是,我们表明,实现这些收益需要仔细选择每个下游任务的特定中级功能。最后,我们根据我们的研究结果提出了一个简单而有效的感知模块,可以作为主动框架的相当通用的感知模块。
translated by 谷歌翻译
我们引入了一种新的3D对象提议方法,名为Generative ShapeProposal Network(GSPN),用于点云数据中的实例分割。取而代之的是将对象提议视为直接边界框回归问题,从而综合分析综合策略,并通过重建结构从场景中的噪声观察中生成提议。我们将GSPN整合到一个名为基于区域的PointNet(R-PointNet)的新型3D实例分割框架中,该框架可以灵活地进行提议细化和实例分割生成。在几个3D实例分割任务中实现了最先进的性能.GSPN的成功主要来自于在对象提案中强调几何理解,大大减少了低对象性的提议。
translated by 谷歌翻译
我们提供了PartNet:一个一致的大型3D对象数据集,用细粒度,实例级和分层3D零件信息进行注释。 Ourdataset包含573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集能够并作为许多任务的催化剂,如形状分析,动态三维场景建模和模拟,可供性分析等。使用我们的数据集,我们建立了三个评估三维零件识别的基准测试任务:细粒度语义分割,分层语义分割和实例分割。我们对用于细粒度语义分割的最先进的3D深度学习算法和用于分层语义分割的三种基线方法进行了基准测试。我们还提出了一种新的部分实例分割方法,并展示了优于现有方法的性能。
translated by 谷歌翻译
物体功能通常通过部分铰接来表达 - 当剪刀的两个刚性部分彼此相互枢转以执行切割功能时。在具有相同功能类别的对象之间,这种关节通常是相似的。在本文中,我们探讨了不同关节状态的观察如何为三维物体的零件结构和运动提供证据。我们的方法将一对未分段的形状作为输入,代表两个功能相关对象的两种不同的关节状态,并引入它们的共同部分以及它们潜在的刚性运动。这是一个具有挑战性的设置,因为我们假设没有先前的形状结构,没有先前的形状类别信息,没有一致的形状方向,关联状态可能属于不同几何形状的对象,加上我们允许输入是噪声和部分扫描,或点云从RGB图像。我们的方法学习了一个神经网络结构,它有三个模块,分别提出对应关系,估计三维变形流和执行分割。为了获得最佳性能,我们的架构以类似ICP的方式迭代地迭代对应,变形流和分段预测。我们的结果表明,我们的方法在发现物体的铰接部分的任务中明显优于最先进的技术。此外,我们的部分归纳是对象类不可知的,并成功地推广到新的和看不见的对象。
translated by 谷歌翻译