我们提出了一种适用于许多场景中的新方法,理解了适应Monte Carlo Tree Search(MCTS)算法的问题,该算法最初旨在学习玩高州复杂性的游戏。从生成的建议库中,我们的方法共同选择并优化了最小化目标项的建议。在我们的第一个从点云中进行平面图重建的应用程序中,我们的方法通过优化将深度网络预测的适应性组合到房间形状上的目标函数,选择并改进了以2D多边形为模型的房间建议。我们还引入了一种新型的可区分方法来渲染这些建议的多边形形状。我们对最近且具有挑战性的结构3D和Floor SP数据集的评估对最先进的表现有了显着改进,而没有对平面图配置施加硬性约束也没有假设。在我们的第二个应用程序中,我们扩展了从颜色图像重建一般3D房间布局并获得准确的房间布局的方法。我们还表明,可以轻松扩展我们的可区分渲染器,以渲染3D平面多边形和多边形嵌入。我们的方法在MatterPort3D-Layout数据集上显示了高性能,而无需在房间布局配置上引入硬性约束。
translated by 谷歌翻译
我们提出了MonteboxFinder,该方法给定嘈杂的输入点云将立方体适合输入场景。我们的主要贡献是一种离散的优化算法,从一组最初检测到的立方体,它能够有效地从嘈杂的盒子中过滤好盒子。受到MCT在理解问题的最新应用的启发,我们开发了一种随机算法,该算法是通过设计更有效的。确实,适合立方排列的质量对于将立方体添加到场景的顺序中是不变的。我们为我们的问题开发了几个搜索基准,并在扫描仪数据集上证明了我们的方法更有效和精确。最后,我们坚信我们的核心算法非常笼统,并且可以扩展到3D场景理解中的许多其他问题。
translated by 谷歌翻译
我们介绍360-DFPE,一个顺序楼层平面图估计方法,直接将360图像视为输入,而不依赖于有源传感器或3D信息。我们的方法利用单眼视觉SLAM解决方案和单眼360室布局方法之间的松散耦合集成,分别估计相机姿势和布局几何形状。由于我们的任务是使用单眼图像,整个场景结构,房间实例和房间形状顺序捕获平面图。为了解决这些挑战,我们首先通过制定熵最小化过程来处理视觉内径和布局几何形状之间的比例差异,这使我们能够直接对准360布局而不提前了解整个场景。其次,为了顺序识别各个房间,我们提出了一种新颖的室内识别算法,其使用几何信息沿着相机探索跟踪每个房间。最后,为了估算房间的最终形状,我们提出了一种最短的路径算法,具有迭代的粗细策略,这改善了具有更高精度和更快的运行时间的现有制剂。此外,我们收集一个具有具有挑战性的大型场景的新楼层规划数据集,提供了点云和顺序360图像信息。实验结果表明,我们的单眼解决方案实现了依赖于活动传感器的当前最先进的算法的良好性能,并提前要求整个场景重建数据。我们的代码和数据集将很快发布。
translated by 谷歌翻译
We address 2D floorplan reconstruction from 3D scans. Existing approaches typically employ heuristically designed multi-stage pipelines. Instead, we formulate floorplan reconstruction as a single-stage structured prediction task: find a variable-size set of polygons, which in turn are variable-length sequences of ordered vertices. To solve it we develop a novel Transformer architecture that generates polygons of multiple rooms in parallel, in a holistic manner without hand-crafted intermediate stages. The model features two-level queries for polygons and corners, and includes polygon matching to make the network end-to-end trainable. Our method achieves a new state-of-the-art for two challenging datasets, Structured3D and SceneCAD, along with significantly faster inference than previous methods. Moreover, it can readily be extended to predict additional information, i.e., semantic room types and architectural elements like doors and windows. Our code and models will be available at: https://github.com/ywyue/RoomFormer.
translated by 谷歌翻译
现实的3D室内场景数据集在计算机视觉,场景理解,自主导航和3D重建中启用了最近的最近进展。但是,现有数据集的规模,多样性和可定制性有限,并且扫描和注释更多的耗时和昂贵。幸运的是,组合者在我们方面:现有3D场景数据集有足够的个别房间,如果有一种方法可以将它们重新组合成新的布局。在本文中,我们提出了从现有3D房间生成新型3D平面图的任务。我们确定了这个问题的三个子任务:生成2D布局,检索兼容3D房间,以及3D房间的变形,以适应布局。然后,我们讨论解决问题的不同策略,设计两个代表性管道:一个使用可用的2D楼层计划,以指导3D房间的选择和变形;另一个学习检索一组兼容的3D房间,并将它们与新颖的布局相结合。我们设计一组指标,可评估所生成的结果与三个子任务中的每一个,并显示不同的方法在这些子任务上交易性能。最后,我们调查从生成的3D场景中受益的下游任务,并讨论选择最适合这些任务的需求的方法。
translated by 谷歌翻译
We introduce an approach for recovering the 6D pose of multiple known objects in a scene captured by a set of input images with unknown camera viewpoints. First, we present a single-view single-object 6D pose estimation method, which we use to generate 6D object pose hypotheses. Second, we develop a robust method for matching individual 6D object pose hypotheses across different input images in order to jointly estimate camera viewpoints and 6D poses of all objects in a single consistent scene. Our approach explicitly handles object symmetries, does not require depth measurements, is robust to missing or incorrect object hypotheses, and automatically recovers the number of objects in the scene. Third, we develop a method for global scene refinement given multiple object hypotheses and their correspondences across views. This is achieved by solving an object-level bundle adjustment problem that refines the poses of cameras and objects to minimize the reprojection error in all views. We demonstrate that the proposed method, dubbed Cosy-Pose, outperforms current state-of-the-art results for single-view and multi-view 6D object pose estimation by a large margin on two challenging benchmarks: the YCB-Video and T-LESS datasets. Code and pre-trained models are available on the project webpage. 5
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural information they provide. Traditional line detectors based on the image gradient are extremely fast and accurate, but lack robustness in noisy images and challenging conditions. Their learned counterparts are more repeatable and can handle challenging images, but at the cost of a lower accuracy and a bias towards wireframe lines. We propose to combine traditional and learned approaches to get the best of both worlds: an accurate and robust line detector that can be trained in the wild without ground truth lines. Our new line segment detector, DeepLSD, processes images with a deep network to generate a line attraction field, before converting it to a surrogate image gradient magnitude and angle, which is then fed to any existing handcrafted line detector. Additionally, we propose a new optimization tool to refine line segments based on the attraction field and vanishing points. This refinement improves the accuracy of current deep detectors by a large margin. We demonstrate the performance of our method on low-level line detection metrics, as well as on several downstream tasks using multiple challenging datasets. The source code and models are available at https://github.com/cvg/DeepLSD.
translated by 谷歌翻译
AR/VR应用程序和机器人需要知道场景何时更改。一个示例是从场景中移动,添加或删除对象时。我们提出了仅基于场景更改的3D对象发现方法。我们的方法不需要编码有关对象的任何假设,而是通过利用其连贯的动作来发现对象。最初将变化视为深度图的差异,并在对象进行刚性运动时被分割为对象。图切割优化将不断变化的标签传播到几何一致的区域。实验表明,我们的方法在针对竞争基线的3RSCAN数据集上实现了最先进的性能。我们方法的源代码可以在https://github.com/katadam/objectscanmove上找到。
translated by 谷歌翻译
我们展示了MVLayoutNet,是来自多视图全景的整体三维重建端到端网络。我们的核心贡献是无缝地将学习的单目布局估计和多视图立体声(MV)结合起来,以便在3D和图像空间中准确地重建。我们共同列出布局模块以产生初始布局和新型MVS模块,以获得精确的布局几何形状。与标准MVSNET [33]不同,我们的MVS模块采用新建的布局成本卷,其在相同的深度层中聚合到相应的布局元件中的多视图成本。我们还提供了一种基于注意的方案,指导MVS模块专注于结构区域。这种设计考虑了本地像素级成本和全球整体信息,以便更好地重建。实验表明,我们的方法在2D-3D-S [1]和Zind [5]数据集中,在深度RMSE方面以21.7%和20.6%表示最先进的。最后,我们的方法导致连贯的布局几何,使整个场景的重建能够。
translated by 谷歌翻译
一个3D场景由一组对象组成,每个对象都有一个形状和一个布局,使其在太空中的位置。从2D图像中了解3D场景是一个重要的目标,并具有机器人技术和图形的应用。尽管最近在预测单个图像的3D形状和布局方面取得了进步,但大多数方法都依赖于3D地面真相来进行训练,这很昂贵。我们克服了这些局限性,并提出了一种方法,该方法学会预测对象的3D形状和布局,而无需任何地面真相形状或布局信息:相反,我们依靠具有2D监督的多视图图像,可以更轻松地按大规模收集。通过在3D仓库,Hypersim和扫描仪上进行的广泛实验,我们证明了我们的进近量表与逼真的图像的大型数据集相比,并与依赖3D地面真理的方法进行了比较。在Hypersim和Scannet上,如果没有可靠的3D地面真相,我们的方法优于在较小和较少的数据集上训练的监督方法。
translated by 谷歌翻译
In this work, we study 3D object detection from RGB-D data in both indoor and outdoor scenes. While previous methods focus on images or 3D voxels, often obscuring natural 3D patterns and invariances of 3D data, we directly operate on raw point clouds by popping up RGB-D scans. However, a key challenge of this approach is how to efficiently localize objects in point clouds of large-scale scenes (region proposal). Instead of solely relying on 3D proposals, our method leverages both mature 2D object detectors and advanced 3D deep learning for object localization, achieving efficiency as well as high recall for even small objects. Benefited from learning directly in raw point clouds, our method is also able to precisely estimate 3D bounding boxes even under strong occlusion or with very sparse points. Evaluated on KITTI and SUN RGB-D 3D detection benchmarks, our method outperforms the state of the art by remarkable margins while having real-time capability. * Majority of the work done as an intern at Nuro, Inc. depth to point cloud 2D region (from CNN) to 3D frustum 3D box (from PointNet)
translated by 谷歌翻译
We present an automatic method for annotating images of indoor scenes with the CAD models of the objects by relying on RGB-D scans. Through a visual evaluation by 3D experts, we show that our method retrieves annotations that are at least as accurate as manual annotations, and can thus be used as ground truth without the burden of manually annotating 3D data. We do this using an analysis-by-synthesis approach, which compares renderings of the CAD models with the captured scene. We introduce a 'cloning procedure' that identifies objects that have the same geometry, to annotate these objects with the same CAD models. This allows us to obtain complete annotations for the ScanNet dataset and the recent ARKitScenes dataset.
translated by 谷歌翻译
接近周期性的模式(NPP)在人造场景中无处不在,由瓷砖图案组成,其外观差异是由照明,缺陷或设计元素引起的。良好的NPP表示对许多应用程序有用,包括图像完成,分割和几何重新映射。但是代表NPP是具有挑战性的,因为它需要保持全球一致性(瓷砖图案布局),同时保留局部变化(外观差异)。使用大型数据集或单图像优化斗争在一般场景上训练的方法以满足这些约束,而明确模型周期性的方法对周期性检测错误并不强大。为了应对这些挑战,我们使用基于坐标的MLP学习具有单图像优化的神经隐式表示。我们设计一个输入功能翘曲模块和周期性指导的补丁损失,以处理全球一致性和局部变化。为了进一步提高鲁棒性,我们引入了一个周期性建议模块,以在我们的管道中搜索和使用多个候选周期。我们在单个和多平面场景上展示了我们方法对500多个建筑物,架子,壁纸,地面和蒙德里安图案的有效性。
translated by 谷歌翻译
在本文中,我们重新审视了从单线图中自动重建3D对象的长期问题。以前的基于优化的方法可以生成紧凑而准确的3D模型,但是它们的成功率在很大程度上取决于(i)确定一组真正的真正几何约束的能力,以及(ii)为数值优化选择一个良好的初始值。鉴于这些挑战,我们建议训练深层神经网络,以检测3D对象中几何实体(即边缘)之间的成对关系,并预测顶点的初始深度值。我们在大型CAD模型数据集上进行的实验表明,通过利用几何约束解决管道中的深度学习,基于优化的3D重建的成功率可以显着提高。
translated by 谷歌翻译
球形摄像机以整体方式捕获场景,并已用于房间布局估计。最近,随着适当数据集的可用性,从单个全向图像中的深度估计也取得了进展。尽管这两个任务是互补的,但很少有作品能够并行探索它们以提高室内几何感知,而那些这样做的人则依靠合成数据或使用过的小型数据集,因为很少有选项可供选择,包括两个布局。在真实场景中的注释和密集的深度图。这部分是由于需要对房间布局进行手动注释。在这项工作中,我们超越了此限制,并生成360几何视觉(360V)数据集,该数据集包括多种模式,多视图立体声数据并自动生成弱布局提示。我们还探索了两个任务之间的明确耦合,以将它们集成到经过单打的训练模型中。我们依靠基于深度的布局重建和基于布局的深度注意,这表明了两项任务的性能提高。通过使用单个360摄像机扫描房间,出现了便利和快速建筑规模3D扫描的机会。
translated by 谷歌翻译
3D场景从点云层的理解对各种机器人应用起着重要作用。遗憾的是,目前的最先进的方法使用单独的神经网络进行对象检测或房间布局估计等不同任务。这种方案具有两个限制:1)存储和运行多个网络以用于不同任务的网络对于典型的机器人平台昂贵。 2)忽略单独输出的内在结构,潜在地侵犯。为此,我们使用点云输入提出了第一变压器架构,其同时预测3D对象和布局。与估计布局关键点或边缘的现有方法不同,我们将单独参数化为一组四边形。因此,所提出的架构被称为p(oint)q(UAD)-Transformer。除了新颖的四边形表示之外,我们提出了一种量身定制的物理约束损失功能,阻碍对象布局干扰。公共基准SCANNet上的定量和定性评估表明,所提出的PQ变换器成功地共同解析了3D对象和布局,以准实时(8.91 FPS)速率运行而无需效率为导向的优化。此外,新的物理限制损失可以改善强力基线,房间布局的F1分数明显促进了37.9%至57.9%。
translated by 谷歌翻译
本文介绍了一种用于结构重建的新型关注的神经网络,其将2D光栅图像作为输入,并重建描绘底层几何结构的平面图。该方法检测角落,并以端到端的方式对角之间进行分类边缘候选。我们的贡献是整体边缘分类架构,其中1)通过其端点的三角位置编码初始化边缘候选的特征; 2)通过可变形的关注将图像特征融合到每个边缘候选; 3)采用两个重量分配变压器解码器,用于在图形边缘候选方面学习整体结构模式; 4)通过掩盖的学习策略培训。拐角探测器是边缘分类架构的变体,适用于作为转角候选的像素上操作。我们对两种结构化重建任务进行实验:户外建筑架构和室内平面平面图形重建。广泛的定性和量化评估表明了我们对现有技术的方法的优势。我们将分享代码和模型。
translated by 谷歌翻译
我们考虑了一个类别级别的感知问题,其中给定的2D或3D传感器数据描绘了给定类别的对象(例如,汽车),并且必须重建尽管级别的可变性,但必须重建对象的3D姿势和形状(即,不同的汽车模型具有不同的形状)。我们考虑了一个主动形状模型,其中 - 对于对象类别 - 我们获得了一个潜在的CAD模型库,描述该类别中的对象,我们采用了标准公式,其中姿势和形状是通过非非2D或3D关键点估算的-convex优化。我们的第一个贡献是开发PACE3D*和PACE2D*,这是第一个使用3D和2D关键点进行姿势和形状估计的最佳最佳求解器。这两个求解器都依赖于紧密(即精确)半决赛的设计。我们的第二个贡献是开发两个求解器的异常刺激版本,命名为PACE3D#和PACE2D#。为了实现这一目标,我们提出了Robin,Robin是一种一般的图理论框架来修剪异常值,该框架使用兼容性超图来建模测量的兼容性。我们表明,在类别级别的感知问题中,这些超图可以是通过关键点(以2D)或其凸壳(以3D为单位)构建的,并且可以通过最大的超级计算来修剪许多异常值。最后的贡献是广泛的实验评估。除了在模拟数据集和Pascal数据集上提供消融研究外,我们还将求解器与深关键点检测器相结合,并证明PACE3D#在Apolloscape数据集中在车辆姿势估算中改进了最新技术,并且其运行时间是兼容的使用实际应用。
translated by 谷歌翻译
We introduce a novel method for 3D object detection and pose estimation from color images only. We first use segmentation to detect the objects of interest in 2D even in presence of partial occlusions and cluttered background. By contrast with recent patch-based methods, we rely on a "holistic" approach: We apply to the detected objects a Convolutional Neural Network (CNN) trained to predict their 3D poses in the form of 2D projections of the corners of their 3D bounding boxes. This, however, is not sufficient for handling objects from the recent T-LESS dataset: These objects exhibit an axis of rotational symmetry, and the similarity of two images of such an object under two different poses makes training the CNN challenging. We solve this problem by restricting the range of poses used for training, and by introducing a classifier to identify the range of a pose at run-time before estimating it. We also use an optional additional step that refines the predicted poses. We improve the state-of-the-art on the LINEMOD dataset from 73.7% [2] to 89.3% of correctly registered RGB frames. We are also the first to report results on the Occlusion dataset [1] using color images only. We obtain 54% of frames passing the Pose 6D criterion on average on several sequences of the T-LESS dataset, compared to the 67% of the state-of-the-art [10] on the same sequences which uses both color and depth. The full approach is also scalable, as a single network can be trained for multiple objects simultaneously.
translated by 谷歌翻译