Rapid advances in 2D perception have led to systems that accurately detect objects in real-world images. However, these systems make predictions in 2D, ignoring the 3D structure of the world. Concurrently, advances in 3D shape prediction have mostly focused on synthetic benchmarks and isolated objects. We unify advances in these two areas. We propose a system that detects objects in real-world images and produces a triangle mesh giving the full 3D shape of each detected object. Our system, called Mesh R-CNN, augments Mask R-CNN with a mesh prediction branch that outputs meshes with varying topological structure by first predicting coarse voxel representations which are converted to meshes and refined with a graph convolution network operating over the mesh's vertices and edges. We validate our mesh prediction branch on ShapeNet, where we outperform prior work on single-image shape prediction. We then deploy our full Mesh R-CNN system on Pix3D, where we jointly detect objects and predict their 3D shapes. Project page: https://gkioxari.github.io/meshrcnn/.
translated by 谷歌翻译
一个3D场景由一组对象组成,每个对象都有一个形状和一个布局,使其在太空中的位置。从2D图像中了解3D场景是一个重要的目标,并具有机器人技术和图形的应用。尽管最近在预测单个图像的3D形状和布局方面取得了进步,但大多数方法都依赖于3D地面真相来进行训练,这很昂贵。我们克服了这些局限性,并提出了一种方法,该方法学会预测对象的3D形状和布局,而无需任何地面真相形状或布局信息:相反,我们依靠具有2D监督的多视图图像,可以更轻松地按大规模收集。通过在3D仓库,Hypersim和扫描仪上进行的广泛实验,我们证明了我们的进近量表与逼真的图像的大型数据集相比,并与依赖3D地面真理的方法进行了比较。在Hypersim和Scannet上,如果没有可靠的3D地面真相,我们的方法优于在较小和较少的数据集上训练的监督方法。
translated by 谷歌翻译
We propose an end-to-end deep learning architecture that produces a 3D shape in triangular mesh from a single color image. Limited by the nature of deep neural network, previous methods usually represent a 3D shape in volume or point cloud, and it is non-trivial to convert them to the more ready-to-use mesh model. Unlike the existing methods, our network represents 3D mesh in a graph-based convolutional neural network and produces correct geometry by progressively deforming an ellipsoid, leveraging perceptual features extracted from the input image. We adopt a coarse-to-fine strategy to make the whole deformation procedure stable, and define various of mesh related losses to capture properties of different levels to guarantee visually appealing and physically accurate 3D geometry. Extensive experiments show that our method not only qualitatively produces mesh model with better details, but also achieves higher 3D shape estimation accuracy compared to the state-of-the-art.
translated by 谷歌翻译
我们呈现ROCA,一种新的端到端方法,可以从形状数据库到单个输入图像中检索并对齐3D CAD模型。这使得从2D RGB观察开始观察到的场景的3D感知,其特征在于轻质,紧凑,清洁的CAD表示。我们的方法的核心是我们基于密集的2D-3D对象对应关系和促使对齐的可差的对准优化。因此,罗卡可以提供强大的CAD对准,同时通过利用2D-3D对应关系来学习几何上类似CAD模型来同时通知CAD检索。SCANNET的真实世界图像实验表明,Roca显着提高了现有技术,从检索感知CAD准确度为9.5%至17.6%。
translated by 谷歌翻译
单视图3D对象重建是一项基本且具有挑战性的计算机视觉任务,旨在从单视RGB图像中恢复3D形状。大多数现有的基于深度学习的重建方法都是​​在同一类别上培训和评估的,并且在处理训练过程中未见的新颖类别的物体时,它们无法正常工作。本文着眼于这个问题,解决了零照片的单视3D网格重建,以研究对看不见类别的模型概括,并鼓励模型从字面上重建对象。具体而言,我们建议一个端到端的两阶段网络Zeromesh,以打破重建中的类别边界。首先,我们将复杂的图像到网格映射分解为两个较简单的映射,即图像对点映射和点对点映射,而后者主要是几何问题,而不是对象类别的依赖。其次,我们在2D和3D特征空间中设计了局部特征采样策略,以捕获跨对象共享的局部几何形状,以增强模型概括。第三,除了传统的点对点监督外,我们还引入了多视图轮廓损失以监督表面生成过程,该过程提供了其他正则化,并进一步缓解了过度拟合的问题。实验结果表明,我们的方法在不同方案和各种指标下,特别是对于新颖对象而言,在Shapenet和Pix3D上的现有作品显着优于Shapenet和Pix3D的现有作品。
translated by 谷歌翻译
我们介绍了Amazon Berkeley对象(ABO),这是一个新的大型数据集,旨在帮助弥合真实和虚拟3D世界之间的差距。ABO包含产品目录图像,元数据和艺术家创建的3D模型,具有复杂的几何形状和与真实的家用物体相对应的物理基础材料。我们得出了具有挑战性的基准,这些基准利用ABO的独特属性,并测量最先进的对象在三个开放问题上的最新限制,以了解实际3D对象:单视3D 3D重建,材料估计和跨域多视图对象检索。
translated by 谷歌翻译
从单个图像中识别3D中的场景和对象是计算机视觉的长期目标,该目标具有机器人技术和AR/VR的应用。对于2D识别,大型数据集和可扩展解决方案已导致前所未有的进步。在3D中,现有的基准尺寸很小,并且方法专门研究几个对象类别和特定域,例如城市驾驶场景。在2D识别的成功中,我们通过引入一个称为Omni3d的大型基准来重新审视3D对象检测的任务。 OMNI3D重新排列并结合了现有的数据集,导致234K图像与超过300万个实例和97个类别相结合。由于相机内在的差异以及场景和对象类型的丰富多样性,因此3d检测到了这种规模的检测具有挑战性。我们提出了一个称为Cube R-CNN的模型,旨在以统一的方法跨相机和场景类型概括。我们表明,Cube R-CNN在较大的Omni3D和现有基准测试方面都优于先前的作品。最后,我们证明OMNI3D是一个用于3D对象识别的功能强大的数据集,表明它可以改善单数据库性能,并可以通过预训练在新的较小数据集上加速学习。
translated by 谷歌翻译
深度学习识别的进步导致使用2D图像准确的对象检测。然而,这些2D感知方法对于完整的3D世界信息不足。同时,高级3D形状估计接近形状本身的焦点,而不考虑公制量表。这些方法无法确定对象的准确位置和方向。为了解决这个问题,我们提出了一个框架,该框架共同估计了从单个RGB图像的度量标度形状和姿势。我们的框架有两个分支:公制刻度对象形状分支(MSO)和归一化对象坐标空间分支(NOC)。 MSOS分支估计在相机坐标中观察到的度量标准形状。 NOCS分支预测归一化对象坐标空间(NOCS)映射,并从预测的度量刻度网格与渲染的深度图执行相似性转换,以获得6D姿势和大小。此外,我们介绍了归一化对象中心估计(NOCE),以估计从相机到物体中心的几何对齐距离。我们在合成和实际数据集中验证了我们的方法,以评估类别级对象姿势和形状。
translated by 谷歌翻译
执行单个图像整体理解和3D重建是计算机视觉中的核心任务。本文介绍了从单个RGB图像的室内和室外场景执行整体图像分段,对象检测,实例分段,深度估计和对象实例3D重建。我们命名我们的系统Panoptic 3D解析,其中Panoptic Segsation(“填写”分割和“检测/分割”的“检测/分割”。我们设计了一个舞台明智的系统,其中不存在一整套注释。此外,我们介绍了一个端到端的管道,在合成数据集上培训,具有全套注释。我们在室内(3D-Flact)和户外(可可和城市)的场景上显示结果。我们提出的Panoptic 3D解析框架指向计算机愿景中有希望的方向。它可以应用于各种应用,包括自主驾驶,映射,机器人,设计,计算机图形学,机器人,人机互动和增强现实。
translated by 谷歌翻译
从单个RGB图像预测3D形状和静态对象的姿势是现代计算机视觉中的重要研究区域。其应用范围从增强现实到机器人和数字内容创建。通常,通过直接对象形状和姿势预测来执行此任务,该任务是不准确的。有希望的研究方向通过从大规模数据库中检索CAD模型并将它们对准到图像中观察到的对象来确保有意义的形状预测。然而,现有的工作并没有考虑到对象几何,导致对象姿态预测不准确,特别是对于未经看法。在这项工作中,我们演示了如何从RGB图像到呈现的CAD模型的跨域Keypoint匹配如何允许更精确的对象姿态预测与通过直接预测所获得的那些相比。我们进一步表明,关键点匹配不仅可以用于估计对象的姿势,还可以用于修改对象本身的形状。这与单独使用对象检索可以实现的准确性是重要的,其固有地限于可用的CAD模型。允许形状适配桥接检索到的CAD模型与观察到的形状之间的间隙。我们在挑战PIX3D数据集上展示了我们的方法。所提出的几何形状预测将AP网格改善在所看到的物体上的33.2至37.8上的33.2至37.8。未经证明对象的8.2至17.1。此外,在遵循所提出的形状适应时,我们展示了更准确的形状预测而不会与CAD模型紧密匹配。代码在HTTPS://github.com/florianlanger/leveraging_geometry_for_shape_eStimation上公开使用。
translated by 谷歌翻译
With the advent of deep neural networks, learning-based approaches for 3D reconstruction have gained popularity. However, unlike for images, in 3D there is no canonical representation which is both computationally and memory efficient yet allows for representing high-resolution geometry of arbitrary topology. Many of the state-of-the-art learningbased 3D reconstruction approaches can hence only represent very coarse 3D geometry or are limited to a restricted domain. In this paper, we propose Occupancy Networks, a new representation for learning-based 3D reconstruction methods. Occupancy networks implicitly represent the 3D surface as the continuous decision boundary of a deep neural network classifier. In contrast to existing approaches, our representation encodes a description of the 3D output at infinite resolution without excessive memory footprint. We validate that our representation can efficiently encode 3D structure and can be inferred from various kinds of input. Our experiments demonstrate competitive results, both qualitatively and quantitatively, for the challenging tasks of 3D reconstruction from single images, noisy point clouds and coarse discrete voxel grids. We believe that occupancy networks will become a useful tool in a wide variety of learning-based 3D tasks.
translated by 谷歌翻译
我们为RGB视频提供了基于变压器的神经网络体系结构,用于多对象3D重建。它依赖于表示知识的两种替代方法:作为特征的全局3D网格和一系列特定的2D网格。我们通过专用双向注意机制在两者之间逐步交换信息。我们利用有关图像形成过程的知识,以显着稀疏注意力重量矩阵,从而使我们的体系结构在记忆和计算方面可行。我们在3D特征网格的顶部附上一个detr风格的头,以检测场景中的对象并预测其3D姿势和3D形状。与以前的方法相比,我们的体系结构是单阶段,端到端可训练,并且可以从整体上考虑来自多个视频帧的场景,而无需脆弱的跟踪步骤。我们在挑战性的SCAN2CAD数据集上评估了我们的方法,在该数据集中,我们的表现要优于RGB视频的3D对象姿势估算的最新最新方法; (2)将多视图立体声与RGB-D CAD对齐结合的强大替代方法。我们计划发布我们的源代码。
translated by 谷歌翻译
我们在野外的一对立体声RGB图像上介绍了基于类别级3D对象检测和隐式形状估计的基于学习的框架。传统的立体声3D对象检测方法仅使用3D边界框来描述检测到的对象,无法推断出完全的表面几何形状,这使得创造难以创造逼真的户外沉浸体验。相比之下,我们提出了一种新的模型S-3D-RCNN,可以执行精确的本地化,并为检测到的对象提供完整和分辨不可行的形状描述。我们首先使用全局本地框架从形状重建估计对象坐标系估计。然后,我们提出了一种新的实例级网络,通过从立体声区域的基于点的表示来解决未经遵守的表面幻觉问题,并且Infers具有预测的完整表面几何形状的隐式形状码。广泛的实验使用Kitti基准测试的现有和新指标验证我们的方法的卓越性能。此HTTPS URL可提供代码和预先接受的型号。
translated by 谷歌翻译
Pixel-aligned Implicit function (PIFu): We present pixel-aligned implicit function (PIFu), which allows recovery of high-resolution 3D textured surfaces of clothed humans from a single input image (top row). Our approach can digitize intricate variations in clothing, such as wrinkled skirts and high-heels, including complex hairstyles. The shape and textures can be fully recovered including largely unseen regions such as the back of the subject. PIFu can also be naturally extended to multi-view input images (bottom row).
translated by 谷歌翻译
Intelligent mesh generation (IMG) refers to a technique to generate mesh by machine learning, which is a relatively new and promising research field. Within its short life span, IMG has greatly expanded the generalizability and practicality of mesh generation techniques and brought many breakthroughs and potential possibilities for mesh generation. However, there is a lack of surveys focusing on IMG methods covering recent works. In this paper, we are committed to a systematic and comprehensive survey describing the contemporary IMG landscape. Focusing on 110 preliminary IMG methods, we conducted an in-depth analysis and evaluation from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views of key technique, output mesh unit element, and applicable input data types. Finally, we highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
translated by 谷歌翻译
我们提出了一个新的框架,以重建整体3D室内场景,包括单视图像的房间背景和室内对象。由于室内场景的严重阻塞,现有方法只能产生具有有限几何质量的室内物体的3D形状。为了解决这个问题,我们提出了一个与实例一致的隐式函数(InstPifu),以进行详细的对象重建。与实例对齐的注意模块结合使用,我们的方法有权将混合的局部特征与遮挡实例相结合。此外,与以前的方法不同,该方法仅代表房间背景为3D边界框,深度图或一组平面,我们通过隐式表示恢复了背景的精细几何形状。在E SUN RGB-D,PIX3D,3D-FUTURE和3D-FRONT数据集上进行的广泛实验表明,我们的方法在背景和前景对象重建中均优于现有方法。我们的代码和模型将公开可用。
translated by 谷歌翻译
我们的方法从单个RGB-D观察中研究了以对象为中心的3D理解的复杂任务。由于这是一个不适的问题,因此现有的方法在3D形状和6D姿势和尺寸估计中都遭受了遮挡的复杂多对象方案的尺寸估计。我们提出了Shapo,这是一种联合多对象检测的方法,3D纹理重建,6D对象姿势和尺寸估计。 Shapo的关键是一条单杆管道,可回归形状,外观和构成潜在的代码以及每个对象实例的口罩,然后以稀疏到密集的方式进一步完善。首先学到了一种新颖的剖面形状和前景数据库,以将对象嵌入各自的形状和外观空间中。我们还提出了一个基于OCTREE的新颖的可区分优化步骤,使我们能够以分析的方式进一步改善对象形状,姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新颖的看不见的对象,而无需访问其3D网格。通过广泛的实验,我们表明我们的方法在模拟的室内场景上进行了训练,可以准确地回归现实世界中新颖物体的形状,外观和姿势,并以最小的微调。我们的方法显着超过了NOCS数据集上的所有基准,对于6D姿势估计,MAP的绝对改进为8%。项目页面:https://zubair-irshad.github.io/projects/shapo.html
translated by 谷歌翻译
从单个2D图像推断3D位置和多个对象的形状是计算机视觉的长期目标。大多数现有的作品都预测这些3D属性之一或专注于解决单个对象。一个基本挑战在于如何学习适合3D检测和重建的图像的有效表示。在这项工作中,我们建议从输入图像中学习3D体素特征的常规网格,其通过3D特征升降操作员与3D场景空间对齐。基于3D体素特征,我们的新型中心-3D检测头在3D空间中配制了3D检测作为关键点检测。此外,我们设计了一种高效的粗致细重建模块,包括粗级体轴和新的本地PCA-SDF形状表示,其能够精细的细节重建和比现有方法更快地推理的阶数。通过3D检测和重建的互补监督,可以使3D体素特征成为几何和上下文保留,从而通过单个对象中的3D检测和重建来证明我们的方法的有效性和多个对象场景。
translated by 谷歌翻译
神经隐式功能的最新发展已在高质量的3D形状重建方面表现出巨大的成功。但是,大多数作品将空间分为形状的内部和外部,从而将其代表力量限制为单层和水密形状。这种局限性导致乏味的数据处理(将非紧密的原始数据转换为水密度),以及代表现实世界中一般对象形状的无能。在这项工作中,我们提出了一种新颖的方法来表示一般形状,包括具有多层表面的非水平形状和形状。我们介绍了3D形状(GIF)的一般隐式函数,该功能建模了每两个点之间的关系,而不是点和表面之间的关系。 GIF没有将3D空间分为预定义的内部区域,而是编码是否将两个点分开。 Shapenet上的实验表明,在重建质量,渲染效率和视觉保真度方面,GIF的表现优于先前的最先进方法。项目页面可从https://jianglongye.com/gifs获得。
translated by 谷歌翻译