机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣,该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用,人体的动画,3D重建和姿势估计。然而,由于在短时间内的快速进展,许多论文存在,但尚未出现全面的审查和制定问题。在本报告中,我们通过提供上下文,数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中,我们通过识别神经字段方法的公共组件,包括不同的表示,架构,前向映射和泛化方法来专注于神经字段的技术。在第二部分中,我们专注于神经领域的应用在视觉计算中的不同问题,超越(例如,机器人,音频)。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度,展示了神经字段方法所带来的提高的质量,灵活性和能力。最后,我们展示了一个伴随着贡献本综述的生活版本,可以由社区不断更新。
translated by 谷歌翻译
从单视图重建3D形状是一个长期的研究问题。在本文中,我们展示了深度隐式地面网络,其可以通过预测底层符号距离场来从2D图像产生高质量的细节的3D网格。除了利用全局图像特征之外,禁止2D图像上的每个3D点的投影位置,并从图像特征映射中提取本地特征。结合全球和局部特征显着提高了符合距离场预测的准确性,特别是对于富含细节的区域。据我们所知,伪装是一种不断捕获从单视图图像中存在于3D形状中存在的孔和薄结构等细节的方法。 Disn在从合成和真实图像重建的各种形状类别上实现最先进的单视性重建性能。代码可在https://github.com/xharlie/disn提供补充可以在https://xharlie.github.io/images/neUrips_2019_Supp.pdf中找到补充
translated by 谷歌翻译
隐式神经网络已成功用于点云的表面重建。然而,它们中的许多人面临着可扩展性问题,因为它们将整个对象或场景的异构面功能编码为单个潜在载体。为了克服这种限制,一些方法在粗略普通的3D网格或3D补丁上推断潜伏向量,并将它们插入以应对占用查询。在这样做时,它们可以与对象表面上采样的输入点进行直接连接,并且它们在空间中均匀地附加信息,而不是其最重要的信息,即在表面附近。此外,依赖于固定的补丁大小可能需要离散化调整。要解决这些问题,我们建议使用点云卷积并计算每个输入点的潜伏向量。然后,我们使用推断的权重在最近的邻居上执行基于学习的插值。对象和场景数据集的实验表明,我们的方法在大多数古典指标上显着优于其他方法,产生更精细的细节和更好的重建更薄的卷。代码可在https://github.com/valeoai/poco获得。
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
我们介绍DMTET,深度3D条件生成模型,可以使用诸如粗体素的简单用户指南来合成高分辨率3D形状。它通过利用新型混合3D表示来结婚隐式和显式3D表示的优点。与当前隐含的方法相比,培训涉及符号距离值,DMTET直接针对重建的表面进行了优化,这使我们能够用更少的伪像来合成更精细的几何细节。与直接生成诸如网格之类的显式表示的深度3D生成模型不同,我们的模型可以合成具有任意拓扑的形状。 DMTET的核心包括可变形的四面体网格,其编码离散的符号距离函数和可分行的行进Tetrahedra层,其将隐式符号距离表示转换为显式谱图表示。这种组合允许使用在表面网格上明确定义的重建和对抗性损耗来联合优化表面几何形状和拓扑以及生成细分层次结构。我们的方法显着优于来自粗体素输入的条件形状合成的现有工作,培训在复杂的3D动物形状的数据集上。项目页面:https://nv-tlabs.github.io/dmtet/
translated by 谷歌翻译
近年来,由于其表达力和灵活性,神经隐式表示在3D重建中获得了普及。然而,神经隐式表示的隐式性质导致缓慢的推理时间并且需要仔细初始化。在本文中,我们重新审视经典且无处不在的点云表示,并使用泊松表面重建(PSR)的可分辨率配方引入可分化的点对网格层,其允许给予定向的GPU加速的指示灯的快速解决方案点云。可微分的PSR层允许我们通过隐式指示器字段有效地和分散地桥接与3D网格的显式3D点表示,从而实现诸如倒角距离的表面重建度量的端到端优化。因此,点和网格之间的这种二元性允许我们以面向点云表示形状,这是显式,轻量级和富有表现力的。与神经内隐式表示相比,我们的形状 - 点(SAP)模型更具可解释,轻量级,并通过一个级别加速推理时间。与其他显式表示相比,如点,补丁和网格,SA​​P产生拓扑无关的水密歧管表面。我们展示了SAP对无知点云和基于学习的重建的表面重建任务的有效性。
translated by 谷歌翻译
我们呈现圆圈,基于本地隐式符号距离函数的大规模场景完成和几何精致的框架。它基于端到端的稀疏卷积网络,Circnet,共同模拟局部几何细节和全局场景结构背景,使其能够在传统3D场景数据中恢复通常产生的缺失区域的同时保留细粒度的对象细节。一种新颖的可分解渲染模块,可以进行测试时间精制以获得更好的重建质量。对现实世界和合成数据集的广泛实验表明,我们的简明框架是高效且有效的,实现比最接近竞争对手更好的重建质量,同时速度更快。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
从单个2D图像推断3D位置和多个对象的形状是计算机视觉的长期目标。大多数现有的作品都预测这些3D属性之一或专注于解决单个对象。一个基本挑战在于如何学习适合3D检测和重建的图像的有效表示。在这项工作中,我们建议从输入图像中学习3D体素特征的常规网格,其通过3D特征升降操作员与3D场景空间对齐。基于3D体素特征,我们的新型中心-3D检测头在3D空间中配制了3D检测作为关键点检测。此外,我们设计了一种高效的粗致细重建模块,包括粗级体轴和新的本地PCA-SDF形状表示,其能够精细的细节重建和比现有方法更快地推理的阶数。通过3D检测和重建的互补监督,可以使3D体素特征成为几何和上下文保留,从而通过单个对象中的3D检测和重建来证明我们的方法的有效性和多个对象场景。
translated by 谷歌翻译
三维(3D)建筑模型在许多现实世界应用中发挥着越来越竞触的作用,同时获得紧凑的建筑物的表现仍然是一个公开的问题。在本文中,我们提出了一种从点云中重建紧凑,水密的多边形建筑模型的新框架。我们的框架包括三个组件:(a)通过自适应空间分区生成一个单元复合物,该分区提供了作为候选集的多面体嵌入; (b)由深度神经网络学习隐式领域,促进建立占用估计; (c)配制马尔可夫随机场,通过组合优化提取建筑物的外表面。我们在形状重建,表面逼近和几何简化中评估和比较我们的最先进方法的方法。综合性和现实世界点云的实验表明,通过我们的神经引导策略,可以获得高质量的建筑模型,在保真度,紧凑性和计算效率方面具有显着的优势。我们的方法显示了对噪声和测量不足的鲁棒性,并且可以从合成扫描到现实世界测量中直接概括。
translated by 谷歌翻译
深度生成模型的最新进展导致了3D形状合成的巨大进展。虽然现有模型能够合成表示为体素,点云或隐式功能的形状,但这些方法仅间接强制执行最终3D形状表面的合理性。在这里,我们提出了一种直接将对抗训练施加到物体表面的3D形状合成框架(Surfgen)。我们的方法使用可分解的球面投影层来捕获并表示隐式3D发生器的显式零IsoSurface作为在单元球上定义的功能。通过在对手设置中用球形CNN处理3D对象表面的球形表示,我们的发电机可以更好地学习自然形状表面的统计数据。我们在大规模形状数据集中评估我们的模型,并证明了端到端训练的模型能够产生具有不同拓扑的高保真3D形状。
translated by 谷歌翻译
完成无序部分点云是一个具有挑战性的任务。依赖于解码潜在特征来恢复完整形状的现有方法,通常导致完成的点云过度平滑,丢失细节和嘈杂。我们建议首先解码和优化低分辨率(低res)点云,而不是一次性地解码和优化低分辨率(低分辨率)点云,而不是一次性地插入整个稀疏点云,这趋于失去细节。关于缺乏最初解码的低res点云的细节的可能性,我们提出了一种迭代细化,以恢复几何细节和对称化过程,以保护来自输入部分点云的值得信赖的信息。获得稀疏和完整的点云后,我们提出了一种补丁设计的上采样策略。基于补丁的上采样允许更好地恢复精细细节与整个形状不同,然而,由于数据差异(即,这里的输入稀疏数据不是来自地面真理的输入稀疏数据,现有的上采样方法不适用于完成任务。因此,我们提出了一种补丁提取方法,在稀疏和地面 - 真值云之间生成训练补丁对,以及抑制来自稀疏点云的噪声点的异常删除步骤。我们的整个方法都能实现高保真点云完成。提供综合评估以证明所提出的方法及其各个组件的有效性。
translated by 谷歌翻译
最近的进展表明,可以通过像欧妮线方程等物理限制来实现半监督隐式表示学习。然而,由于其空间不同的稀疏性,该方案尚未成功地用于LiDAR点云数据。在本文中,我们开发了一种新颖的制定,条件在局部形状嵌入上的半监督隐式功能。它利用稀疏卷积网络的强大表示力,以产生形状感知密集特征卷,同时仍允许半监控符号函数学习,而不知道自由空间的确切值。具有广泛的定量和定性结果,我们证明了这种新的学习系统的内在属性及其在现实世界道路场景中的用途。值得注意的是,我们在Semantickitti将iou从26.3%到51.0%。此外,我们探索了两个范式来集成语义标签预测,实现隐式语义完成。可以在https://github.com/open-air-sun/sisc访问代码和模型。
translated by 谷歌翻译
许多3D表示(例如,点云)是下面连续3D表面的离散样本。该过程不可避免地介绍了底层的3D形状上的采样变化。在学习3D表示中,应忽略应忽略变化,而应捕获基础3D形状的可转换知识。这成为现有代表学习范式的大挑战。本文在点云上自动编码。标准自动编码范例强制编码器捕获这种采样变体,因为解码器必须重建具有采样变化的原始点云。我们介绍了隐式AutoEncoder(IAE),这是一种简单而有效的方法,通过用隐式解码器替换点云解码器来解决这一挑战。隐式解码器输出与相同模型的不同点云采样之间共享的连续表示。在隐式表示下重建可以优先考虑编码器丢弃采样变体,引入更多空间以学习有用的功能。在一个简单的线性AutoEncoder下,理论上理论地证明这一索赔。此外,隐式解码器提供丰富的空间来为不同的任务设计合适的隐式表示。我们展示了IAE对3D对象和3D场景的各种自我监督学习任务的有用性。实验结果表明,IAE在每项任务中始终如一地优于最先进的。
translated by 谷歌翻译
在本文中,我们提出了一种新的点云表示。与传统点云表示不同,其中每个点仅表示3D空间中的位置或局部平面,神经点中的每个点通过神经领域表示局部连续几何形状。因此,神经点可以表达更复杂的细节,因此具有更强的表示能力。具有含有丰富的几何细节的高分辨率表面培训神经点,使得训练模型具有足够的各种形状的表达能力。具体地,我们通过2D参数域和3D本地补丁之间的局部同构来提取点上的深度局部特征并通过局部同构构造神经字段。在决赛中,局部神经领域集成在一起以形成全局表面。实验结果表明,神经点具有强大的代表能力,展示了优异的鲁棒性和泛化能力。通过神经点,我们可以用任意分辨率重新采样点云,并优于最先进的点云上采样方法,通过大边距。
translated by 谷歌翻译
表面重建是3D图形的基本问题。在本文中,我们提出了一种基于学习的基于云层云层的隐式表面重建的方法,没有正常。我们的方法是在潜在的能源理论中受到高斯引理的启发,这为指标功能提供了明确的整体公式。我们设计一个新颖的深神经网络,以执行表面积分,并从未定向和嘈杂的点云学习修改的指示灯。我们连接具有不同尺度的特征,以便准确地对整数的贡献。此外,我们提出了一种新颖的表面元件特征提取器来学习局部形状特性。实验表明,我们的方法从具有不同噪声尺度的点云的点云产生具有高正常一致性的平滑表面,并与当前的数据驱动和非数据驱动的方法相比,实现了最先进的重建性能。
translated by 谷歌翻译
我们在2D和3D域中介绍了一个Unist,是通用,未配对的形状转换的第一深度神经隐式模型。我们的模型是在自动编码隐式字段上构建的,而不是表示最先进的点云。此外,我们的翻译网络受过培训,以在潜在的网格表示上执行任务,该任务结合了潜在空间处理和位置意识的优点,不仅能够实现剧烈形状变换,而且很好地保护空间特征和用于自然形状的优质局部细节翻译。使用相同的网络架构和仅由输入域对决定,我们的模型可以了解风格保留的内容改变和内容保留的样式传输。我们展示了翻译结果的一般性和质量,并将它们与众所周知的基线进行比较。
translated by 谷歌翻译
从单个视图中重建高质量的3D对象,从单个视图中的部分观测可能对计算机视觉,机器人和图形的各种应用来说至关重要。虽然最近的神经隐式建模方法显示了合成或密集数据的有希望的结果,但它们在稀疏和嘈杂的现实世界数据上表现不佳。我们发现流行的神经隐式模型的局限性是由于缺乏鲁棒形状的主管和缺乏适当的正则化。在这项工作中,我们展示了使用:(i)一个深度编码器作为形状潜在代码的鲁棒初始化器的深度编码器; (ii)正规化的测试时间优化潜在代码; (iii)以学习的高维形状为深度鉴别者; (iv)一种新颖的课程学习策略,允许模型学习合成数据的形状前瞻,并将其平稳地将它们转移到稀疏的现实世界数据。我们的方法更好地捕获了全局结构,在遮挡和稀疏观测上表现良好,并用地面真理形状良好寄存。我们在两个现实世界数据集上展示了最先进的3D对象重建方法的卓越性能。
translated by 谷歌翻译
我们呈现神经内核字段:一种基于学习内核回归重建隐式3D形状的新方法。我们的技术在重建3D对象和稀疏导向点的大型场景时,我们的技术实现了最先进的结果,并且可以在训练组外重建形状类别,几乎没有准确度。我们的方法的核心介绍是,当所选内核具有适当的感应偏压时,内核方法对于重建形状非常有效。因此,我们将形状重建问题分为两部分:(1)骨干神经网络从数据中学习内核参数,(2)通过求解一个简单的正面的正定方法,该骨架ridge回归拟合输入点。使用学习内核的线性系统。由于这种分解,我们的重建在稀疏点密度下获得了数据驱动方法的益处,同时保持了与地面真理形状收敛的插值行为,因为输入采样密度增加。我们的实验表明了在列车集类别之外的对象和扫描场景的强大概括能力。源代码和预磨料模型可在https://nv-tlabs.github.io/nkf上获得。
translated by 谷歌翻译
3D感知图像生成建模旨在生成具有明确可控相机姿势的3D一致图像。最近的作品通过在非结构化的2D图像上培训神经辐射场(NERF)发电机,但仍然无法产生具有精细细节的高度现实图像。一个关键原因是体积表示学习的高记忆和计算成本大大限制了训练期间辐射集成的点样本的数量。不足的采样不仅限制了发电机的表现力,以处理细节细节,而且由于不稳定的蒙特卡罗采样引起的噪音,因此阻碍了有效的GaN训练。我们提出了一种新的方法,调节点采样和辐射场地学习在2D歧管上,体现为3D音量中的一组学习隐式表面。对于每个观看射线,我们计算射线表面交叉点并累积由网络产生的亮度。通过培训和渲染如此光辉的歧管,我们的发电机可以产生具有现实细节和强大的视觉3D一致性的高质量图像。
translated by 谷歌翻译