从单个视图中重建高质量的3D对象,从单个视图中的部分观测可能对计算机视觉,机器人和图形的各种应用来说至关重要。虽然最近的神经隐式建模方法显示了合成或密集数据的有希望的结果,但它们在稀疏和嘈杂的现实世界数据上表现不佳。我们发现流行的神经隐式模型的局限性是由于缺乏鲁棒形状的主管和缺乏适当的正则化。在这项工作中,我们展示了使用:(i)一个深度编码器作为形状潜在代码的鲁棒初始化器的深度编码器; (ii)正规化的测试时间优化潜在代码; (iii)以学习的高维形状为深度鉴别者; (iv)一种新颖的课程学习策略,允许模型学习合成数据的形状前瞻,并将其平稳地将它们转移到稀疏的现实世界数据。我们的方法更好地捕获了全局结构,在遮挡和稀疏观测上表现良好,并用地面真理形状良好寄存。我们在两个现实世界数据集上展示了最先进的3D对象重建方法的卓越性能。
translated by 谷歌翻译
本文提出了一种类别级别的6D对象姿势和形状估计方法IDAPS,其允许在类别中跟踪6D姿势并估计其3D形状。我们使用深度图像作为输入开发类别级别自动编码器网络,其中来自自动编码器编码的特征嵌入在类别中对象的姿势。自动编码器可用于粒子过滤器框架,以估计和跟踪类别中的对象的姿势。通过利用基于符号距离函数的隐式形状表示,我们构建延迟网络以估计给定对象的估计姿势的3D形状的潜在表示。然后,估计的姿势和形状可用于以迭代方式互相更新。我们的类别级别6D对象姿势和形状估计流水线仅需要2D检测和分段进行初始化。我们在公开的数据集中评估我们的方法,并展示其有效性。特别是,我们的方法在形状估计上实现了相对高的准确性。
translated by 谷歌翻译
在城市环境中导航时,许多需要跟踪和避免的对象严重封闭。使用这些部分扫描的规划和跟踪可能具有挑战性。这项工作的目的是学习完成这些部分点云,让我们仅仅使用部分观测全面了解对象的几何。以前的方法在目标对象的完整地面注释的帮助下实现了此目的,这些方法仅适用于模拟数据集。但是,真实的真相对于现实世界的LIDAR数据不可用。在这项工作中,我们介绍了一个自我监督的点云完成算法,Pointpncnet,仅在部分扫描上培训,而无需采取完整的地面说明注释。我们的方法通过修正来实现这一目标。我们删除了一部分输入数据并培训网络以完成丢失的区域。由于难以确定在初始云中被封闭的区域并且综合地删除了哪些区域,我们的网络了解完成完整的云,包括初始部分云中的缺失区域。我们展示我们的方法优于以前在合成数据集,ShoceEnet和现实世界Lidar DataSet,语义基提上的未经监督和弱监督的方法。
translated by 谷歌翻译
从单视图重建3D形状是一个长期的研究问题。在本文中,我们展示了深度隐式地面网络,其可以通过预测底层符号距离场来从2D图像产生高质量的细节的3D网格。除了利用全局图像特征之外,禁止2D图像上的每个3D点的投影位置,并从图像特征映射中提取本地特征。结合全球和局部特征显着提高了符合距离场预测的准确性,特别是对于富含细节的区域。据我们所知,伪装是一种不断捕获从单视图图像中存在于3D形状中存在的孔和薄结构等细节的方法。 Disn在从合成和真实图像重建的各种形状类别上实现最先进的单视性重建性能。代码可在https://github.com/xharlie/disn提供补充可以在https://xharlie.github.io/images/neUrips_2019_Supp.pdf中找到补充
translated by 谷歌翻译
本文从单个RGB图像中解决了人手的3D点云重建和3D姿势估计。为此,我们在学习姿势估计的潜在表示时,我们展示了一个用于本地和全球点云重建的新型管道,同时使用3D手模板。为了展示我们的方法,我们介绍了一个新的多视图手姿势数据集,以获得现实世界中的手的完整3D点云。我们新拟议的数据集和四个公共基准测试的实验展示了模型的优势。我们的方法优于3D姿势估计中的竞争对手,同时重建现实看的完整3D手云。
translated by 谷歌翻译
由于动态环境中LIDAR点的稀缺性,3D对象跟踪仍然是一个具有挑战性的问题。在这项工作中,我们提出了一个暹罗体素到BEV跟踪器,可以显着提高稀疏3D点云中的跟踪性能。具体地,它包括暹罗形状感知特征学习网络和体素到BEV目标本地化网络。暹罗形式感知特征学习网络可以捕获对象的3D形状信息以学习对象的辨别特征,使得可以识别来自稀疏点云中的背景的潜在目标。为此,我们首先执行模板特征嵌入以将模板的特征嵌入到电位目标中,然后生成密集的3D形状以表征潜在目标的形状信息。为了本地化跟踪目标,Voxel-to-BeV目标本地化网络以无密集的鸟瞰图(BEV)特征图,将目标的2D中心和$ Z $ -Axis中心以无锚的方式回归。具体地,我们通过MAX池沿Z $ -axis压缩了Voxelized Point云,以获得密集的BEV特征图,其中可以更有效地执行2D中心和$ Z $ -Axis中心的回归。对基蒂和NUSCENES数据集的广泛评估表明,我们的方法通过大边距显着优于当前最先进的方法。
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
我们提出了一种对类别级别的6D对象姿势和大小估计的新方法。为了解决类内的形状变化,我们学习规范形状空间(CASS),统一表示,用于某个对象类别的各种情况。特别地,CASS被建模为具有标准化姿势的规范3D形状深度生成模型的潜在空间。我们训练变形式自动编码器(VAE),用于从RGBD图像中的规范空间中生成3D点云。 VAE培训以跨类方式培训,利用公开的大型3D形状存储库。由于3D点云在归一化姿势(具有实际尺寸)中生成,因此VAE的编码器学习视图分解RGBD嵌入。它将RGBD图像映射到任意视图中以独立于姿势的3D形状表示。然后通过将对象姿势与用单独的深神经网络提取的输入RGBD的姿势相关的特征进行对比姿势估计。我们将CASS和姿势和大小估计的学习集成到最终的培训网络中,实现了最先进的性能。
translated by 谷歌翻译
当前3D单个对象跟踪方法根据目标模板和搜索区域之间的特征比较来跟踪目标。然而,由于LIDAR扫描中的常见闭塞,因此在严重的稀疏和不完全形状上进行准确的特征比较是不普遍的。在这项工作中,我们利用了第一帧中给出的地面真相边界框作为强大的提示,以增强目标对象的功能描述,以简单而有效的方式实现更准确的功能比较。特别是,我们首先提出BoxCloud,一种信息和强大的表示,以描述使用点对框的关系来描绘对象。我们进一步设计了一个有效的箱子感知功能融合模块,它利用上述BoxCloud进行可靠的功能匹配和嵌入。将提议的一般组件集成到现有型号P2B中,我们构建了一个卓越的盒子感知跟踪器(BAT)。实验证实,我们提出的BAT在基蒂和NUSCENES基准上的大幅度优于先前的最先进,在精度方面取得了15.2%的改善,同时运行速度〜20%。
translated by 谷歌翻译
近年来,由于其表达力和灵活性,神经隐式表示在3D重建中获得了普及。然而,神经隐式表示的隐式性质导致缓慢的推理时间并且需要仔细初始化。在本文中,我们重新审视经典且无处不在的点云表示,并使用泊松表面重建(PSR)的可分辨率配方引入可分化的点对网格层,其允许给予定向的GPU加速的指示灯的快速解决方案点云。可微分的PSR层允许我们通过隐式指示器字段有效地和分散地桥接与3D网格的显式3D点表示,从而实现诸如倒角距离的表面重建度量的端到端优化。因此,点和网格之间的这种二元性允许我们以面向点云表示形状,这是显式,轻量级和富有表现力的。与神经内隐式表示相比,我们的形状 - 点(SAP)模型更具可解释,轻量级,并通过一个级别加速推理时间。与其他显式表示相比,如点,补丁和网格,SA​​P产生拓扑无关的水密歧管表面。我们展示了SAP对无知点云和基于学习的重建的表面重建任务的有效性。
translated by 谷歌翻译
在点云序列中,3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功,我们提出了点跟踪变压器(PTTR),其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1)除了随机抽样中,我们设计关系感知采样,以保护在子采样期间给定模板的相关点。 2)此外,我们提出了一种由自我关注和跨关注模块组成的点关系变压器(PRT)。全局自我关注操作捕获远程依赖性,以便分别增强搜索区域和模板的编码点特征。随后,我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3)基于粗略跟踪结果,我们采用了一种新颖的预测细化模块来获得最终精制预测。此外,我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明,PTTR以准确性和效率达到优越的点云跟踪。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
许多3D表示(例如,点云)是下面连续3D表面的离散样本。该过程不可避免地介绍了底层的3D形状上的采样变化。在学习3D表示中,应忽略应忽略变化,而应捕获基础3D形状的可转换知识。这成为现有代表学习范式的大挑战。本文在点云上自动编码。标准自动编码范例强制编码器捕获这种采样变体,因为解码器必须重建具有采样变化的原始点云。我们介绍了隐式AutoEncoder(IAE),这是一种简单而有效的方法,通过用隐式解码器替换点云解码器来解决这一挑战。隐式解码器输出与相同模型的不同点云采样之间共享的连续表示。在隐式表示下重建可以优先考虑编码器丢弃采样变体,引入更多空间以学习有用的功能。在一个简单的线性AutoEncoder下,理论上理论地证明这一索赔。此外,隐式解码器提供丰富的空间来为不同的任务设计合适的隐式表示。我们展示了IAE对3D对象和3D场景的各种自我监督学习任务的有用性。实验结果表明,IAE在每项任务中始终如一地优于最先进的。
translated by 谷歌翻译
在计算机愿景中已经过了很长一段时间的3D表示和人体重建。传统方法主要依赖于参数统计线性模型,将可能的身体的空间限制在线性组合。近来,一些方法才试图利用人体建模的神经隐式表示,同时展示令人印象深刻的结果,它们是通过表示能力的限制或没有物理有意义和可控的。在这项工作中,我们提出了一种用于人体的新型神经隐含表示,其具有完全可分辨:无戒开的形状和姿势潜在空间的优化。与事先工作相反,我们的代表是基于运动模型设计的,这使得可以为姿势动画等任务提供可控制的表示,同时允许为3D配件和姿势跟踪等任务进行整形和姿势。我们的模型可以直接培训和精细调整,直接在具有精心设计的损失的非水密原始数据上。实验展示了SOTA方法的改进的3D重建性能,并显示了我们的方法来形状插值,模型拟合,姿势跟踪和运动重新定位的适用性。
translated by 谷歌翻译
完成无序部分点云是一个具有挑战性的任务。依赖于解码潜在特征来恢复完整形状的现有方法,通常导致完成的点云过度平滑,丢失细节和嘈杂。我们建议首先解码和优化低分辨率(低res)点云,而不是一次性地解码和优化低分辨率(低分辨率)点云,而不是一次性地插入整个稀疏点云,这趋于失去细节。关于缺乏最初解码的低res点云的细节的可能性,我们提出了一种迭代细化,以恢复几何细节和对称化过程,以保护来自输入部分点云的值得信赖的信息。获得稀疏和完整的点云后,我们提出了一种补丁设计的上采样策略。基于补丁的上采样允许更好地恢复精细细节与整个形状不同,然而,由于数据差异(即,这里的输入稀疏数据不是来自地面真理的输入稀疏数据,现有的上采样方法不适用于完成任务。因此,我们提出了一种补丁提取方法,在稀疏和地面 - 真值云之间生成训练补丁对,以及抑制来自稀疏点云的噪声点的异常删除步骤。我们的整个方法都能实现高保真点云完成。提供综合评估以证明所提出的方法及其各个组件的有效性。
translated by 谷歌翻译
本文首先提出了一个有效的3D点云学习架构,名为PWCLO-NET的LIDAR ODOMORY。在该架构中,提出了3D点云的投影感知表示来将原始的3D点云组织成有序数据表单以实现效率。 LIDAR ODOMOMERY任务的金字塔,翘曲和成本量(PWC)结构是为估计和优化在分层和高效的粗良好方法中的姿势。建立一个投影感知的细心成本卷,以直接关联两个离散点云并获得嵌入运动模式。然后,提出了一种可训练的嵌入掩模来称量局部运动模式以回归整体姿势和过滤异常值点。可训练的姿势经线细化模块迭代地与嵌入式掩码进行分层优化,使姿势估计对异常值更加强大。整个架构是全能优化的端到端,实现成本和掩码的自适应学习,并且涉及点云采样和分组的所有操作都是通过投影感知的3D特征学习方法加速。在Kitti Ocomatry DataSet上证明了我们的激光乐队内径架构的卓越性能和有效性。我们的方法优于基于学习的所有基于学习的方法,甚至基于几何的方法,在大多数基于Kitti Odomatry数据集的序列上具有映射优化的遗传。
translated by 谷歌翻译
本文提出了一种新颖的自我监督方法,可以从嘈杂的点云数据重建人类形状和姿势。依靠大量数据集与地面真实的注释,最近基于学习的方法预测点云上的每个顶点的对应关系;倒角距离通常用于最小化变形模板模型和输入点云之间的距离。然而,倒角距离对噪声和异常值非常敏感,因此可以不可靠地分配通信。为了解决这些问题,我们在高斯混合模型下从参数人模型产生的输入点云的概率分布。通过更新给定输入的模板模型的后验概率,我们通过更新模板模型的后视概率来代替明确地对准对应关系,而不是显式对准的对应关系。进一步推导出一种新颖的自我监督损失,这惩罚了变形模板和在后后概率上的输入点云之间的差异。我们的方法非常灵活,适用于完整点云和不完整的云,包括甚至是单个深度图像作为输入。与以前的自我监督方法相比,我们的方法显示了处理大量噪声和异常值的能力。在各种公共合成数据集以及非常嘈杂的真实数据集(即CMU Panoptic)上进行了广泛的实验,证明了我们对最先进的方法的方法的卓越性能。
translated by 谷歌翻译
我们介绍重做,一个类无话的框架来重建RGBD或校准视频的动态对象。与事先工作相比,我们的问题设置是更真实的,更具挑战性的三个原因:1)由于遮挡或相机设置,感兴趣的对象可能永远不会完全可见,但我们的目标是重建完整的形状; 2)我们的目标是处理不同的对象动态,包括刚性运动,非刚性运动和关节; 3)我们的目标是通过一个统一的框架重建不同类别的对象。为了解决这些挑战,我们开发了两种新模块。首先,我们介绍了一个规范的4D隐式功能,它是与聚合的时间视觉线索对齐的像素对齐。其次,我们开发了一个4D变换模块,它捕获对象动态以支持时间传播和聚合。我们研究了重做在综合性RGBD视频数据集风帆-VOS 3D和Deformingthings4d ++上的大量实验中的疗效,以及现实世界视频数据3DPW。我们发现重做优于最先进的动态重建方法。在消融研究中,我们验证每个发达的组件。
translated by 谷歌翻译
由于真实的3D注释的类别数据的不可用,在合成数据集中,传统的学习3D对象类别的方法主要受到培训和评估。我们的主要目标是通过在与现有的合成对应物类似的幅度下收集现实世界数据来促进该领域的进步。因此,这项工作的主要贡献是一个大型数据集,称为3D中的常见对象,具有使用相机姿势和地面真相3D点云注释的对象类别的真实多视图图像。 DataSet总共包含从50 MS-Coco类别的近19,000个视频中捕获对象的150万帧,因此,在类别和对象的数量方面,它比替代更大。我们利用这款新数据集进行了几个新型综合和以类别为中心的3D重建方法的第一个大规模“野外”评估。最后,我们贡献了一种新型的神经渲染方法,它利用强大的变压器来重建对象,给出少量的视图。 CO3D DataSet可在HTTPS://github.com/facebookResearch/co3d获取。
translated by 谷歌翻译
不同制造商和激光雷达传感器模型之间的采样差异导致对象的不一致表示。当在其他类型的楣上测试为一个激光雷达培训的3D探测器时,这导致性能下降。 LIDAR制造业的显着进展使机械,固态和最近可调节的扫描图案LIDARS的进展带来了进展。对于后者,现有工作通常需要微调模型,每次调整扫描模式,这是不可行的。我们通过提出一种小型无监督的多目标域适配框架,明确地处理采样差异,参见,用于在固定和灵活的扫描图案Lidars上传送最先进的3D探测器的性能,而无需微调模型通过最终用户。我们的方法在将其传递到检测网络之前,将底层几何形状插值并将其从不同LIDAR的对象的扫描模式正常化。我们展示了在公共数据集上看到的有效性,实现最先进的结果,并另外为新颖的高分辨率LIDAR提供定量结果,以证明我们框架的行业应用。此数据集和我们的代码将公开可用。
translated by 谷歌翻译