我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
由于动态环境中LIDAR点的稀缺性,3D对象跟踪仍然是一个具有挑战性的问题。在这项工作中,我们提出了一个暹罗体素到BEV跟踪器,可以显着提高稀疏3D点云中的跟踪性能。具体地,它包括暹罗形状感知特征学习网络和体素到BEV目标本地化网络。暹罗形式感知特征学习网络可以捕获对象的3D形状信息以学习对象的辨别特征,使得可以识别来自稀疏点云中的背景的潜在目标。为此,我们首先执行模板特征嵌入以将模板的特征嵌入到电位目标中,然后生成密集的3D形状以表征潜在目标的形状信息。为了本地化跟踪目标,Voxel-to-BeV目标本地化网络以无密集的鸟瞰图(BEV)特征图,将目标的2D中心和$ Z $ -Axis中心以无锚的方式回归。具体地,我们通过MAX池沿Z $ -axis压缩了Voxelized Point云,以获得密集的BEV特征图,其中可以更有效地执行2D中心和$ Z $ -Axis中心的回归。对基蒂和NUSCENES数据集的广泛评估表明,我们的方法通过大边距显着优于当前最先进的方法。
translated by 谷歌翻译
由于其在各种领域的广泛应用,3D对象检测正在接受行业和学术界的增加。在本文中,我们提出了从点云的3D对象检测的基于角度基于卷曲区域的卷积神经网络(PV-RCNNS)。首先,我们提出了一种新颖的3D探测器,PV-RCNN,由两个步骤组成:Voxel-to-keyPoint场景编码和Keypoint-to-Grid ROI特征抽象。这两个步骤深入地将3D体素CNN与基于点的集合的集合进行了集成,以提取辨别特征。其次,我们提出了一个先进的框架,PV-RCNN ++,用于更高效和准确的3D对象检测。它由两个主要的改进组成:有效地生产更多代表性关键点的划分的提案中心策略,以及用于更好地聚合局部点特征的vectorpool聚合,具有更少的资源消耗。通过这两种策略,我们的PV-RCNN ++比PV-RCNN快2倍,同时还在具有150米* 150M检测范围内的大型Waymo Open DataSet上实现更好的性能。此外,我们提出的PV-RCNNS在Waymo Open DataSet和高竞争力的基蒂基准上实现最先进的3D检测性能。源代码可在https://github.com/open-mmlab/openpcdet上获得。
translated by 谷歌翻译
点云实例分割在深度学习的出现方面取得了巨大进展。然而,这些方法通常是具有昂贵且耗时的密度云注释的数据饥饿。为了减轻注释成本,在任务中仍申请未标记或弱标记的数据。在本文中,我们使用标记和未标记的边界框作为监控,介绍第一个半监控点云实例分段框架(SPIB)。具体而言,我们的SPIB架构涉及两级学习程序。对于阶段,在具有扰动一致性正则化(SPCR)的半监控设置下培训边界框提案生成网络。正规化通过强制执行对应用于输入点云的不同扰动的边界框预测的不变性,为网络学习提供自我监督。对于阶段,使用SPCR的边界框提案被分组为某些子集,并且使用新颖的语义传播模块和属性一致性图模块中的每个子集中挖掘实例掩码。此外,我们介绍了一种新型占用比导改进模块,以优化实例掩码。对挑战队的攻击v2数据集进行了广泛的实验,证明了我们的方法可以实现与最近的完全监督方法相比的竞争性能。
translated by 谷歌翻译
基于学习的3D形状分割通常被配制为语义标记问题,假设训练形状的所有部分都用给定的一组标签注释。然而,这种假设对于学习细粒度的细分来说是不切实际的。虽然大多数现成的CAD模型是由施工组成的细粒度,但它们通常会错过语义标签并标记那些细粒度的部分非常乏味。我们接近深群体的问题,其中关键的想法是从带有细粒度分割的形状数据集中学习部分前导者,但没有部分标签。给定点采样3D形状,我们通过相似矩阵模拟点的聚类前沿,通过最小化新的低级损失来实现部分分割。为了处理高度密集的采样点集,我们采用了分裂和征服策略。我们将大点分区设置为多个块。每个块使用以类别 - 不可知方式培训的基于深度基于集群的基于网络的部分进行分段。然后,我们会培训图形卷积网络以合并所有块的段以形成最终的分段结果。我们的方法是用细粒细分的具有挑战性的基准进行评估,显示出最先进的性能。
translated by 谷歌翻译
最近对隐含形状表示的兴趣日益增长。与明确的陈述相反,他们没有解决局限性,他们很容易处理各种各样的表面拓扑。为了了解这些隐式表示,电流方法依赖于一定程度的形状监督(例如,内部/外部信息或距离形状知识),或者至少需要密集点云(以近似距离 - 到 - 到 - 形状)。相比之下,我们介绍{\方法},一种用于学习形状表示的自我监督方法,从可能极其稀疏的点云。就像在水牛的针问题一样,我们在点云上“掉落”(样本)针头,认为,静统计地靠近表面,针端点位于表面的相对侧。不需要形状知识,点云可以高稀疏,例如,作为车辆获取的Lidar点云。以前的自我监督形状表示方法未能在这种数据上产生良好的结果。我们获得定量结果与现有的形状重建数据集上现有的监督方法标准,并在Kitti等硬自动驾驶数据集中显示有前途的定性结果。
translated by 谷歌翻译
我们在野外的一对立体声RGB图像上介绍了基于类别级3D对象检测和隐式形状估计的基于学习的框架。传统的立体声3D对象检测方法仅使用3D边界框来描述检测到的对象,无法推断出完全的表面几何形状,这使得创造难以创造逼真的户外沉浸体验。相比之下,我们提出了一种新的模型S-3D-RCNN,可以执行精确的本地化,并为检测到的对象提供完整和分辨不可行的形状描述。我们首先使用全局本地框架从形状重建估计对象坐标系估计。然后,我们提出了一种新的实例级网络,通过从立体声区域的基于点的表示来解决未经遵守的表面幻觉问题,并且Infers具有预测的完整表面几何形状的隐式形状码。广泛的实验使用Kitti基准测试的现有和新指标验证我们的方法的卓越性能。此HTTPS URL可提供代码和预先接受的型号。
translated by 谷歌翻译
在3D形状分析的区域中,长期以来已经研究了形状的几何特性。本文专用于从形状形成过程中发现独特信息,而不是使用专业设计的描述符或端到端深神经网络直接提取代表功能。具体地,用作模板的球形点云逐渐变形以以粗细的方式拟合目标形状。在形状形成过程中,插入若干检查点以便于记录和研究中间阶段。对于每个阶段,偏移字段被评估为舞台感知的描述。整个形状形成过程的偏移的求和可以在几何形状方面完全定义目标形状。在这种观点中,人们可以廉价地从模板导出从模板的点亮形状对应,这有利于各种图形应用。在本文中,提出了基于逐行变形的自动编码器(PDAE)来通过粗到细小的形状拟合任务来学习舞台感知的描述。实验结果表明,所提出的PDAE具有重建高保真度的3D形状的能力,在多级变形过程中保留了一致的拓扑。执行基于舞台感知描述的其他应用程序,展示其普遍性。
translated by 谷歌翻译
我们提出了神经引导的形状解析器(NGSP),一种方法,该方法学习如何将细粒度语义标签分配给3D形状的区域。 NGSP通过MAP推断解决了这个问题,在输入形状上建模了标签分配的后验概率,其具有学习的似然函数。为了使这次搜索易于进行,NGSP采用神经指南网络,了解近似后部。 NGSP通过使用引导网络的第一次采样提案找到高概率标签分配,然后在完全可能性下评估每个提案。我们评估NGSP从Partnet的制造3D形状的细粒度语义分割任务,其中形状被分解成对应于零件实例过分分割的区域。我们发现NGSP通过比较方法提供显着的性能改进,(i)使用区域对分组每点预测,(ii)使用区域作为自我监督信号或(iii)将标签分配给替代配方下的区域。此外,我们表明,即使具有有限的标记数据或作为形状区域经历人为腐败,NGSP即使具有有限的人为腐败,也会保持强劲的性能。最后,我们证明了NGSP可以直接应用于在线存储库中的CAD形状,并验证其效力与感知研究。
translated by 谷歌翻译
当前3D单个对象跟踪方法根据目标模板和搜索区域之间的特征比较来跟踪目标。然而,由于LIDAR扫描中的常见闭塞,因此在严重的稀疏和不完全形状上进行准确的特征比较是不普遍的。在这项工作中,我们利用了第一帧中给出的地面真相边界框作为强大的提示,以增强目标对象的功能描述,以简单而有效的方式实现更准确的功能比较。特别是,我们首先提出BoxCloud,一种信息和强大的表示,以描述使用点对框的关系来描绘对象。我们进一步设计了一个有效的箱子感知功能融合模块,它利用上述BoxCloud进行可靠的功能匹配和嵌入。将提议的一般组件集成到现有型号P2B中,我们构建了一个卓越的盒子感知跟踪器(BAT)。实验证实,我们提出的BAT在基蒂和NUSCENES基准上的大幅度优于先前的最先进,在精度方面取得了15.2%的改善,同时运行速度〜20%。
translated by 谷歌翻译
居住在美国的每个妇女在8次发育侵袭性乳腺癌的可能性下有大约1。有丝分裂细胞计数是评估乳腺癌侵袭性或等级最常见的测试之一。在该预后,必须通过病理学家使用高分辨率显微镜检查组织病理学图像以计算细胞。不幸的是,可以是一种完整的任务,可重复性差,特别是对于非专家来说。最近深入学习网络适用于能够自动定位这些感兴趣区域的医学应用。然而,这些基于区域的网络缺乏利用通常用作唯一检测方法的完整图像CNN产生的分割特征的能力。因此,所提出的方法利用更快的RCNN进行对象检测,同时使用RGB图像特征的UNET产生的分割特征,以实现在Mitos-Atypia 2014分数上的F分数为0.508,计数数据集,优于最先进的攻击方法。
translated by 谷歌翻译
目前,现有的最先进的3D对象检测器位于两阶段范例中。这些方法通常包括两个步骤:1)利用区域提案网络以自下而上的方式提出少数高质量的提案。 2)调整拟议区域的语义特征的大小和汇集,以总结Roi-Wise表示进一步改进。注意,步骤2中的这些ROI-WISE表示在馈送到遵循检测标题之后,在步骤2中的循环表示作为不相关的条目。然而,我们观察由步骤1所产生的这些提案,以某种方式从地面真理偏移,在局部邻居中兴起潜在的概率。在该提案在很大程度上用于由于坐标偏移而导致其边界信息的情况下出现挑战,而现有网络缺乏相应的信息补偿机制。在本文中,我们向点云进行了3D对象检测的$ BADET $。具体地,而不是以先前的工作独立地将每个提议进行独立地改进每个提议,我们将每个提议代表作为在给定的截止阈值内的图形构造的节点,局部邻域图形式的提案,具有明确利用的对象的边界相关性。此外,我们设计了轻量级区域特征聚合模块,以充分利用Voxel-Wise,Pixel-Wise和Point-Wise特征,具有扩展的接收领域,以实现更多信息ROI-WISE表示。我们在广泛使用的基提数据集中验证了坏人,并且具有高度挑战的Nuscenes数据集。截至4月17日,2021年,我们的坏账在基蒂3D检测排行榜上实现了Par表演,并在Kitti Bev检测排行榜上排名在$ 1 ^ {st} $ in $ superge $难度。源代码可在https://github.com/rui-qian/badet中获得。
translated by 谷歌翻译
实时机器人掌握,支持随后的精确反对操作任务,是高级高级自治系统的优先目标。然而,尚未找到这样一种可以用时间效率进行充分准确的掌握的算法。本文提出了一种新的方法,其具有2阶段方法,它使用深神经网络结合快速的2D对象识别,以及基于点对特征框架的随后的精确和快速的6D姿态估计来形成实时3D对象识别和抓握解决方案能够多对象类场景。所提出的解决方案有可能在实时应用上稳健地进行,需要效率和准确性。为了验证我们的方法,我们进行了广泛且彻底的实验,涉及我们自己的数据集的费力准备。实验结果表明,该方法在5CM5DEG度量标准中的精度97.37%,平均距离度量分数99.37%。实验结果显示了通过使用该方法的总体62%的相对改善(5cm5deg度量)和52.48%(平均距离度量)。此外,姿势估计执行也显示出运行时间的平均改善47.6%。最后,为了说明系统在实时操作中的整体效率,进行了一个拾取和放置的机器人实验,并显示了90%的准确度的令人信服的成功率。此实验视频可在https://sites.google.com/view/dl-ppf6dpose/上获得。
translated by 谷歌翻译
卷积神经网络(CNNS)在2D计算机视觉中取得了很大的突破。然而,它们的不规则结构使得难以在网格上直接利用CNNS的潜力。细分表面提供分层多分辨率结构,其中闭合的2 - 歧管三角网格中的每个面正恰好邻近三个面。本文推出了这两种观察,介绍了具有环形细分序列连接的3D三角形网格的创新和多功能CNN框架。在2D图像中的网格面和像素之间进行类比允许我们呈现网状卷积操作者以聚合附近面的局部特征。通过利用面部街区,这种卷积可以支持标准的2D卷积网络概念,例如,可变内核大小,步幅和扩张。基于多分辨率层次结构,我们利用汇集层,将四个面均匀地合并成一个和上采样方法,该方法将一个面分为四个。因此,许多流行的2D CNN架构可以容易地适应处理3D网格。可以通过自我参数化来回收具有任意连接的网格,以使循环细分序列连接,使子变量是一般的方法。广泛的评估和各种应用展示了SubDIVNet的有效性和效率。
translated by 谷歌翻译
它得到了很好的认识到,从深度感知的LIDAR点云和语义富有的立体图像中融合互补信息将有利于3D对象检测。然而,探索稀疏3D点和密集2D像素之间固有的不自然相互作用并不重要。为了简化这种困难,最近的建议通常将3D点投影到2D图像平面上以对图像数据进行采样,然后聚合点处的数据。然而,这种方法往往遭受点云和RGB图像的分辨率之间的不匹配,导致次优性能。具体地,作为多模态数据聚合位置的稀疏点导致高分辨率图像的严重信息丢失,这反过来破坏了多传感器融合的有效性。在本文中,我们呈现VPFNET - 一种新的架构,可以在“虚拟”点处巧妙地对齐和聚合点云和图像数据。特别地,它们的密度位于3D点和2D像素的密度之间,虚拟点可以很好地桥接两个传感器之间的分辨率间隙,从而保持更多信息以进行处理。此外,我们还研究了可以应用于点云和RGB图像的数据增强技术,因为数据增强对迄今为止对3D对象探测器的贡献不可忽略。我们对Kitti DataSet进行了广泛的实验,与最先进的方法相比,观察到了良好的性能。值得注意的是,我们的VPFNET在KITTI测试集上实现了83.21 \%中等3D AP和91.86 \%适度的BEV AP,自2021年5月21日起排名第一。网络设计也考虑了计算效率 - 我们可以实现FPS 15对单个NVIDIA RTX 2080TI GPU。该代码将用于复制和进一步调查。
translated by 谷歌翻译
准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹,仅给出其初始位置和分段,或者在边界框的形式中粗略近似。判别相关滤波器(DCF)和深度暹罗网络(SNS)被出现为主导跟踪范式,这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后,该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查,基于九个跟踪基准。首先,我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后,我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外,我们彻底分析了DCF和暹罗跟踪器对九个基准的性能,涵盖了视觉跟踪的不同实验方面:数据集,评估度量,性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。
translated by 谷歌翻译
根据目标的语义信息,减少抓取检测的范围对于提高抓取检测模型的准确性并扩大其应用。研究人员一直在尝试将这些能力与端到端网络中的这些功能相结合,以有效地掌握杂乱场景中的特定对象。在本文中,我们提出了一种端到端语义抓握检测模型,可以实现语义识别和掌握检测。我们还设计了一个目标要素过滤机制,其仅根据用于抓取检测的语义信息维护单个对象的特征。该方法有效地减少了与目标对象弱相关的背景特征,从而使得具有更独特的功能并保证抓取检测的准确性和效率。实验结果表明,该方法在康奈尔抓地数据集中可以实现98.38%的精度,我们对不同数据集或评估度量的结果显示了我们对最先进的方法的域适应性。
translated by 谷歌翻译
最近,已经提出了许多任意定向的物体检测(AOOD)方法并在许多领域中引起了广泛的关注。然而,它们中的大多数基于锚箱或标准高斯热手套。这种标签分配策略不仅可以反映任意取向对象的形状和方向特征,而且还具有高参数调整工作。本文提出了一种称为通用高斯热爱标记(GGH1)的新型Aood方法。具体地,提出了一种无锚性对象适应标签分配(OLA)策略以基于二维(2-D)定向的高斯热手段来定义正面候选物,其反映了任意取向对象的形状和方向特征。基于OLA,开发了定向边界盒(OBB)表示组分(ORC)以指示OBBS并通过神经网络学习适应地调整高斯中心以适应不同对象的特征。此外,具有面积标准化和动态置信度加权的关节优化损耗(JOL)旨在优化不同子特设的错位最佳结果。公共数据集的广泛实验表明,所提出的GGHL具有低参数调整和时间成本的良好性能。此外,通常适用于大多数Aood的方法,以提高其性能,包括嵌入式平台上的轻量级模型。
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译