随着商业深度传感器和3D扫描仪的最近可用性和可承受能力,越来越多的3D(即RGBD,点云)数据集已被宣传以促进3D计算机视觉的研究。但是,现有的数据集覆盖相对较小的区域或具有有限的语义注释。对城市规模3D场景的细粒度理解仍处于起步阶段。在本文中,我们介绍了Sensaturban,一个城市规模的UAV摄影测量点云数据集,包括从三个英国城市收集的近30亿积分,占地7.6公里^ 2。 DataSet中的每个点已标记为具有细粒度的语义注释,导致数据集是上一个现有最大摄影测量点云数据集的三倍的三倍。除了诸如道路和植被等诸如道路和植被的常见类别之外,我们的数据集还包含包括轨道,桥梁和河流的城市水平类别。基于此数据集,我们进一步构建了基准,以评估最先进的分段算法的性能。特别是,我们提供了全面的分析,确定了限制城市规模点云理解的几个关键挑战。数据集可在http://point-cloud-analysis.cs.ox.ac.uk中获取。
translated by 谷歌翻译
Monoscene提出了3D语义场景完成(SSC)框架,其中从单眼RGB图像推断出场景的密集几何和语义。与SSC文献不同,依赖于2.5或3D输入,我们解决了2D到3D场景重建的复杂问题,同时联合推断了其语义。我们的框架依赖于由光学系统启发的新型2D-3D功能投影的连续2D和3D UNETS,并在强制执行时期 - 语义一致性之前引入3D上下文关系。随着建筑贡献,我们介绍了新的全球场景和本地截肢损失。实验表明,我们在所有指标和数据集上表达了文献,同时甚至在相机视野之外的幻觉风景。我们的代码和培训的型号可在https://github.com/cv-rits/monoscene获得
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
本文提出了一个统一的神经网络结构,用于联合3D对象检测和点云分段。我们利用检测和分割标签的丰富监督,而不是使用其中一个。另外,基于广泛应用于3D场景和对象理解的隐式功能,提出了基于单级对象检测器的扩展。扩展分支从对象检测模块作为输入采用最终特征映射,并产生隐式功能,为其对应的体素中心产生每个点的语义分布。我们展示了我们在NUSCENES-LIDARSEG上的结构的表现,这是一个大型户外数据集。我们的解决方案在与对象检测解决方案相比,在3D对象检测和点云分割中实现了针对现有的方法的竞争结果。通过实验验证了所提出的方法的有效弱监管语义分割的能力。
translated by 谷歌翻译
Panoptic现场了解和跟踪动态代理对于机器人和自动化车辆至关重要,以在城市环境中导航。由于LiDAR提供了方案的精确照明和几何描绘,使用LIDAR点云执行这些任务提供可靠的预测。然而,现有数据集缺乏城市场景类型的多样性,并且具有有限数量的动态对象实例,其阻碍了这些任务的学习以及开发方法的可信基准。在本文中,我们介绍了大规模的Panoptic Nuscenes基准数据集,它扩展了我们流行的NUSCENES DataSet,具有用于语义分割,Panoptic分段和Panoptic跟踪任务的Pock-Wise Trountruth annotations。为了便于比较,我们为我们提出的数据集提供了几个任务的强大基线。此外,我们分析了Panoptic跟踪的现有度量标准的缺点,并提出了一种解决问题的小说实例的Pat度量。我们提供详尽的实验,展示了Panoptic Nuscenes与现有数据集相比的效用,并在Nuscenes.org提供的在线评估服务器。我们认为,此扩展将加快新颖的现场了解动态城市环境的新方法研究。
translated by 谷歌翻译
了解场景是自主导航车辆的关键,以及在线将周围环境分段为移动和非移动物体的能力是这项任务的中央成分。通常,基于深度学习的方法用于执行移动对象分段(MOS)。然而,这些网络的性能强烈取决于标记培训数据的多样性和数量,可以获得昂贵的信息。在本文中,我们提出了一种自动数据标记管道,用于3D LIDAR数据,以节省广泛的手动标记工作,并通过自动生成标记的训练数据来提高现有的基于学习的MOS系统的性能。我们所提出的方法通过批量处理数据来实现数据。首先利用基于占用的动态对象拆除以粗略地检测可能的动态物体。其次,它提取了提案中的段,并使用卡尔曼滤波器跟踪它们。基于跟踪的轨迹,它标记了实际移动的物体,如驾驶汽车和行人。相反,非移动物体,例如,停放的汽车,灯,道路或建筑物被标记为静态。我们表明,这种方法允许我们高效地标记LIDAR数据,并将我们的结果与其他标签生成方法的结果进行比较。我们还使用自动生成的标签培训深度神经网络,并与在同一数据上的手动标签上接受过的手动标签的培训相比,实现了类似的性能,以及使用我们方法生成的标签的其他数据集时更好的性能。此外,我们使用不同的传感器评估我们在多个数据集上的方法,我们的实验表明我们的方法可以在各种环境中生成标签。
translated by 谷歌翻译
我们呈现Mix3D,一种用于分割大规模3D场景的数据增强技术。由于场景上下文有助于推理对象语义,因此当前的工作侧重于具有大容量和接收字段的模型,可以完全捕获输入3D场景的全局上下文。然而,强烈的背景前瞻可能会有不利的影响,就像错过了一个穿过街道的行人。在这项工作中,我们专注于平衡全球场景和局部几何形状的重要性,以概括在培训集中的上下文前方之外的目标。特别是,我们提出了一种“混合”技术,通过组合两个增强的场景来创造新的训练样本。通过这样做,对象实例被隐式地放入新颖的外观环境中,因此模型更难地依赖场景上下文,而是从本地结构推断出语义。我们进行详细的分析以了解全球背景,局部结构,局部结构和混合场景效果的重要性。在实验中,我们展示了Mix3D培训的模型从室内(Scannet,S3DIS)和室外数据集(Semantickitti)上的显着性能提升。 Mix3D可以逐渐与任何现有方法一起使用,例如,用Mix3D培训,MinkowsWinet在SCANNet测试基准78.1 Miou的显着边际占据了所有现有最先进的方法。代码可用:https://nekrasov.dev/mix3d/
translated by 谷歌翻译
虽然对2D图像的零射击学习(ZSL)进行了许多研究,但其在3D数据中的应用仍然是最近且稀缺的,只有几种方法限于分类。我们在3D数据上介绍了ZSL和广义ZSL(GZSL)的第一代生成方法,可以处理分类,并且是第一次语义分割。我们表明它达到或胜过了INTEMNET40对归纳ZSL和归纳GZSL的ModelNet40分类的最新状态。对于语义分割,我们创建了三个基准,用于评估此新ZSL任务,使用S3DIS,Scannet和Semantickitti进行评估。我们的实验表明,我们的方法优于强大的基线,我们另外为此任务提出。
translated by 谷歌翻译
用于LIDAR点云的快速准确的Panoptic分割系统对于自主驾驶车辆来了解周围物体和场景至关重要。现有方法通常依赖于提案或聚类到分段前景实例。结果,他们努力实现实时性能。在本文中,我们提出了一种用于LIDAR点云的新型实时端到端Panoptic分段网络,称为CPSEG。特别地,CPSEG包括共享编码器,双解码器,任务感知注意模块(TAM)和无簇实例分段头。 TAM旨在强制执行这两个解码器以学习用于语义和实例嵌入的丰富的任务感知功能。此外,CPSEG包含一个新的无簇实例分割头,以根据学习嵌入的嵌入动态占据前景点。然后,它通过找到具有成对嵌入比较的连接的柱子来获取实例标签。因此,将传统的基于提议的或基于聚类的实例分段转换为对成对嵌入比较矩阵的二进制分段问题。为了帮助网络回归实例嵌入,提出了一种快速和确定的深度完成算法,以实时计算每个点云的表面法线。该方法在两个大型自主驾驶数据集中基准测试,即Semantickitti和Nuscenes。值得注意的是,广泛的实验结果表明,CPSEG在两个数据集的实时方法中实现了最先进的结果。
translated by 谷歌翻译
点云的Panoptic分割是一种重要的任务,使自动车辆能够使用高精度可靠的激光雷达传感器来理解其附近。现有的自上而下方法通过将独立的任务特定网络或转换方法从图像域转换为忽略激光雷达数据的复杂性,因此通常会导致次优性性能来解决这个问题。在本文中,我们提出了新的自上而下的高效激光乐光线分割(有效的LID)架构,该架构解决了分段激光雷达云中的多种挑战,包括距离依赖性稀疏性,严重的闭塞,大规模变化和重新投影误差。高效地板包括一种新型共享骨干,可以通过加强的几何变换建模容量进行编码,并聚合语义丰富的范围感知多尺度特征。它结合了新的不变语义和实例分段头以及由我们提出的Panoptic外围损耗功能监督的Panoptic Fusion模块。此外,我们制定了正则化的伪标签框架,通过对未标记数据的培训进行进一步提高高效性的性能。我们在两个大型LIDAR数据集中建议模型基准:NUSCENES,我们还提供了地面真相注释和Semantickitti。值得注意的是,高效地将在两个数据集上设置新的最先进状态。
translated by 谷歌翻译
农业部门的自动化和机器人被视为该行业面临的社会经济挑战的可行解决方案。该技术经常依赖于提供有关作物,植物和整个环境的信息的智能感知系统。传统的2D视觉系统面临的挑战可以由现代3D视觉系统解决,使物体,尺寸和形状估计的直接定位或闭塞的处理能够。到目前为止,使用3D感测主要限于室内或结构化环境。在本文中,我们评估了现代传感技术,包括立体声和飞行时间摄像机,用于在农业中的形状的3D感知,并根据其形状从背景中分割软果实的可用性。为此,我们提出了一种新颖的3D深度神经网络,其利用来自基于相机的3D传感器的信息的有组织性质。与最先进的3D网络相比,我们展示了所提出的体系结构的卓越性能和效率。通过模拟研究,我们还显示了农业中对象分割的3D感测范例的潜力,并提供了洞察力和分析所需的形状质量和预期作物的进一步分析。这项工作的结果应该鼓励研究人员和公司开发更准确和强大的3D传感技术,以确保他们在实际农业应用中更广泛的采用。
translated by 谷歌翻译
了解单个图像的3D场景是各种任务的基础,例如用于机器人,运动规划或增强现实。来自单个RGB图像的3D感知的现有工作倾向于专注于几何重建,或用语义分割或实例分割的几何重建。受到2D Panoptic分割的启发,我们建议统一几何重建,3D语义分割和3D实例分段的任务,进入Panoptic 3D场景重建的任务 - 从单个RGB图像预测相机中场景的完整几何重建图像的截图,以及语义和实例分割。因此,我们为从单个RGB图像提出了一种全新3D场景的新方法,该方法学习从输入图像到达3D容量场景表示来升力和传播2D特征。我们证明,这种联合场景重建,语义和实例分割的整体视图是有益的,独立地处理任务,从而优于替代方法。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
准确的轨道位置是铁路支持驱动系统的重要组成部分,用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云,特别是在黑暗和可怕的天气条件下。在本文中,提出了一种基于3D点云的实时轨识别方法来解决挑战,如无序,不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法,用于铁路点云的密度平衡,并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后,开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后,提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明,该方法在检测直,弯曲和其他复杂的拓扑轨道方面具有良好的性能。
translated by 谷歌翻译
建筑物的表面裂缝,天然墙壁和地下矿井隧道可以表示严重的结构完整性问题,威胁到环境中的结构和人们的安全。及时检测和监测裂缝对于管理这些风险至关重要,特别是如果系统可以通过机器人提供高度自动化。使用深神经网络的视觉裂缝检测算法表现出墙壁或土木工程隧道等结构表面的承诺,但是工作的少量工作已经解决了高度非结构化的环境,例如岩石悬崖和裸露的采矿隧道。为了解决这一挑战,本文介绍了一个用于非结构化表面的新的3D点云的裂缝检测算法。该方法包括三个关键组件:一种自适应的下采样方法,其保持足够的裂缝点密度,将每个点作为裂缝或非裂缝分类的DNN,以及将裂缝点分成裂缝的后处理聚类方法。该方法在新的大型天然岩数据集上通过实验验证,包括跨越900米^ 2和412个单独裂缝的彩色激光雷达云。结果证明裂缝检出率为97%,最大宽度为3厘米以上的裂缝100%,显着优于现有技术。此外,对于交叉验证,PointCrack3D应用于在不同位置获取的完全新数据集,并且在培训中根本不使用,并显示为检测其100%的裂缝实例。我们还表征了检测性能,裂缝宽度和点数的点数之间的关系,为其提供了对实际部署和未来研究方向作出决策的基础。
translated by 谷歌翻译
基于LIDAR的传感驱动器电流自主车辆。尽管进展迅速,但目前的激光雷达传感器在分辨率和成本方面仍然落后于传统彩色相机背后的二十年。对于自主驾驶,这意味着靠近传感器的大物体很容易可见,但远方或小物体仅包括一个测量或两个。这是一个问题,尤其是当这些对象结果驾驶危险时。另一方面,在车载RGB传感器中清晰可见这些相同的对象。在这项工作中,我们提出了一种将RGB传感器无缝熔化成基于LIDAR的3D识别方法。我们的方法采用一组2D检测来生成密集的3D虚拟点,以增加否则稀疏的3D点云。这些虚拟点自然地集成到任何基于标准的LIDAR的3D探测器以及常规激光雷达测量。由此产生的多模态检测器简单且有效。大规模NUSCENES数据集的实验结果表明,我们的框架通过显着的6.6地图改善了强大的中心点基线,并且优于竞争融合方法。代码和更多可视化可在https://tianweiy.github.io/mvp/上获得
translated by 谷歌翻译
随着点云上的3D对象检测依赖于点之间的几何关系,非标准对象形状可以妨碍方法的检测能力。然而,在安全关键环境中,在分销外和长尾样品上的鲁棒性是对规避危险问题的基础,例如损坏或稀有汽车的误读。在这项工作中,我们通过在训练期间考虑到变形的点云来大大改善3D对象探测器的概括到域名数据。我们通过3D-VFIEL实现这一点:一种新的方法,可以通过越野时代的载体衡量物体。我们的方法将3D点限制以沿着传感器视图幻灯片幻灯片,而既不添加也不添加它们中的任何一个。所获得的载体是可转移的,独立于样的和保持形状平滑度和闭塞。通过在训练期间使用这些载体场产生的变形来增强正常样本,我们显着改善了对不同形状物体的鲁棒性,例如损坏/变形汽车,即使仅在基蒂训练。为此,我们提出并分享开源Crashd:现实损坏和稀有汽车的合成数据集,具有各种碰撞情景。在Kitti,Waymo,我们的Crashd和Sun RGB-D上进行了广泛的实验,表明了我们对室内和室外场景的域外数据,不同型号和传感器,即LIDAR和TOF相机的技术的高度普遍性。我们的crashd数据集可在https://crashd-cars.github.io上获得。
translated by 谷歌翻译
许多基于点的语义分割方法是为室内场景设计的,但如果它们被应用于户外环境中的LIDAR传感器捕获的点云,则他们挣扎。为了使这些方法更有效和坚固,使得它们可以处理LIDAR数据,我们介绍了重新建立基于3D点的操作的一般概念,使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍,但实现了更高的准确性,但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例,我们介绍一种网络,该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中,该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法,并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
我们提出了一种视觉本地化系统,这些系统在合成数据的帮助下学习在现实世界中估算相机姿势。尽管近年来取得了重大进展,但大多数基于学习的学习方法在单个域中的视觉定位目标,并需要良好的地理标记图像的密集数据库运行。为了减轻数据稀缺问题并提高神经定位模型的可扩展性,我们介绍了Topo-Datagen,这是一个多功能合成数据生成工具,在真实和虚拟世界之间平稳地遍历,铰接在地理相机视点。建议新的大型SIM-to-Real基准数据集展示并评估所述合成数据的效用。我们的实验表明,合成数据在实际上提高了真实数据的神经网络性能。此外,我们介绍Crossloc,一种跨模型视觉表示学习方法来姿态估计,可以通过自我监督充分利用现场坐标地面真理。在没有任何额外数据的情况下,Crossloc显着优于最先进的方法,并实现了更高的实际数据样本效率。我们的代码可在https://github.com/topo-epfl/crossloc获得。
translated by 谷歌翻译