对象点云的语义分析在很大程度上是由释放基准数据集的驱动的,包括合成的数据集,其实例是从对象CAD模型中采样的。但是,从合成数据中学习可能不会推广到实际情况,在这种情况下,点云通常不完整,不均匀分布和嘈杂。可以通过学习域适应算法来减轻模拟对真实性(SIM2REAL)域间隙的挑战。但是,我们认为通过更现实的渲染来产生合成点云是一种强大的选择,因为可以捕获系统的非均匀噪声模式。为此,我们提出了一个集成方案,该方案包括通过将斑点模式的投影渲染到CAD模型上,以及一种新颖的准平衡自我训练,通过散布驱动驱动的选择,通过将斑点模式投影到CAD模型上,并通过将斑点模式投影和一种新颖的准平衡自我训练来渲染立体声图像,该方案包括对象点云的物理现实综合。长尾巴的伪标记为样品。实验结果可以验证我们方法的有效性及其两个模块,用于对点云分类的无监督域适应,从而实现最新的性能。源代码和SpeckLenet合成数据集可在https://github.com/gorilla-lab-scut/qs3上找到。
translated by 谷歌翻译
作为一种流行的几何表示,点云在3D视觉中引起了很多关注,导致自动驾驶和机器人中的许多应用。在点云上学习一个重要的尚未解决的问题是,如果使用不同的过程或使用不同的传感器捕获,则相同对象的点云可以具有显着的几何变化。这些不一致地诱导域间隙,使得在一个域上培训的神经网络可能无法概括他人。减少域间隙的典型技术是执行逆势训练,以便特征空间中的点云可以对齐。然而,对抗性训练易于落入退化的局部最小值,导致负适应性收益。在这里,我们提出了一种简单而有效的方法,可以通过采用学习几何感知含义的自我监督任务来提出对点云的无监督域适应的方法,这在一次拍摄中扮演两个关键角色。首先,通过对下游任务的隐式表示保留点云中的几何信息。更重要的是,可以在隐式空间中有效地学习域特定变体。我们还提出了一种自适应策略,以计算由于在实践中缺乏形状模型而计算任意点云的无符号距离场。当结合任务丢失时,所提出的优先表现出最先进的无监督域适应方法,依赖于对抗域对齐和更复杂的自我监督任务。我们的方法在PointDA-10和Graspnet数据集上进行评估。代码和培训的型号将公开可用。
translated by 谷歌翻译
深度学习方法在3D语义细分中取得了显着的成功。但是,收集密集注释的现实世界3D数据集非常耗时且昂贵。关于合成数据和对现实世界情景的培训模型成为一种吸引人的选择,但不幸的是,臭名昭著的领域变化。在这项工作中,我们提出了一个面向数据的域适应性(DODA)框架,以减轻由不同的感应机制和跨域的布局放置引起的模式和上下文差距。我们的DODA涵盖了虚拟扫描模拟,以模仿现实世界中的点云图案和尾声的长方体混合,以减轻基于Cuboid的中间域的内部环境差距。 3D室内语义分割上的第一个无监督的SIM到运行适应基准也构建在3D-Front,Scannet和S3DIS上,以及7种流行的无监督域适应(UDA)方法。我们的DODA在3D -Front-> scannet和3d -Front-> S3DIS上都超过了13%的UDA方法。代码可从https://github.com/cvmi-lab/doda获得。
translated by 谷歌翻译
对于单眼深度估计,获取真实数据的地面真相并不容易,因此通常使用监督的合成数据采用域适应方法。但是,由于缺乏实际数据的监督,这仍然可能会导致较大的域间隙。在本文中,我们通过从真实数据中生成可靠的伪基础真理来开发一个域适应框架,以提供直接的监督。具体而言,我们提出了两种用于伪标记的机制:1)通过测量图像具有相同内容但不同样式的深度预测的一致性,通过测量深度预测的一致性; 2)通过点云完成网络的3D感知伪标记,该网络学会完成3D空间中的深度值,从而在场景中提供更多的结构信息,以完善并生成更可靠的伪标签。在实验中,我们表明我们的伪标记方法改善了各种环境中的深度估计,包括在训练过程中使用立体声对。此外,该提出的方法对现实世界数据集中的几种最新无监督域的适应方法表现出色。
translated by 谷歌翻译
最近3D点云学习一直是计算机视觉和自主驾驶中的热门话题。由于事实上,难以手动注释一个定性的大型3D点云数据集,无监督的域适应(UDA)在3D点云学习中流行,旨在将学习知识从标记的源域转移到未标记的目标领域。然而,具有简单学习模型引起的域转移引起的泛化和重建误差是不可避免的,这基本上阻碍了模型的学习良好表示的能力。为了解决这些问题,我们提出了一个结束到底自组合网络(SEN),用于3D云域适应任务。一般来说,我们的森林度假前的含义教师和半监督学习的优势,并引入了软的分类损失和一致性损失,旨在实现一致的泛化和准确的重建。在森中,学生网络以具有监督的学习和自我监督学习的协作方式,教师网络进行时间一致性,以学习有用的表示,并确保点云重建的质量。在几个3D点云UDA基准上的广泛实验表明,我们的SEN在分类和分段任务中表现出最先进的方法。此外,进一步的分析表明,我们的森也实现了更好的重建结果。
translated by 谷歌翻译
在本文中,我们提出了一个迭代的自我训练框架,用于SIM到现实的6D对象姿势估计,以促进具有成本效益的机器人抓钩。给定bin选择场景,我们建立了一个光真实的模拟器来合成丰富的虚拟数据,并使用它来训练初始姿势估计网络。然后,该网络扮演教师模型的角色,该模型为未标记的真实数据生成了姿势预测。有了这些预测,我们进一步设计了一个全面的自适应选择方案,以区分可靠的结果,并将它们作为伪标签来更新学生模型以估算真实数据。为了不断提高伪标签的质量,我们通过将受过训练的学生模型作为新老师并使用精致的教师模型重新标记实际数据来迭代上述步骤。我们在公共基准和新发布的数据集上评估了我们的方法,分别提高了11.49%和22.62%的方法。我们的方法还能够将机器人箱的成功成功提高19.54%,这表明了对机器人应用的迭代SIM到现实解决方案的潜力。
translated by 谷歌翻译
3D激光雷达语义细分对于自动驾驶是基础。最近已经提出了几种用于点云数据的无监督域适应性(UDA)方法,以改善不同传感器和环境的模型概括。研究图像域中研究UDA问题的研究人员表明,样品混合可以减轻域的转移。我们提出了一种针对点云UDA的样品混合的新方法,即组成语义混合(Cosmix),这是基于样品混合的第一种UDA方法。 Cosmix由一个两分支对称网络组成,该网络可以同时处理标记的合成数据(源)和现实世界中未标记的点云(目标)。每个分支通过从另一个域中混合选定的数据来在一个域上运行,并使用源标签和目标伪标签的语义信息。我们在两个大规模数据集上评估Cosmix,表明它的表现要优于最先进的方法。我们的代码可在https://github.com/saltoricristiano/cosmix-uda上找到。
translated by 谷歌翻译
商业深度传感器通常会产生嘈杂和缺失的深度,尤其是在镜面和透明的对象上,这对下游深度或基于点云的任务构成了关键问题。为了减轻此问题,我们提出了一个强大的RGBD融合网络Swindrnet,以进行深度修复。我们进一步提出了域随机增强深度模拟(DREDS)方法,以使用基于物理的渲染模拟主动的立体声深度系统,并生成一个大规模合成数据集,该数据集包含130k Photorealistic RGB图像以及其模拟深度带有现实主义的传感器。为了评估深度恢复方法,我们还策划了一个现实世界中的数据集,即STD,该数据集捕获了30个混乱的场景,这些场景由50个对象组成,具有不同的材料,从透明,透明,弥漫性。实验表明,提议的DREDS数据集桥接了SIM到实地域间隙,因此,经过训练,我们的Swindrnet可以无缝地概括到其他真实的深度数据集,例如。 ClearGrasp,并以实时速度优于深度恢复的竞争方法。我们进一步表明,我们的深度恢复有效地提高了下游任务的性能,包括类别级别的姿势估计和掌握任务。我们的数据和代码可从https://github.com/pku-epic/dreds获得
translated by 谷歌翻译
3D点云语义细分对于自动驾驶至关重要。文献中的大多数方法都忽略了一个重要方面,即在处理动态场景时如何处理域转移。这可能会极大地阻碍自动驾驶车辆的导航能力。本文推进了该研究领域的最新技术。我们的第一个贡献包括分析点云细分中的新的未开发的方案,即无源的在线无监督域改编(SF-OUDA)。我们在实验上表明,最新的方法具有相当有限的能力,可以使预训练的深网模型以在线方式看不到域。我们的第二个贡献是一种依赖于自适应自我训练和几何传播的方法,以在线调整预训练的源模型,而无需源数据或目标标签。我们的第三个贡献是在一个充满挑战的设置中研究sf-ouda,其中源数据是合成的,目标数据是现实世界中捕获的点云。我们将最近的Synlidar数据集用作合成源,并引入了两个新的合成(源)数据集,这些数据集可以刺激未来的综合自动驾驶研究。我们的实验显示了我们分割方法对数千个现实点云的有效性。代码和合成数据集可在https://github.com/saltoricristiano/gipso-sfouda上找到。
translated by 谷歌翻译
Segmentation of lidar data is a task that provides rich, point-wise information about the environment of robots or autonomous vehicles. Currently best performing neural networks for lidar segmentation are fine-tuned to specific datasets. Switching the lidar sensor without retraining on a big set of annotated data from the new sensor creates a domain shift, which causes the network performance to drop drastically. In this work we propose a new method for lidar domain adaption, in which we use annotated panoptic lidar datasets and recreate the recorded scenes in the structure of a different lidar sensor. We narrow the domain gap to the target data by recreating panoptic data from one domain in another and mixing the generated data with parts of (pseudo) labeled target domain data. Our method improves the nuScenes to SemanticKITTI unsupervised domain adaptation performance by 15.2 mean Intersection over Union points (mIoU) and by 48.3 mIoU in our semi-supervised approach. We demonstrate a similar improvement for the SemanticKITTI to nuScenes domain adaptation by 21.8 mIoU and 51.5 mIoU, respectively. We compare our method with two state of the art approaches for semantic lidar segmentation domain adaptation with a significant improvement for unsupervised and semi-supervised domain adaptation. Furthermore we successfully apply our proposed method to two entirely unlabeled datasets of two state of the art lidar sensors Velodyne Alpha Prime and InnovizTwo, and train well performing semantic segmentation networks for both.
translated by 谷歌翻译
已广泛研究从合成综合数据转移到实际数据,以减轻各种计算机视觉任务(如语义分割)中的数据注释约束。然而,由于缺乏大规模合成数据集和有效的转移方法,该研究专注于2D图像及其在3D点云分割的同行落后滞后。我们通过收集Synlidar来解决这个问题,这是一个大规模合成的LIDAR数据集,其中包含具有精确的几何形状和综合语义类的Point-Wise带注释点云。 Synlidar从​​具有丰富的场景和布局的多个虚拟环境中收集,该布局由超过190亿点的32个语义课程组成。此外,我们设计PCT,一种新型点云转换器,有效地减轻了合成和实点云之间的差距。具体地,我们将合成与实际间隙分解成外观部件和稀疏性分量,并单独处理它们,这会大大改善点云转换。我们在三次转移学习设置中进行了广泛的实验,包括数据增强,半监督域适应和无监督域适应。广泛的实验表明,Synlidar提供了用于研究3D转移的高质量数据源,所提出的PCT在三个设置上一致地实现了优越的点云平移。 Synlidar项目页面:\ url {https://github.com/xiaoaoran/synlidar}
translated by 谷歌翻译
传统的深度传感器产生准确的真实世界深度估计,即使仅在仿真域训练的最先进的学习方法也会超越。由于在模拟域中容易获得地面真理深度,但在真实域中很难获得,因此我们提出了一种利用两个世界的最佳方法的方法。在本文中,我们展示了一个新的框架,ActiveZero,这是一个混合域学习解决方案,适用于不需要真实世界深度注释的活动立体宽度系统。首先,我们通过使用混合域学习策略来证明我们的方法对分发外数据的可转换性。在仿真域中,我们在形状原语数据集上使用监督差异丢失和自我监督损失的组合。相比之下,在真实域中,我们只在数据集中使用自我监督损失,这些损失是从培训仿真数据或测试真实数据的分发。其次,我们的方法介绍了一种名为Temporal IR的自我监督损失,以增加我们在难以感知地区的重新注入的鲁棒性和准确性。最后,我们展示了如何训练该方法的端到端,并且每个模块对于获得最终结果很重要。关于真实数据的广泛定性和定量评估表明了甚至可以击败商业深度传感器的最新状态。
translated by 谷歌翻译
State-of-the-art 3D semantic segmentation models are trained on the off-the-shelf public benchmarks, but they often face the major challenge when these well-trained models are deployed to a new domain. In this paper, we propose an Active-and-Adaptive Segmentation (ADAS) baseline to enhance the weak cross-domain generalization ability of a well-trained 3D segmentation model, and bridge the point distribution gap between domains. Specifically, before the cross-domain adaptation stage begins, ADAS performs an active sampling operation to select a maximally-informative subset from both source and target domains for effective adaptation, reducing the adaptation difficulty under 3D scenarios. Benefiting from the rise of multi-modal 2D-3D datasets, ADAS utilizes a cross-modal attention-based feature fusion module that can extract a representative pair of image features and point features to achieve a bi-directional image-point feature interaction for better safe adaptation. Experimentally, ADAS is verified to be effective in many cross-domain settings including: 1) Unsupervised Domain Adaptation (UDA), which means that all samples from target domain are unlabeled; 2) Unsupervised Few-shot Domain Adaptation (UFDA) which means that only a few unlabeled samples are available in the unlabeled target domain; 3) Active Domain Adaptation (ADA) which means that the selected target samples by ADAS are manually annotated. Their results demonstrate that ADAS achieves a significant accuracy gain by easily coupling ADAS with self-training methods or off-the-shelf UDA works.
translated by 谷歌翻译
无监督的域对点云语义分割的适应性引起了极大的关注,因为它在没有标记的数据中学习有效性。大多数现有方法都使用全局级特征对齐方式将知识从源域转移到目标域,这可能会导致特征空间的语义歧义。在本文中,我们提出了一个基于图形的框架,以探索两个域之间的局部特征对齐,可以在适应过程中保留语义歧视。具体而言,为了提取本地级特征,我们首先在两个域上动态构建本地特征图,并使用来自源域的图形构建存储库。特别是,我们使用最佳传输来生成图形匹配对。然后,基于分配矩阵,我们可以将两个域之间的特征分布与基于图的本地特征损失对齐。此外,我们考虑了不同类别的特征之间的相关性,并制定了类别引导的对比损失,以指导分割模型以学习目标域上的区分特征。对不同的合成到现实和真实域的适应情景进行了广泛的实验表明,我们的方法可以实现最先进的性能。
translated by 谷歌翻译
了解驾驶场景中的雾图像序列对于自主驾驶至关重要,但是由于难以收集和注释不利天气的现实世界图像,这仍然是一项艰巨的任务。最近,自我训练策略被认为是无监督域适应的强大解决方案,通过生成目标伪标签并重新训练模型,它迭代地将模型从源域转化为目标域。但是,选择自信的伪标签不可避免地会遭受稀疏与准确性之间的冲突,这两者都会导致次优模型。为了解决这个问题,我们利用了驾驶场景的雾图图像序列的特征,以使自信的伪标签致密。具体而言,基于顺序图像数据的局部空间相似性和相邻时间对应的两个发现,我们提出了一种新型的目标域驱动的伪标签扩散(TDO-DIF)方案。它采用超像素和光学流来识别空间相似性和时间对应关系,然后扩散自信但稀疏的伪像标签,或者是由流量链接的超像素或时间对应对。此外,为了确保扩散像素的特征相似性,我们在模型重新训练阶段引入了局部空间相似性损失和时间对比度损失。实验结果表明,我们的TDO-DIF方案有助于自适应模型在两个公共可用的天然雾化数据集(超过雾气的Zurich and Forggy驾驶)上实现51.92%和53.84%的平均跨工会(MIOU),这超过了最态度ART无监督的域自适应语义分割方法。可以在https://github.com/velor2012/tdo-dif上找到模型和数据。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
LIDAR语义分割提供有关环境的3D语义信息,在其决策过程中为智能系统提供基本提示。深度神经网络正在实现这项任务的大型公共基准的最先进结果。不幸的是,找到概括井或适应其他域的模型,其中数据分布不同,仍然是一个重大挑战。这项工作解决了LIDAR语义分段模型的无监督域适应问题。我们的方法将新颖的想法结合在最新的最先进的方法之上,并产生了新的最先进的结果。我们提出了简单但有效的策略,以通过对齐输入空间的数据分布来减少域移位。此外,我们提出了一种基于学习的方法,使目标域的语义类的分布对准到源域。呈现的消融研究表明,每个部分如何促成最终表现。我们的策略显示在三个不同的域上运行的比较以前的域适应方法。
translated by 谷歌翻译
自动驾驶依赖于大量的现实数据被标记为高精度。替代解决方案寻求利用驾驶模拟器,该模拟器可以使用多种内容变体产生大量标记数据。但是,合成和实际数据之间的域间隙仍然存在,提高以下重要问题:利用自动驾驶模拟器进行感知任务的最佳方法是什么?在这项工作中,我们建立了域 - 适应理论的最近进步之上,从这个角度来看,提出了最小化现实差距的方法。我们主要专注于单独使用合成域中的标签。我们的方法介绍了学习神经不变的表示的原则方法以及关于如何从模拟器对数据进行采样的理论上灵感的视图。我们的方法在实践中易于实施,因为它是网络架构的不可知论由和模拟器的选择。我们在使用开源模拟器(Carla)的多传感器数据(摄像机,LIDAR)上展示了我们的方法,使用开源模拟器(Carla),并在真实世界数据集(NUSCENES)上评估整个框架。最后但并非最不重要的是,在用驾驶模拟器训练时,我们展示了在感知网络中对感知网络的任何类型的变化(例如天气状况,资产,地图设计和色彩分集),并且可以使用我们的域适配技术来补偿这些类型。
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译