语义分段网络通常在部署期间预先培训并且未更新。因此,如果训练数据的分布偏离机器人操作期间遇到的那个,则通常发生错误分类。我们建议通过将神经网络调整到机器人在部署期间的环境中来缓解此问题,而无需对外监督。利用互补数据表示,通过概率地累积在体积3D地图中的连续2D语义预测来生成监督信号。然后,我们在累积的语义地图的渲染上重新培训网络,有效地解决歧义并通过3D表示来执行多视图一致性。为了在进行网络适应时保留先前学习的知识,我们采用了基于体验重放的持续学习策略。通过广泛的实验评估,我们对Scannet DataSet和RGB-D传感器记录的内部数据显示了对现实世界室内场景的成功适应。与固定的预训练的神经网络相比,我们的方法平均增加了分割性能11.8%,同时有效地保留了从预训练前数据集的知识。
translated by 谷歌翻译
为了在人类环境中运作,机器人的语义感知必须克服开放世界的挑战,例如新颖的对象和域间隙。因此,在此类环境中的自主部署要求机器人在不监督的情况下更新其知识和学习。我们研究机器人如何在探索未知环境时如何自主发现新颖的语义类别并提高已知类别的准确性。为此,我们开发了一个通用框架来映射和聚类,然后使用该框架来生成自我监督的学习信号以更新语义分割模型。特别是,我们展示了如何在部署过程中优化聚类参数,并且与先前的工作相比,多种观察方式的融合可以改善新颖的对象发现。
translated by 谷歌翻译
这项工作提出了一种体现的代理,可以以完全自主的方式将其语义分割网络调整到新的室内环境中。由于语义分割网络无法很好地推广到看不见的环境,因此代理会收集新环境的图像,然后将其用于自我监督的域适应性。我们将其作为一个有益的路径计划问题提出,并提出一种新的信息增益,该信息利用从语义模型中提取的不确定性来安全地收集相关数据。随着域的适应性的进展,这些不确定性会随着时间的推移而发生变化,并且我们系统的快速学习反馈驱使代理收集不同的数据。实验表明,与勘探目标相比,我们的方法更快地适应了新环境,最终性能更高,并且可以成功部署到物理机器人上的现实环境中。
translated by 谷歌翻译
持续深度学习的领域是一个新兴领域,已经取得了很多进步。但是,同时仅根据图像分类的任务进行了大多数方法,这在智能车辆领域无关。直到最近才提出了班级开展语义分割的方法。但是,所有这些方法都是基于某种形式的知识蒸馏。目前,尚未对基于重播的方法进行调查,这些方法通常在连续的环境中用于对象识别。同时,尽管无监督的语义分割的域适应性获得了很多吸引力,但在持续环境中有关域内收入学习的调查并未得到充分研究。因此,我们工作的目的是评估和调整已建立的解决方案,以连续对象识别语义分割任务,并为连续语义分割的任务提供基线方法和评估协议。首先,我们介绍了类和域内的分割的评估协议,并分析了选定的方法。我们表明,语义分割变化的任务的性质在减轻与图像分类相比最有效的方法中最有效。特别是,在课堂学习中,学习知识蒸馏被证明是至关重要的工具,而在域内,学习重播方法是最有效的方法。
translated by 谷歌翻译
近年来,语义细分领域取得了巨大进展。但是,剩下的一个具有挑战性的问题是,细分模型并未推广到看不见的域。为了克服这个问题,要么必须标记大量涵盖整个域的数据,这些域通常在实践中是不可行的,要么应用无监督的域适应性(UDA),仅需要标记为源数据。在这项工作中,我们专注于UDA,并另外解决了适应单个域,而且针对一系列目标域的情况。这需要机制,以防止模型忘记其先前学习的知识。为了使细分模型适应目标域,我们遵循利用轻质样式转移将标记的源图像样式转换为目标域样式的想法,同时保留源内容。为了减轻源和目标域之间的分布移位,模型在第二步中在传输的源图像上进行了微调。现有的轻重量样式转移方法依赖于自适应实例归一化(ADAIN)或傅立叶变换仍然缺乏性能,并且在常见数据增强(例如颜色抖动)上没有显着改善。这样做的原因是,这些方法并不关注特定于区域或类别的差异,而是主要捕获最突出的样式。因此,我们提出了一个简单且轻巧的框架,该框架结合了两个类条件的ADAIN层。为了提取传输层所需的特定类目标矩,我们使用未过滤的伪标签,与真实标签相比,我们表明这是有效的近似值。我们在合成序列上广泛验证了我们的方法(CACE),并进一步提出了由真实域组成的具有挑战性的序列。 CACE在视觉和定量上优于现有方法。
translated by 谷歌翻译
本文提出了一个实时的在线视觉框架,共同恢复室内场景的3D结构和语义标签。给定嘈杂的深度地图,相机轨迹和火车时间的2D语义标签,所提出的深度神经网络的方法学会融合在场景空间中具有合适的语义标签的框架。我们的方法利用现场特征空间中深度和语义的联合体积表示来解决此任务。对于实时语义标签和几何形状的引人注目的在线融合,我们介绍了一个高效的涡流池块,同时删除了在线深度融合中的路由网络,以保持高频表面细节。我们表明场景的语义提供的上下文信息有助于深度融合网络学习抗噪声功能。不仅如此,它有助于克服当前在线深度融合方法的缺点,在处理薄物体结构,增厚伪像和假表面。 Replica DataSet上的实验评估表明,我们的方法可以在每秒37和10帧中执行深度融合,平均重建F分数分别为88%和91%,具体取决于深度图分辨率。此外,我们的模型在Scannet 3D语义基准排行榜上显示了0.515的平均iou得分。
translated by 谷歌翻译
在开放世界中运行的机器人会遇到各种不同的环境,这些环境可能彼此之间有很大的不同。该域差距也对同时本地化和映射(SLAM)构成了挑战,它是导航的基本任务之一。尤其是,已知基于学习的大满贯方法概括地概括了看不见的环境,阻碍了其一般采用。在这项工作中,我们介绍了连续猛击的新任务,即从单个动态变化的环境扩展到终生的概念到几个截然不同的环境中的顺序部署。为了解决这一任务,我们提出了CL-SLAM利用双NETWORK体系结构来适应新环境,并保留有关先前访问的环境的知识。我们将CL-SLAM与基于学习的和经典的大满贯方法进行比较,并显示了利用在线数据的优势。我们在三个不同的数据集上广泛评估CL-SLAM,并证明它的表现优于几个受到现有基于基于学习的视觉探测方法的基准。我们在http://continual-slam.cs.uni-freiburg.de上公开提供工作代码。
translated by 谷歌翻译
3D点云语义细分对于自动驾驶至关重要。文献中的大多数方法都忽略了一个重要方面,即在处理动态场景时如何处理域转移。这可能会极大地阻碍自动驾驶车辆的导航能力。本文推进了该研究领域的最新技术。我们的第一个贡献包括分析点云细分中的新的未开发的方案,即无源的在线无监督域改编(SF-OUDA)。我们在实验上表明,最新的方法具有相当有限的能力,可以使预训练的深网模型以在线方式看不到域。我们的第二个贡献是一种依赖于自适应自我训练和几何传播的方法,以在线调整预训练的源模型,而无需源数据或目标标签。我们的第三个贡献是在一个充满挑战的设置中研究sf-ouda,其中源数据是合成的,目标数据是现实世界中捕获的点云。我们将最近的Synlidar数据集用作合成源,并引入了两个新的合成(源)数据集,这些数据集可以刺激未来的综合自动驾驶研究。我们的实验显示了我们分割方法对数千个现实点云的有效性。代码和合成数据集可在https://github.com/saltoricristiano/gipso-sfouda上找到。
translated by 谷歌翻译
由于严重的图像降解,在挑战性高动态范围(HDR)和高速条件下检索准确的语义信息仍然是基于图像的算法的开放挑战。事件摄像机有望应对这些挑战,因为它们具有更高的动态范围,并且对运动模糊具有弹性。尽管如此,事件摄像机的语义细分仍处于起步阶段,这主要是由于缺乏高质量的标记数据集所致。在这项工作中,我们介绍了ESS(基于事件的语义细分),该工作通过将语义分割任务直接从现有标记的图像数据集传输到无标记的事件来解决此问题。与现有的UDA方法相比,我们的方法与图像嵌入的经常性运动不变事件嵌入对齐。因此,我们的方法既不需要视频数据,也不需要图像和事件之间的每个像素对齐,也不需要从静止图像中幻觉运动。此外,我们介绍了DSEC-Semantic,这是第一个带有细粒标签的基于大规模事件的数据集。我们表明,单独使用图像标签,ESS优于现有的UDA方法,并且与事件标签结合使用,它甚至超过了DDD17和DSEC-Semantic上最先进的监督方法。最后,ESS是通用的,它可以解锁大量现有标记的图像数据集,并为事件摄像机无法访问的新领域的新领域中的新和令人兴奋的研究方向铺平了道路。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在减少训练和测试数据之间的域间隙,并在大多数情况下以离线方式进行。但是,在部署过程中可能会连续且不可预测地发生域的变化(例如,天气变化突然变化)。在这种情况下,深度神经网络见证了准确性的急剧下降,离线适应可能不足以对比。在本文中,我们解决了在线域适应(ONDA)进行语义细分。我们设计了一条可逐步或突然转移的域转移的管道,在多雨和有雾的情况下,我们对其进行了评估。我们的实验表明,我们的框架可以有效地适应部署期间的新域,而不受灾难性遗忘以前的域的影响。
translated by 谷歌翻译
具有高质量注释的大规模培训数据对于训练语义和实例分割模型至关重要。不幸的是,像素的注释是劳动密集型且昂贵的,从而提高了对更有效的标签策略的需求。在这项工作中,我们提出了一种新颖的3D到2D标签传输方法,即Panoptic Nerf,该方法旨在从易于体现的粗3D边界原始基原始素中获取每个像素2D语义和实例标签。我们的方法利用NERF作为可区分的工具来统一从现有数据集中传输的粗3D注释和2D语义提示。我们证明,这种组合允许通过语义信息指导的几何形状,从而使跨多个视图的准确语义图渲染。此外,这种融合过程解决了粗3D注释的标签歧义,并过滤了2D预测中的噪声。通过推断3D空间并渲染到2D标签,我们的2D语义和实例标签是按设计一致的多视图。实验结果表明,在挑战Kitti-360数据集的挑战性城市场景方面,Pastic Nerf的表现优于现有标签传输方法。
translated by 谷歌翻译
我们呈现NESF,一种用于单独从构成的RGB图像中生成3D语义场的方法。代替经典的3D表示,我们的方法在最近的基础上建立了隐式神经场景表示的工作,其中3D结构被点亮功能捕获。我们利用这种方法来恢复3D密度领域,我们然后在其中培训由构成的2D语义地图监督的3D语义分段模型。尽管仅在2D信号上培训,我们的方法能够从新颖的相机姿势生成3D一致的语义地图,并且可以在任意3D点查询。值得注意的是,NESF与产生密度场的任何方法兼容,并且随着密度场的质量改善,其精度可提高。我们的实证分析在复杂的实际呈现的合成场景中向竞争性2D和3D语义分割基线表现出可比的质量。我们的方法是第一个提供真正密集的3D场景分段,需要仅需要2D监督培训,并且不需要任何关于新颖场景的推论的语义输入。我们鼓励读者访问项目网站。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
Although unsupervised domain adaptation methods have achieved remarkable performance in semantic scene segmentation in visual perception for self-driving cars, these approaches remain impractical in real-world use cases. In practice, the segmentation models may encounter new data that have not been seen yet. Also, the previous data training of segmentation models may be inaccessible due to privacy problems. Therefore, to address these problems, in this work, we propose a Continual Unsupervised Domain Adaptation (CONDA) approach that allows the model to continuously learn and adapt with respect to the presence of the new data. Moreover, our proposed approach is designed without the requirement of accessing previous training data. To avoid the catastrophic forgetting problem and maintain the performance of the segmentation models, we present a novel Bijective Maximum Likelihood loss to impose the constraint of predicted segmentation distribution shifts. The experimental results on the benchmark of continual unsupervised domain adaptation have shown the advanced performance of the proposed CONDA method.
translated by 谷歌翻译
保持最新的地图以反映现场的最新变化非常重要,尤其是在涉及在延长环境中操作的机器人重复遍历的情况。未发现的变化可能会导致地图质量恶化,导致本地化差,操作效率低下和机器人丢失。体积方法,例如截断的签名距离功能(TSDF),由于其实时生产致密而详细的地图,尽管在随着时间的推移随着时间的流逝而变化的地图更新仍然是一个挑战,但由于它们的实时生产而迅速获得了吸引力。我们提出了一个框架,该框架引入了一种新颖的概率对象状态表示,以跟踪对象在半静态场景中的姿势变化。该表示为每个对象共同对平稳性评分和TSDF变更度量进行建模。同时加入几何信息和语义信息的贝叶斯更新规则被得出以实现一致的在线地图维护。为了与最先进的方法一起广泛评估我们的方法,我们在仓库环境中发布了一个新颖的现实数据集。我们还评估了公共Toycar数据集。我们的方法优于半静态环境重建质量的最先进方法。
translated by 谷歌翻译
Despite significant advances, the performance of state-of-the-art continual learning approaches hinges on the unrealistic scenario of fully labeled data. In this paper, we tackle this challenge and propose an approach for continual semi-supervised learning -- a setting where not all the data samples are labeled. An underlying issue in this scenario is the model forgetting representations of unlabeled data and overfitting the labeled ones. We leverage the power of nearest-neighbor classifiers to non-linearly partition the feature space and learn a strong representation for the current task, as well as distill relevant information from previous tasks. We perform a thorough experimental evaluation and show that our method outperforms all the existing approaches by large margins, setting a strong state of the art on the continual semi-supervised learning paradigm. For example, on CIFAR100 we surpass several others even when using at least 30 times less supervision (0.8% vs. 25% of annotations).
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
本文提出FogAdapt,一种用于密集有雾场景的语义细分域的新方法。虽然已经针对显着的研究来减少语义分割中的域移位,但对具有恶劣天气条件的场景的适应仍然是一个开放的问题。由于天气状况,如雾,烟雾和雾度,加剧了域移位的场景的可见性,从而使得在这种情况下进行了无监督的适应性。我们提出了一种自熵和多尺度信息增强的自我监督域适应方法(FOGADAPT),以最大限度地减少有雾场景分割的域移位。由经验证据支持,雾密度的增加导致分割概率的高自熵性,我们引入了基于自熵的损耗功能来引导适应方法。此外,在不同的图像尺度上获得的推论由不确定性组合并加权,以生成目标域的尺度不变伪标签。这些规模不变的伪标签对可见性和比例变化具有鲁棒性。我们在真正的雾景场景中评估了真正的清晰天气场景模型,适应和综合非雾图像到真正的雾场景适应情景。我们的实验表明,FogAdapt在有雾图像的语义分割中的目前最先进的情况下显着优异。具体而言,通过考虑标准设置与最先进的(SOTA)方法相比,FogaDATK在Foggy苏黎世上获得3.8%,有雾的驾驶密集为6.0%,而在Miou的雾化驾驶的3.6%,在Miou,在MiOOP中改编为有雾的苏黎世。
translated by 谷歌翻译
本文报告了一个动态语义映射框架,该框架将3D场景流量测量纳入封闭形式的贝叶斯推理模型中。环境中动态对象的存在可能会导致当前映射算法中的伪影和痕迹,从而导致后方地图不一致。我们利用深度学习利用最新的语义细分和3D流量估计,以提供MAP推断的测量。我们开发了一个贝叶斯模型,该模型以流量传播,并渗透3D连续(即可以在任意分辨率下查询)语义占用率图优于其静态对应物的语义占用图。使用公开数据集的广泛实验表明,所提出的框架对其前身和深度神经网络的输入测量有所改善。
translated by 谷歌翻译
深度学习方法在3D语义细分中取得了显着的成功。但是,收集密集注释的现实世界3D数据集非常耗时且昂贵。关于合成数据和对现实世界情景的培训模型成为一种吸引人的选择,但不幸的是,臭名昭著的领域变化。在这项工作中,我们提出了一个面向数据的域适应性(DODA)框架,以减轻由不同的感应机制和跨域的布局放置引起的模式和上下文差距。我们的DODA涵盖了虚拟扫描模拟,以模仿现实世界中的点云图案和尾声的长方体混合,以减轻基于Cuboid的中间域的内部环境差距。 3D室内语义分割上的第一个无监督的SIM到运行适应基准也构建在3D-Front,Scannet和S3DIS上,以及7种流行的无监督域适应(UDA)方法。我们的DODA在3D -Front-> scannet和3d -Front-> S3DIS上都超过了13%的UDA方法。代码可从https://github.com/cvmi-lab/doda获得。
translated by 谷歌翻译