Recent advances in self-supervised visual representation learning have paved the way for unsupervised methods tackling tasks such as object discovery and instance segmentation. However, discovering objects in an image with no supervision is a very hard task; what are the desired objects, when to separate them into parts, how many are there, and of what classes? The answers to these questions depend on the tasks and datasets of evaluation. In this work, we take a different approach and propose to look for the background instead. This way, the salient objects emerge as a by-product without any strong assumption on what an object should be. We propose FOUND, a simple model made of a single $conv1\times1$ initialized with coarse background masks extracted from self-supervised patch-based representations. After fast training and refining these seed masks, the model reaches state-of-the-art results on unsupervised saliency detection and object discovery benchmarks. Moreover, we show that our approach yields good results in the unsupervised semantic segmentation retrieval task. The code to reproduce our results is available at https://github.com/valeoai/FOUND.
translated by 谷歌翻译
Domain adaptation has been vastly investigated in computer vision but still requires access to target images at train time, which might be intractable in some conditions, especially for long-tail samples. In this paper, we propose the task of `Prompt-driven Zero-shot Domain Adaptation', where we adapt a model trained on a source domain using only a general textual description of the target domain, i.e., a prompt. First, we leverage a pretrained contrastive vision-language model (CLIP) to optimize affine transformations of source features, bringing them closer to target text embeddings, while preserving their content and semantics. Second, we show that augmented features can be used to perform zero-shot domain adaptation for semantic segmentation. Experiments demonstrate that our method significantly outperforms CLIP-based style transfer baselines on several datasets for the downstream task at hand. Our prompt-driven approach even outperforms one-shot unsupervised domain adaptation on some datasets, and gives comparable results on others. The code is available at https://github.com/astra-vision/PODA.
translated by 谷歌翻译
接受经验风险最小化(ERM)训练的机器学习模型的预测性能可以大大降解分配变化。在训练数据集中存在虚假相关性的存在导致ERM训练的模型在对不存在此类相关性的少数群体评估时表现出很高的损失。已经进行了广泛的尝试来开发改善最差的鲁棒性的方法。但是,他们需要每个培训输入的组信息,或者至少需要一个带有组标签的验证设置来调整其超参数,这可能是昂贵的或未知的。在本文中,我们应对在培训或验证期间没有小组注释的情况下提高组鲁棒性的挑战。为此,我们建议根据``识别''模型提取的特征的革兰氏集矩阵将训练数据集分为组,并根据这些伪组应用强大的优化。在不可用的小组标签的现实情况下,我们的实验表明,我们的方法不仅可以改善对ERM的稳健性,而且还优于所有最近的基线
translated by 谷歌翻译
接受注释较弱的对象探测器是全面监督者的负担得起的替代方案。但是,它们之间仍然存在显着的性能差距。我们建议通过微调预先训练的弱监督检测器来缩小这一差距,并使用``Box-In-box''(bib'(bib)自动从训练集中自动选择了一些完全注销的样品,这是一种新颖的活跃学习专门针对弱势监督探测器的据可查的失败模式而设计的策略。 VOC07和可可基准的实验表明,围嘴表现优于其他活跃的学习技术,并显着改善了基本的弱监督探测器的性能,而每个类别仅几个完全宣布的图像。围嘴达到了完全监督的快速RCNN的97%,在VOC07上仅10%的全已通量图像。在可可(COCO)上,平均每类使用10张全面通量的图像,或同等的训练集的1%,还减少了弱监督检测器和完全监督的快速RCN之间的性能差距(In AP)以上超过70% ,在性能和数据效率之间表现出良好的权衡。我们的代码可在https://github.com/huyvvo/bib上公开获取。
translated by 谷歌翻译
自主驾驶的最新作品已广泛采用了鸟眼视图(BEV)语义图作为世界的中间表示。这些BEV地图的在线预测涉及非平凡操作,例如多摄像机数据提取以及融合和投影到常见的顶级网格中。这通常是通过易易错的几何操作(例如,单眼深度估计的同构图或反射)或BEV中图像像素和像素(例如,具有MLP或注意力)之间的昂贵直接密集映射来完成。在这项工作中,我们提出了“ Lara”,这是一种有效的编码器编码器,基于变压器的模型,用于从多个摄像机中进行车辆语义分割。我们的方法使用交叉注意的系统将信息通过多个传感器汇总为紧凑而丰富的潜在表示。这些潜在的表示在通过一系列自我发场块处理后,在BEV空间中进行了第二次交叉注意。我们证明,我们的模型在Nuscenes上的表现优于使用变压器的最佳先前作品。
translated by 谷歌翻译
无标记的单眼3D人类运动捕获(MOCAP)与场景相互作用是一个充满挑战的研究主题,与扩展现实,机器人技术和虚拟头像生成有关。由于单眼环境的固有深度歧义,使用现有方法捕获的3D运动通常包含严重的人工制品,例如不正确的身体场景互穿,抖动和身体漂浮。为了解决这些问题,我们提出了HULC,这是一种新的3D人类MOCAP方法,它知道场景几何形状。 HULC估计3D姿势和密集的身体环境表面接触,以改善3D定位以及受试者的绝对尺度。此外,我们基于新的姿势歧管采样,引入了3D姿势轨迹优化,该采样解决了错误的身体环境互穿。尽管所提出的方法与现有场景感知的单眼MOCAP算法相比需要较少的结构化输入,但它会产生更加可行的姿势:HULC显着且一致地在各种实验和不同指标上都优于现有方法。项目页面:https://vcai.mpi-inf.mpg.de/projects/hulc/。
translated by 谷歌翻译
凭借其恶劣天气条件和测量速度的能力,雷达传感器已经成为汽车景观的一部分超过二十年的鲁棒性。最近的高清晰度(HD)成像雷达的进展使角分辨率低于程度,从而接近激光扫描性能。然而,数据量为HD雷达提供和计算成本来估计角度位置仍然是一个挑战。在本文中,我们提出了一种新颖的高清雷达传感模型FFT-RADNET,其消除了计算范围 - 方位角多普勒3D张量的开销,从而从范围多普勒频谱恢复角度。 FFT-RADNET培训均以检测车辆和分段免费驾驶空间。在两个任务中,它与最新的基于雷达的模型竞争,同时需要更少的计算和内存。此外,我们在各种环境(城市街道,公路,农村路)中,从同步汽车级传感器(相机,激光,高清雷达)收集和注释了2小时的原始数据。这个独特的数据集,“雷达,lidar等人”的inc-命名的radial是在https://github.com/valeoai/radial上获得的。
translated by 谷歌翻译
随着生成对冲网络(GANS)的快速进步,综合场景的视觉质量不断改进,包括复杂的城市场景,其中包含自动驾驶的应用。我们在这项工作中解决了一个持续的场景生成设置,其中GAN在不同的域流上培训;理想情况下,学习的模型最终应该能够在所有看到的域中生成新场景。此设置反映了现实生活场景,其中数据在不同时间的不同地方不断获取。在这种持续的设置中,我们的目标是学习零遗忘,即,由于灾难性的遗忘,在早期域内没有综合质量下降。为此,我们介绍了一种新颖的框架,不仅(i)可以在持续培训中实现无缝知识转移,而且(ii)还能以小的开销成本保证零遗忘。虽然更加内存有效,但由于继续学习,我们的模型比较每个域为一个完整模型的蛮力解决方案比较了更好的合成质量。特别是,在极端的低数据制度下,我们的方法通过大幅度大幅优于蛮力。
translated by 谷歌翻译
由于深度学习模型越来越多地用于安全关键应用,可解释性和可信度成为主要问题。对于简单的图像,例如低分辨率面部肖像,最近已经提出了综合视觉反事实解释作为揭示训练分类模型的决策机制的一种方法。在这项工作中,我们解决了为高质量图像和复杂场景产生了反事实解释的问题。利用最近的语义到图像模型,我们提出了一种新的生成反事实解释框架,可以产生卓越的稀疏修改,该框架可以保护整体场景结构。此外,我们介绍了“区域目标反事实解释”的概念和相应的框架,其中用户可以通过指定查询图像的一组语义区域来指导反事实的生成说明必须是关于的。在具有挑战性的数据集中进行了广泛的实验,包括高质量的肖像(Celebamask-HQ)和驾驶场景(BDD100K)。
translated by 谷歌翻译
对无监督对象发现的现有方法(UOD)不会向大大扩展到大型数据集,而不会损害其性能的近似。我们提出了一种新颖的UOD作为排名问题的制定,适用于可用于特征值问题和链接分析的分布式方法的阿森纳。通过使用自我监督功能,我们还展示了UOD的第一个有效的完全无监督的管道。对Coco和OpenImages的广泛实验表明,在每个图像中寻求单个突出对象的单对象发现设置中,所提出的LOD(大规模对象发现)方法与之相当于或更好地中型数据集的艺术(最多120K图像),比能够缩放到1.7M图像的唯一其他算法超过37%。在每个图像中寻求多个对象的多对象发现设置中,所提出的LOD平均精度(AP)比所有其他用于从20K到1.7M图像的数据的方法更好。使用自我监督功能,我们还表明该方法在OpenImages上获得最先进的UOD性能。我们的代码在HTTPS://github.com/huyvvo/lod上公开提供。
translated by 谷歌翻译