Recent advances in self-supervised visual representation learning have paved the way for unsupervised methods tackling tasks such as object discovery and instance segmentation. However, discovering objects in an image with no supervision is a very hard task; what are the desired objects, when to separate them into parts, how many are there, and of what classes? The answers to these questions depend on the tasks and datasets of evaluation. In this work, we take a different approach and propose to look for the background instead. This way, the salient objects emerge as a by-product without any strong assumption on what an object should be. We propose FOUND, a simple model made of a single $conv1\times1$ initialized with coarse background masks extracted from self-supervised patch-based representations. After fast training and refining these seed masks, the model reaches state-of-the-art results on unsupervised saliency detection and object discovery benchmarks. Moreover, we show that our approach yields good results in the unsupervised semantic segmentation retrieval task. The code to reproduce our results is available at https://github.com/valeoai/FOUND.
translated by 谷歌翻译
自主驾驶的最新作品已广泛采用了鸟眼视图(BEV)语义图作为世界的中间表示。这些BEV地图的在线预测涉及非平凡操作,例如多摄像机数据提取以及融合和投影到常见的顶级网格中。这通常是通过易易错的几何操作(例如,单眼深度估计的同构图或反射)或BEV中图像像素和像素(例如,具有MLP或注意力)之间的昂贵直接密集映射来完成。在这项工作中,我们提出了“ Lara”,这是一种有效的编码器编码器,基于变压器的模型,用于从多个摄像机中进行车辆语义分割。我们的方法使用交叉注意的系统将信息通过多个传感器汇总为紧凑而丰富的潜在表示。这些潜在的表示在通过一系列自我发场块处理后,在BEV空间中进行了第二次交叉注意。我们证明,我们的模型在Nuscenes上的表现优于使用变压器的最佳先前作品。
translated by 谷歌翻译
由于深度学习模型越来越多地用于安全关键应用,可解释性和可信度成为主要问题。对于简单的图像,例如低分辨率面部肖像,最近已经提出了综合视觉反事实解释作为揭示训练分类模型的决策机制的一种方法。在这项工作中,我们解决了为高质量图像和复杂场景产生了反事实解释的问题。利用最近的语义到图像模型,我们提出了一种新的生成反事实解释框架,可以产生卓越的稀疏修改,该框架可以保护整体场景结构。此外,我们介绍了“区域目标反事实解释”的概念和相应的框架,其中用户可以通过指定查询图像的一组语义区域来指导反事实的生成说明必须是关于的。在具有挑战性的数据集中进行了广泛的实验,包括高质量的肖像(Celebamask-HQ)和驾驶场景(BDD100K)。
translated by 谷歌翻译
这项调查回顾了对基于视觉的自动驾驶系统进行行为克隆训练的解释性方法。解释性的概念具有多个方面,并且需要解释性的驾驶强度是一种安全至关重要的应用。从几个研究领域收集贡献,即计算机视觉,深度学习,自动驾驶,可解释的AI(X-AI),这项调查可以解决几点。首先,它讨论了从自动驾驶系统中获得更多可解释性和解释性的定义,上下文和动机,以及该应用程序特定的挑战。其次,以事后方式为黑盒自动驾驶系统提供解释的方法是全面组织和详细的。第三,详细介绍和讨论了旨在通过设计构建更容易解释的自动驾驶系统的方法。最后,确定并检查了剩余的开放挑战和潜在的未来研究方向。
translated by 谷歌翻译
标准化的数据集和基准刺激了计算机视觉,自然语言处理,多模式和表格设置的创新。我们注意到,与其他经过良好研究的领域相比,欺诈检测有许多差异。差异包括高级失衡,多样化的特征类型,经常改变的欺诈模式以及问题的对抗性。由于这些差异,用于其他分类任务的建模方法可能对欺诈检测效果不佳。我们介绍了欺诈数据集基准(FDB),该基准是针对欺诈检测的公开可用数据集的汇编。 FDB包括各种与欺诈相关的任务,从识别欺诈性卡片 - 不出现交易,检测机器人攻击,对恶意URL进行分类,预测贷款的风险降至内容适度。来自FDB的基于Python的库为数据加载提供了一致的API,并具有标准化的训练和测试拆分。作为参考,我们还提供了FDB上不同建模方法的基线评估。考虑到各种研究和业务问题的自动化机器学习(AUTOML)的日益普及,我们使用了Automl框架进行基线评估。为了预防欺诈,拥有有限资源和缺乏ML专业知识的组织通常会聘请一个调查人员,使用区块列表和手动规则,所有这些规则效率低下且规模不佳。这些组织可以从易于在生产中部署并通过欺诈预防要求的汽车解决方案受益。我们希望FDB有助于开发适合不同欺诈模式操作数(MOS)的定制欺诈检测技术,以及改善汽车系统,这些系统可以很好地适用于基准中的所有数据集。
translated by 谷歌翻译
队列研究越来越多地使用加速度计进行体育活动和久坐行为估计。这些设备往往比自我报告易于错误,可以全天捕获活动,并且是经济的。但是,在自由生活的情况下和受试者对象变化下,基于髋关节wor的数据估算久坐行为的先前方法通常是无效的或次优的。在本文中,我们提出了一个本地马尔可夫切换模型,该模型考虑了这种情况,并引入了一种姿势分类和久坐行为分析的一般程序,该程序自然适合该模型。我们的方法在时间序列中具有更改点检测方法,也是一个两个阶段分类步骤,将数据标记为3类(坐着,站立,步进)。通过严格的训练测试范例,我们表明我们的方法达到了80%的精度。此外,我们的方法是强大的,易于解释。
translated by 谷歌翻译