在这项工作中,我们首次提出了一种用于检测具有语义分割图像数据集中标签错误的方法,即Pixel-Wise类标签。语义细分数据集的注释获取是耗时的,需要大量的人工劳动。特别是,审查过程是耗时的,人类很容易忽略标签错误。后果是有偏见的基准,在极端情况下,也是在此类数据集上训练的深神经网络(DNNS)的性能降解。语义分割的DNN会产生像素的预测,这使得通过不确定性量化来检测标签错误是一个复杂的任务。在预测的连接组件之间的过渡中,不确定性特别明显。通过将不确定性考虑到预测组件的水平,我们可以使用DNN以及组件级的不确定性定量来检测标签误差。我们提出了一种原则性的方法,可以通过从Carla驾驶模拟器中提取的数据集中从CityScapes数据集中删除标签,以基准标记错误检测的任务,在后一种情况下,我们可以控制标签。我们的实验表明,我们的方法能够在控制错误标签误差检测的数量时检测到绝大多数标签错误。此外,我们将方法应用于计算机视觉社区经常使用的语义分割数据集,并提出标签错误的集合以及示例统计信息。
translated by 谷歌翻译
最先进的语义或实例分割深度神经网络(DNN)通常在封闭的语义类上培训。因此,它们的装备不适用于处理以前的未持续的对象。然而,检测和定位这些物体对于安全关键应用至关重要,例如对自动驾驶的感知,特别是如果它们出现在前方的道路上。虽然某些方法已经解决了异常或分发的对象分割的任务,但由于缺乏固体基准,在很大程度上存在进展仍然缓慢;现有数据集由合成数据组成,或遭受标签不一致。在本文中,我们通过介绍“SegmentMeifyOUCAN”基准来弥合这个差距。我们的基准解决了两个任务:异常对象分割,这将考虑任何以前的未持续的对象类别;和道路障碍分割,它侧重于道路上的任何物体,可能是已知的或未知的。我们将两个相应的数据集与执行深入方法分析的测试套件一起提供,考虑到已建立的像素 - 明智的性能度量和最近的组件 - 明智的,这对对象尺寸不敏感。我们凭经验评估了多种最先进的基线方法,包括使用我们的测试套件在我们的数据集和公共数据上专门为异常/障碍分割而设计的多种型号。异常和障碍分割结果表明,我们的数据集有助于数据景观的多样性和难度。
translated by 谷歌翻译
最先进的深神经网络在语义细分方面表现出了出色的表现。但是,它们的性能与培训数据所代表的领域相关。开放世界的场景会导致不准确的预测,这在安全相关应用中是危险的,例如自动驾驶。在这项工作中,我们使用单眼深度估计来增强语义分割预测,从而通过减少存在域移位时未检测到的对象的发生来改善分割。为此,我们通过修改后的分割网络推断出深度热图,该网络生成前后背面的掩模,该面具与给定的语义分割网络并行运行。两种细分面具均汇总,重点关注前景类(此处的道路使用者),以减少虚假负面因素。为了减少假阳性的发生,我们根据不确定性估计进行修剪。从某种意义上说,我们的方法是模块化的,它后处理了任何语义分割网络的输出。在我们的实验中,与基本的语义分割预测相比,我们观察到大多数重要类别的未检测到的对象,并增强对其他领域的概括。
translated by 谷歌翻译
TU Dresden www.cityscapes-dataset.net train/val -fine annotation -3475 images train -coarse annotation -20 000 images test -fine annotation -1525 images
translated by 谷歌翻译
对于图像的语义分割,如果该任务限于一组封闭的类,则最先进的深神经网络(DNN)实现高分性精度。然而,截至目前,DNN具有有限的开放世界能够在开放世界中运行,在那里他们任务是识别属于未知对象的像素,最终逐步学习新颖的类。人类有能力说:我不知道那是什么,但我已经看到了这样的东西。因此,希望以无监督的方式执行这种增量学习任务。我们介绍一种基于视觉相似性群集未知对象的方法。这些集群用于定义新课程,并作为无监督增量学习的培训数据。更确切地说,通过分割质量估计来评估预测语义分割的连接组件。具有低估计预测质量的连接组件是随后聚类的候选者。另外,组件明智的质量评估允许获得可能包含未知对象的图像区域的预测分段掩模。这种掩模的各个像素是伪标记的,然后用于重新训练DNN,即,在不使用由人类产生的地面真理。在我们的实验中,我们证明,在没有访问地面真理甚至几个数据中,DNN的类空间可以由新颖的类扩展,实现了相当大的分割精度。
translated by 谷歌翻译
The Mapillary Vistas Dataset is a novel, largescale street-level image dataset containing 25 000 highresolution images annotated into 66 object categories with additional, instance-specific labels for 37 classes. Annotation is performed in a dense and fine-grained style by using polygons for delineating individual objects. Our dataset is 5× larger than the total amount of fine annotations for Cityscapes and contains images from all around the world, captured at various conditions regarding weather, season and daytime. Images come from different imaging devices (mobile phones, tablets, action cameras, professional capturing rigs) and differently experienced photographers. In such a way, our dataset has been designed and compiled to cover diversity, richness of detail and geographic extent. As default benchmark tasks, we define semantic image segmentation and instance-specific image segmentation, aiming to significantly further the development of state-of-theart methods for visual road-scene understanding.
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
未经我们的知识,偏差可以过滤到AI技术。通常,开创性深度学习网络冠军高于其他一切。在本文中,我们试图通过迭代训练的无学习算法来缓解城市驾驶场景中的语义分段模型遇到的偏差。已经显示卷积神经网络依赖于颜色和纹理而不是几何形状。当安全关键型应用(例如自动驾驶汽车)时,在测试时间遇到具有协变量的图像时,这会提高问题 - 通过照明变化或季节性等变化引起的变化。在诸如MNIST之类的简单数据集上显示了偏见无线的概念证明。但是,该策略从未应用于高度变量培训数据的像素明智语义分割的安全关键领域 - 例如城市场景。对于基线和偏置未经学习方案的培训模型已经过针对颜色操纵验证集的性能进行了测试,从原始RGB图像中显示出在Miou中的差异高达85.50% - 确认细分网络强烈取决于培训数据中的颜色信息进行分类。偏置未经学习方案表明,在最佳观察的情况下处理高达61%的调节的改善 - 并且在与基线模型相比,将“人”和“车辆”类始终如一地执行。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
平均网络集合的预测是改善各种基准和kaggle竞争中预测性能和计算的尖端有效方法。但是,深层合奏的Thruntime和培训成本随着整体的规模线性增长,使它们不适合许多应用。平均重量的权重代替预测规定了这种不利性推断,通常应用于模型的中间检查点以降低训练成本。尽管有效,但只有很少的作品可以平均体重的理解和表现。我们描述了重量必须符合体重空间,功能空间和损失的互动的先决条件。此外,我们介绍了新的测试方法(称为Oracle测试),以测量权重之间的功能空间。我们证明了我们的WF战略在艺术分割CNN和变形金刚以及BDD100K和CityScapes等现实世界中的多功能性。我们将WF与类似的操作进行了比较,并显示了我们对预测性能和校准的分布数据术语的优势。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
集中的动物饲养业务(CAFOS)对空气,水和公共卫生构成严重风险,但已被证明挑战规范。美国政府问责办公室注意到基本挑战是缺乏关于咖啡馆的全面的位置信息。我们使用美国农业部的国家农产病程(Naip)1M / Pixel Acial Imagerery来检测美国大陆的家禽咖啡馆。我们培养卷积神经网络(CNN)模型来识别单个家禽谷仓,并将最佳表现模型应用于超过42 TB的图像,以创建家禽咖啡座的第一个国家开源数据集。我们验证了来自加利福尼亚州的10个手标县的家禽咖啡馆设施的模型预测,并证明这种方法具有填补环境监测中差距的显着潜力。
translated by 谷歌翻译
为视频中的每个像素分配语义类和跟踪身份的任务称为视频Panoptic分段。我们的工作是第一个在真实世界中瞄准这项任务,需要在空间和时间域中的密集解释。由于此任务的地面真理难以获得,但是,现有数据集是合成构造的或仅在短视频剪辑中稀疏地注释。为了克服这一点,我们介绍了一个包含两个数据集,Kitti-Step和Motchallenge步骤的新基准。数据集包含长视频序列,提供具有挑战性的示例和用于研究长期像素精确分割和在真实条件下跟踪的测试床。我们进一步提出了一种新的评估度量分割和跟踪质量(STQ),其相当余额平衡该任务的语义和跟踪方面,并且更适合评估任意长度的序列。最后,我们提供了几个基线来评估此新具有挑战性数据集的现有方法的状态。我们已将我们的数据集,公制,基准服务器和基准公开提供,并希望这将激发未来的研究。
translated by 谷歌翻译
我们呈现MSEG,该数据集统一来自不同域的语义分段数据集。由于分类和注释实践不一致,因此,构成数据集的天真合并产生了差的表现。我们通过在超过80,000张图像中重新标记超过220,000个对象掩码,需要超过1.34年的集体注释员努力,调整分类管理并将像素级注释带标记为超过220,000个对象掩码。生成的复合数据集使训练单个语义分段模型可以有效地跨域功能并推广到培训期间未见的数据集。我们采用零拍摄的跨数据集转移作为基准,以系统地评估模型的稳健性,并表明MSEG培训与在没有所提出的贡献的数据集的单个数据集或天真混合的情况下,产生了大量更强大的模型。在MSEG培训的模型首先在Wilddash-V1排行榜上排名为强大的语义细分,在训练期间没有暴露于野生垃圾数据。我们在2020年的强大视觉挑战(RVC)中评估我们的模型,作为一个极端的泛化实验。 MSEG培训集中仅包括RVC中的七个数据集中中的三个;更重要的是,RVC的评估分类是不同的,更详细。令人惊讶的是,我们的模型显示出竞争性能并排名第二。为了评估我们对强大,高效和完整的场景理解的宏伟目的的关机,我们通过使用我们的数据集进行训练实例分段和Panoptic Seation模型超越语义分割。此外,我们还评估了各种工程设计决策和度量,包括分辨率和计算效率。虽然我们的模型远非这一隆重目标,但我们的综合评价对于进步至关重要。我们与社区分享所有模型和代码。
translated by 谷歌翻译
Semantic understanding of visual scenes is one of the holy grails of computer vision. Despite efforts of the community in data collection, there are still few image datasets covering a wide range of scenes and object categories with pixel-wise annotations for scene understanding. In this work, we present a densely annotated dataset ADE20K, which spans diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. Totally there are 25k images of the complex everyday scenes containing a variety of objects in their natural spatial context. On average there are 19.5 instances and 10.5 object classes per image. Based on ADE20K, we construct benchmarks for scene parsing and instance segmentation. We provide baseline performances on both of the benchmarks and re-implement the state-ofthe-art models for open source. We further evaluate the effect of synchronized batch normalization and find that a reasonably large batch size is crucial for the semantic segmentation performance. We show that the networks trained on ADE20K are able to segment a wide variety of scenes and objects 1 .
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
We propose and study a task we name panoptic segmentation (PS). Panoptic segmentation unifies the typically distinct tasks of semantic segmentation (assign a class label to each pixel) and instance segmentation (detect and segment each object instance). The proposed task requires generating a coherent scene segmentation that is rich and complete, an important step toward real-world vision systems. While early work in computer vision addressed related image/scene parsing tasks, these are not currently popular, possibly due to lack of appropriate metrics or associated recognition challenges. To address this, we propose a novel panoptic quality (PQ) metric that captures performance for all classes (stuff and things) in an interpretable and unified manner. Using the proposed metric, we perform a rigorous study of both human and machine performance for PS on three existing datasets, revealing interesting insights about the task. The aim of our work is to revive the interest of the community in a more unified view of image segmentation.
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
本文介绍了提交给SHREC 2022坑道轨道和路面裂纹检测的方法。总共比较了道路表面的语义分割的7种不同的运行,参与者和基线方法的6个。所有方法都利用深度学习技术及其性能使用相同的环境(即:单个Jupyter笔记本)进行测试。由3836个语义细分图像/蒙版对组成的培训集和797个带有最新深度摄像机的RGB-D视频片段组成。然后,在验证集中的496个图像/掩码对上,测试集中的504对,最后在8个视频剪辑上评估该方法。结果的分析基于用于图像分割和视频剪辑定性分析的定量指标。参与和结果表明,该方案引起了人们的极大兴趣,在这种情况下,使用RGB-D数据仍然具有挑战性。
translated by 谷歌翻译