智能论文笔记

A crowdsourced dataset of aerial images with annotated solar photovoltaic arrays and installation metadata

Gabriel Kasmi , Yves-Marie Saint-Drenan , David Trebosc , Raphaël Jolivet , Jonathan Leloux , Babacar Sarr , Laurent Dubus

分类：计算机视觉

2022-09-08

光伏（PV）能量产生在能量转变中起着至关重要的作用。小规模的PV安装以空前的速度部署，并且它们在电网中的集成可能会具有挑战性，因为公共当局通常缺乏有关它们的质量数据。越来越多的机器学习模型能够自动映射这些安装，越来越多地用于改善住宅PV安装的知识。但是，由于图像采集的差异，这些模型不能轻易地从一个区域或数据源转移到另一个区域。为了解决此问题，称为域移动并促进了PV阵列映射管道的开发，我们提出了一个包含空中图像，注释和分割掩码的数据集。我们为28,000多个安装提供安装元数据。我们为13,000个装置提供地面真理细分面具，其中包括7,000个带有两个不同图像提供商的注释。最后，我们提供了与8,000多个安装的注释相匹配的安装元数据。数据集应用程序包括端到端的PV注册表构建，强大的PV安装映射以及众包数据集的分析。

translated by 谷歌翻译

What you get is not always what you see: pitfalls in solar array assessment using overhead imagery

Wei Hu , Kyle Bradbury , Jordan M. Malof , Boning Li , Bohao Huang , Artem Streltsov , K. Sydny Fujita , Ben Hoen

分类：计算机视觉

2019-02-28

小型太阳能光伏（PV）阵列中电网的有效集成计划需要访问高质量的数据：单个太阳能PV阵列的位置和功率容量。不幸的是，不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率，通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法，但根据研究，研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性，可能意味着报告的绩效评估过于乐观。异质性有多种形式，我们在这项工作中探讨了每种形式：空间聚集的水平，地面真理的验证，培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人，我们都会讨论文献中的新兴实践，以解决它们或暗示未来研究的方向。作为调查的一部分，我们评估了两个大区域的太阳PV识别性能。我们的发现表明，由于验证过程中的共同局限性，从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。

translated by 谷歌翻译

DeepSolar tracker: towards unsupervised assessment with open-source data of the accuracy of deep learning-based distributed PV mapping

Gabriel Kasmi , Laurent Dubus , Philippe Blanc , Yves-Marie Saint-Drenan

分类：计算机视觉

2022-07-15

光伏（PV）能量是缓解当前能源危机的关键。但是，分布式PV的生成（占PV能源生成的一半）使传输系统运营商（TSO）越来越难以平衡负载和供应并避免电网拥塞。实际上，在没有测量的情况下，估计分布式PV的产生是艰难的。近年来，已经提出了许多基于遥感的方法来绘制分布式的PV安装。但是，要适用于工业环境，需要评估整个部署领域的映射的准确性。我们以现有工作为基础提出自动PV注册管道。该管道会自动生成一个数据集，记录所有分布式PV安装的位置，区域，安装容量和倾斜角度。它仅需要航空矫形器和拓扑数据，这两者都可以在线自由访问。为了评估注册表的准确性，我们提出了一种基于{\ it Ingistre national d'Enstallation}（RNI）的无监督方法，该方法集中了所有在公共层面汇总的单个PV系统，使从业者能够评估从业者评估的准确性注册表并最终删除异常值。我们将模型部署在9个法语{\ it d \'epartements}上，覆盖超过50 000平方公里，为迄今为止的细节提供了最大的分布式光伏面板的映射。然后，我们演示了从业者如何使用我们的无监督精度评估方法来评估产出的准确性。特别是，我们展示了它如何轻松识别检测中的异常值。总体而言，我们的方法为将基于深度学习的管道用于远程光伏映射的更安全集成为您铺平了道路。代码可在{\ tt https://github.com/gabrielkasmi/dsfrance}上获得。

translated by 谷歌翻译

Analyzing social media with crowdsourcing in Crowd4SDG

Carlo Bono , Mehmet Oğuz Mülâyim , Cinzia Cappiello , Mark Carman , Jesus Cerquides , Jose Luis Fernandez-Marquez , Rosy Mondardini , Edoardo Ramalli , Barbara Pernici

分类：人工智能

2022-08-04

社交媒体有可能提供有关紧急情况和突然事件的及时信息。但是，在每天发布的数百万帖子中找到相关信息可能很困难，并且开发数据分析项目通常需要时间和技术技能。这项研究提出了一种为分析社交媒体的灵活支持的方法，尤其是在紧急情况下。引入了可以采用社交媒体分析的不同用例，并讨论了从大量帖子中检索信息的挑战。重点是分析社交媒体帖子中包含的图像和文本，以及一组自动数据处理工具，用于过滤，分类和使用人类的方法来支持数据分析师的内容。这种支持包括配置自动化工具的反馈和建议，以及众包收集公民的投入。通过讨论Crowd4SDG H2020欧洲项目中开发的三个案例研究来验证结果。

translated by 谷歌翻译

xView3-SAR: Detecting Dark Fishing Activity Using Synthetic Aperture Radar Imagery

Fernando Paolo , Tsu-ting Tim Lin , Ritwik Gupta , Bryce Goodman , Nirav Patel , Daniel Kuster , David Kroodsma , Jared Dunnmon

分类：计算机视觉

2022-06-02

全世界不可持续的捕鱼实践对海洋资源和生态系统构成了重大威胁。识别逃避监测系统的船只（称为“深色船只”）是管理和保护海洋环境健康的关键。随着基于卫星的合成孔径雷达（SAR）成像和现代机器学习（ML）的兴起，现在可以在全天候条件下白天或黑夜自动检测到黑暗的容器。但是，SAR图像需要特定于域的治疗，并且ML社区无法广泛使用。此外，对象（船只）是小而稀疏的，具有挑战性的传统计算机视觉方法。我们提出了用于训练ML模型的最大标记数据集，以检测和表征SAR的血管。 XView3-SAR由Sentinel-1任务中的近1,000张分析SAR图像组成，平均每个29,400 x-24,400像素。使用自动化和手动分析的组合对图像进行注释。每个SAR图像都伴随着共置的测深和风状射手。我们概述了XView3计算机视觉挑战的结果，这是一项国际竞争，使用XView3-SAR进行大规模的船舶检测和表征。我们发布数据（https://iuu.xview.us/）和代码（https://github.com/diux-xview），以支持该重要应用程序的ML方法的持续开发和评估。

translated by 谷歌翻译

NRC-GAMMA: Introducing a Novel Large Gas Meter Image Dataset

Ashkan Ebadi , Patrick Paul , Sofia Auer , Stéphane Tremblay

分类：计算机视觉 | 人工智能 | 机器学习

2021-11-12

自动抄表技术尚未普遍。燃气，电或水积米读数主要由运营商或房主手动完成。在一些国家，操作员将拍照作为阅读证据，以通过与另一个运营商的离线检查和/或在发生冲突或投诉的情况下作为证据来确认阅读。整个过程是耗时，昂贵的，容易出错。自动化可以优化和促进这种劳动密集型和人类错误的过程。随着近期人工智能和计算机视野领域的进步，自动抄表系统比以往任何时候都变得越来越可行。最近在人工智能领域的近期进步，并受研究界的开源开放访问举措的启发，我们介绍了一个名为NRC-Gamma数据集的现实寿命燃气表图像的新型大型基准数据集。在2020年1月20日，在00:05 AM和11:59 PM之间，从Itron 400A隔膜煤气表收集数据。我们使用系统的方法来标记图像，验证标签，并确保注释的质量。数据集包含整个煤气表的28,883个图像以及左侧和右拨号显示器的57,766次裁剪图像。我们希望NRC-Gamma DataSet有助于研究界设计和实施准确，创新，智能，可重复的自动燃气表阅读解决方案。

translated by 谷歌翻译

Mapping industrial poultry operations at scale with deep learning and aerial imagery

Caleb Robinson , Ben Chugg , Brandon Anderson , Juan M. Lavista Ferres , Daniel E. Ho

分类：计算机视觉 | 机器学习

2021-12-21

集中的动物饲养业务（CAFOS）对空气，水和公共卫生构成严重风险，但已被证明挑战规范。美国政府问责办公室注意到基本挑战是缺乏关于咖啡馆的全面的位置信息。我们使用美国农业部的国家农产病程（Naip）1M / Pixel Acial Imagerery来检测美国大陆的家禽咖啡馆。我们培养卷积神经网络（CNN）模型来识别单个家禽谷仓，并将最佳表现模型应用于超过42 TB的图像，以创建家禽咖啡座的第一个国家开源数据集。我们验证了来自加利福尼亚州的10个手标县的家禽咖啡馆设施的模型预测，并证明这种方法具有填补环境监测中差距的显着潜力。

translated by 谷歌翻译

Guided interactive image segmentation using machine learning and color based data set clustering

Adrian Friebel , Tim Johann , Dirk Drasdo , Stefan Hoehme

分类：计算机视觉

2020-05-15

我们提出了一种新颖的方法，该方法将基于机器学习的交互式图像分割结合在一起，使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法，从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题，并且在生物学和医学图像中通常不可避免，这通常会导致分割恶化和量化精度，从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化，从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型，并代表通常用于图像分析任务的有用工具。

translated by 谷歌翻译

Developing a Free and Open-source Automated Building Exterior Crack Inspection Software for Construction and Facility Managers

Pi Ko , Samuel A. Prieto , Borja Garcia de Soto

分类：计算机视觉 | 人工智能

2022-06-20

检查裂缝是正确监视和维护建筑物的重要过程。但是，手动裂缝检查是耗时，不一致且危险的（例如，在高建筑物中）。由于开源AI技术的开发，可用的无人机（UAV）的增加以及智能手机摄像机的可用性，已经有可能自动化建筑物裂纹检查过程。这项研究介绍了使用最先进的分段算法来开发一种易于使用，免费和开源的自动化建筑物外部裂纹检查软件（ABECIS），用于建筑和设施经理定量和定性报告。使用在现实世界中的无人机和智能手机摄像机和受控实验室环境中收集的图像对Abecis进行了测试。从算法的原始输出来看，用于测试实验的工会上的中值相交是（1）0.686，用于使用商业无人机在受控的实验室环境中使用商业无人机在室内裂纹检测实验，（2）0.186，用于使用室内裂纹检测在施工现场检测的室内裂纹。智能手机和（3）0.958使用商业无人机在大学校园进行户外裂纹检测。当人类操作员选择性地消除误报时，这些IOU结果可以显着提高到0.8以上。通常，Abecis最适合室外无人机图像，将算法预测与人类验证/干预相结合提供非常准确的裂纹检测结果。该软件可公开可用，可以下载以供开箱即用：https：//github.com/smart-nyuad/abecis

translated by 谷歌翻译

S2Looking: A Satellite Side-Looking Dataset for Building Change Detection

Li Shen , Yao Lu , Hao Chen , Hao Wei , Donghai Xie , Jiabao Yue , Rui Chen , Shouye Lv , Bitao Jiang

分类：计算机视觉 | 人工智能

2021-07-20

建筑变更检测是许多重要应用，特别是在军事和危机管理领域。最近用于变化检测的方法已转向深度学习，这取决于其培训数据的质量。因此，大型注释卫星图像数据集的组装对于全球建筑更改监视是必不可少的。现有数据集几乎完全提供近Nadir观看角度。这限制了可以检测到的更改范围。通过提供更大的观察范围，光学卫星的滚动成像模式提出了克服这种限制的机会。因此，本文介绍了S2Looking，一个建筑变革检测数据集，其中包含以各种偏离Nadir角度捕获的大规模侧视卫星图像。 DataSet由5000个批次图像对组成的农村地区，并在全球范围内超过65,920个辅助的变化实例。数据集可用于培训基于深度学习的变更检测算法。它通过提供（1）更大的观察角来扩展现有数据集; （2）大照明差异; （3）额外的农村形象复杂性。为了便于{该数据集的使用，已经建立了基准任务，并且初步测试表明，深度学习算法发现数据集明显比最接近的近Nadir DataSet，Levir-CD +更具挑战性。因此，S2Looking可能会促进现有的建筑变革检测算法的重要进步。 DataSet可在https://github.com/s2looking/使用。

translated by 谷歌翻译

The RETA Benchmark for Retinal Vascular Tree Analysis

Xingzheng Lyu , Li Cheng , Sanyuan Zhang

分类：计算机视觉

2021-11-23

视网膜血管的拓扑和几何分析是早期检测许多常见疾病的成本效益。同时，在泛化能力方面仍然缺乏自动化血管分割和血管树分析。在这项工作中，我们构建了一种新的基准Reta，其中81个标记的船舶掩模，旨在促进视网膜血管分析。提出了一种半自动粗到精细的工作流到注释血管像素。在数据集建设期间，我们通过对自发专用软件进行多级注释和标签歧义来控制注释器间可变性和内部注入者的变化。除了二元血管面罩外，我们还获得了血管标记期间含有动脉/静脉面罩，血管骨骼，分叉，树木和异常的血管注释。标记船面罩的主观和客观质量验证都表现出在其他公共数据集上的显着提高。注释软件也公开可用于船舶注释可视化。用户可以使用我们的数据集开发船只分段算法或评估船只分段性能。此外，我们的数据集可能是跨型号管状结构分割的良好研究来源。

translated by 谷歌翻译

FathomNet: A global image database for enabling artificial intelligence in the ocean

Kakani Katija , Eric Orenstein , Brian Schlining , Lonny Lundsten , Kevin Barnard , Giovanna Sainz , Oceane Boulais , Megan Cromwell , Erin Butler , Benjamin Woodward

分类：计算机视觉 | 机器学习

2021-09-29

海洋正在经历前所未有的快速变化，在负责任管理所需的时空尺度上，视觉监测海洋生物群是一项艰巨的任务。由于研究界寻求基准，因此所需的数据收集的数量和速率迅速超过了我们处理和分析它们的能力。机器学习的最新进展可以对视觉数据进行快速，复杂的分析，但由于缺乏数据标准化，格式不足以及对大型标签数据集的需求，在海洋中取得了有限的成功。为了满足这一需求，我们构建了Fathomnet，这是一个开源图像数据库，该数据库标准化和汇总了经过精心策划的标记数据。 Fathomnet已被海洋动物，水下设备，碎片和其他概念的现有标志性和非偶像图像所播种，并允许分布式数据源的未来贡献。我们展示了如何使用Fathomnet数据在其他机构视频上训练和部署模型，以减少注释工作，并在与机器人车辆集成时启用自动跟踪水下概念。随着Fathomnet继续增长并结合了社区的更多标记数据，我们可以加速视觉数据以实现健康且可持续的全球海洋。

translated by 谷歌翻译

Echofilter: A Deep Learning Segmentation Model Improves the Automation, Standardization, and Timeliness for Post-Processing Echosounder Data in Tidal Energy Streams

Scott C. Lowe , Louise P. McGarry , Jessica Douglas , Jason Newport , Sageev Oore , Christopher Whidden , Daniel J. Hasselman

分类：机器学习 | 计算机视觉

2022-02-19

了解潮汐能流中鱼类的丰度和分布对于评估通过向栖息地引入潮汐能设备所带来的风险很重要。但是，适合潮汐能的潮汐电流流量通常是高度湍流的，这使回声器数据的解释变得复杂。必须从用于生物分析的数据中排除受夹带空气回报污染的水柱的部分。应用单个常规算法来识别夹带的空气的深度不足，对于不连续，深度动态，多孔的边界而言，随着潮流流速而变化。使用Fundy湾的潮汐能示威场所进行的案例研究，我们描述了具有基于U-NET的体系结构的深机学习模型的开发和应用。我们的模型Echofilter对湍流条件的动态范围高度响应，并且对边界位置的细微差别敏感，产生了夹带的空气边界线，在移动下降方面的平均误差为0.33亿，并且在移动下降范围内为0.5-1.5-1.0m关于固定的上调数据，不到现有算法解决方案的一半。该模型的整体注释与人类细分有很高的一致性，移动下降记录的联合会得分为99％，而固定的上方录音记录为92-95％。与手动编辑当前可用算法所需的线路位置所需的时间相比，手动编辑所需的时间减少了50％。由于最初的自动放置的改进，模型的实现允许提高线路位置的标准化和可重复性。

translated by 谷歌翻译

JEMMA: An Extensible Java Dataset for ML4Code Applications

Anjan Karmakar , Miltiadis Allamanis , Romain Robbes

分类：机器学习

2022-12-18

Machine Learning for Source Code (ML4Code) is an active research field in which extensive experimentation is needed to discover how to best use source code's richly structured information. With this in mind, we introduce JEMMA, an Extensible Java Dataset for ML4Code Applications, which is a large-scale, diverse, and high-quality dataset targeted at ML4Code. Our goal with JEMMA is to lower the barrier to entry in ML4Code by providing the building blocks to experiment with source code models and tasks. JEMMA comes with a considerable amount of pre-processed information such as metadata, representations (e.g., code tokens, ASTs, graphs), and several properties (e.g., metrics, static analysis results) for 50,000 Java projects from the 50KC dataset, with over 1.2 million classes and over 8 million methods. JEMMA is also extensible allowing users to add new properties and representations to the dataset, and evaluate tasks on them. Thus, JEMMA becomes a workbench that researchers can use to experiment with novel representations and tasks operating on source code. To demonstrate the utility of the dataset, we also report results from two empirical studies on our data, ultimately showing that significant work lies ahead in the design of context-aware source code models that can reason over a broader network of source code entities in a software project, the very task that JEMMA is designed to help with.

translated by 谷歌翻译

CSAW-M: An Ordinal Classification Dataset for Benchmarking Mammographic Masking of Cancer

Moein Sorkhei , Yue Liu , Hossein Azizpour , Edward Azavedo , Karin Dembrower , Dimitra Ntoula , Athanasios Zouzos , Fredrik Strand , Kevin Smith

分类：计算机视觉 | 机器学习

2021-12-02

由于筛选乳房X线照片的假阴性评估，通常在晚期检测到与其他癌症更差的间隔和大型侵入性乳腺癌。错过的筛选时间检测通常由其周围乳腺组织模糊的肿瘤引起的，这是一种称为掩蔽的现象。为了研究和基准爆发癌症的乳房Xmmpare掩蔽，在这项工作中，我们引入CSAW-M，最大的公共乳房数据集，从10,000多个人收集并用潜在的掩蔽注释。与以前的方法对比测量乳房图像密度作为代理的方法，我们的数据集直接提供了五个专家屏蔽潜在评估的注释。我们还培训了CSAW-M的深入学习模型来估计掩蔽水平，并显示估计的掩蔽更加预测筛查患有间隔和大型侵入性癌症的参与者 - 而不是明确培训这些任务 - 而不是其乳房密度同行。

translated by 谷歌翻译

Unlocking large-scale crop field delineation in smallholder farming systems with transfer learning and weak supervision

Sherrie Wang , Francois Waldner , David B. Lobell

分类：计算机视觉

2022-01-13

作物现场边界有助于映射作物类型，预测产量，并向农民提供现场级分析。近年来，已经看到深深学习的成功应用于划定工业农业系统中的现场边界，但由于（1）需要高分辨率卫星图像的小型字段来解除界限和（2）缺乏（2）缺乏用于模型培训和验证的地面标签。在这项工作中，我们结合了转移学习和弱监督来克服这些挑战，我们展示了在印度的成功方法，我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入，预先列进法国界限的最先进的神经网络，以及印度标签上的微调，以实现0.86的联盟（iou）中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像，最好的模型可以实现0.72的中位数。实验还表明，法国的预训练减少了所需的印度现场标签的数量，以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型，以方便社区创建现场边界地图和新方法。

translated by 谷歌翻译

3D Labeling Tool

John Rachwan , Charbel Zalaket

分类：计算机视觉 | 人工智能

2022-07-23

培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置，形状以及可能的其他信息，例如姿势。即使存在人力，标签过程也非常耗时。我们引入了一个新的标签工具，用于2D图像以及3D三角网格：3D标记工具（3DLT）。这是一个独立的，功能丰富和跨平台软件，不需要安装，并且可以在Windows，MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象，而是使用深度信息从上述图像重建三角形网格，并仅在上述网格上标记一次对象。我们使用注册来简化3D标记，离群值检测来改进2D边界框的计算和表面重建，以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试，并且在保持准确性和易用性的同时，它极大地超过了它们。

translated by 谷歌翻译

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions

Jennifer J. Sun , Tomomi Karigo , Dipam Chakraborty , Sharada P. Mohanty , Benjamin Wild , Quan Sun , Chen Chen , David J. Anderson , Pietro Perona , Yisong Yue

分类：机器学习 | 计算机视觉

2021-04-06

多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学，Caltech鼠标社交交互（CALMS21）数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成，从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究，CALMS21数据集提供基准，以评估三种设置中自动行为分类方法的性能：（1）用于培训由单个注释器的所有注释，（2）用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和（3）的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成，以及超过100万帧，具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类，以及能够概括新设置。

translated by 谷歌翻译

SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning

Christopher Yeh , Chenlin Meng , Sherrie Wang , Anne Driscoll , Erik Rozi , Patrick Liu , Jihyeon Lee , Marshall Burke , David B. Lobell , Stefano Ermon

分类：机器学习 | 计算机视觉

2021-11-08

对联合国可持续发展目标的进展（SDGS）因关键环境和社会经济指标缺乏数据而受到阻碍，其中历史上有稀疏时间和空间覆盖率的地面调查。机器学习的最新进展使得可以利用丰富，频繁更新和全球可用的数据，例如卫星或社交媒体，以向SDGS提供洞察力。尽管有希望的早期结果，但到目前为止使用此类SDG测量数据的方法在很大程度上在不同的数据集或使用不一致的评估指标上进行了评估，使得难以理解的性能是改善，并且额外研究将是最丰富的。此外，处理卫星和地面调查数据需要域知识，其中许多机器学习群落缺乏。在本文中，我们介绍了3个SDG的3个基准任务的集合，包括与经济发展，农业，健康，教育，水和卫生，气候行动和陆地生命相关的任务。 15个任务中的11个数据集首次公开发布。我们为Acceptandbench的目标是（1）降低机器学习界的进入的障碍，以促进衡量和实现SDGS; （2）提供标准基准，用于评估各种SDG的任务的机器学习模型; （3）鼓励开发新颖的机器学习方法，改进的模型性能促进了对SDG的进展。

translated by 谷歌翻译

SegmentMeIfYouCan: A Benchmark for Anomaly Segmentation

Robin Chan , Krzysztof Lis , Svenja Uhlemeyer , Hermann Blum , Sina Honari , Roland Siegwart , Pascal Fua , Mathieu Salzmann , Matthias Rottmann

分类：计算机视觉

2021-04-30

最先进的语义或实例分割深度神经网络（DNN）通常在封闭的语义类上培训。因此，它们的装备不适用于处理以前的未持续的对象。然而，检测和定位这些物体对于安全关键应用至关重要，例如对自动驾驶的感知，特别是如果它们出现在前方的道路上。虽然某些方法已经解决了异常或分发的对象分割的任务，但由于缺乏固体基准，在很大程度上存在进展仍然缓慢;现有数据集由合成数据组成，或遭受标签不一致。在本文中，我们通过介绍“SegmentMeifyOUCAN”基准来弥合这个差距。我们的基准解决了两个任务：异常对象分割，这将考虑任何以前的未持续的对象类别;和道路障碍分割，它侧重于道路上的任何物体，可能是已知的或未知的。我们将两个相应的数据集与执行深入方法分析的测试套件一起提供，考虑到已建立的像素 - 明智的性能度量和最近的组件 - 明智的，这对对象尺寸不敏感。我们凭经验评估了多种最先进的基线方法，包括使用我们的测试套件在我们的数据集和公共数据上专门为异常/障碍分割而设计的多种型号。异常和障碍分割结果表明，我们的数据集有助于数据景观的多样性和难度。

translated by 谷歌翻译