智能论文笔记

SolarDK: A high-resolution urban solar panel image classification and localization dataset

Maxim Khomiakov , Julius Holbech Radzikowski , Carl Anton Schmidt , Mathias Bonde Sørensen , Mads Andersen , Michael Riis Andersen , Jes Frellsen

分类：计算机视觉 | 机器学习

2022-12-02

The body of research on classification of solar panel arrays from aerial imagery is increasing, yet there are still not many public benchmark datasets. This paper introduces two novel benchmark datasets for classifying and localizing solar panel arrays in Denmark: A human annotated dataset for classification and segmentation, as well as a classification dataset acquired using self-reported data from the Danish national building registry. We explore the performance of prior works on the new benchmark dataset, and present results after fine-tuning models using a similar approach as recent works. Furthermore, we train models of newer architectures and provide benchmark baselines to our datasets in several scenarios. We believe the release of these datasets may improve future research in both local and global geospatial domains for identifying and mapping of solar panel arrays from aerial imagery. The data is accessible at https://osf.io/aj539/.

translated by 谷歌翻译

HyperionSolarNet: Solar Panel Detection from Aerial Images

Poonam Parhar , Ryan Sawasaki , Alberto Todeschini , Colorado Reed , Hossein Vahabi , Nathan Nusaputra , Felipe Vergara

分类：计算机视觉

2022-01-06

随着全球气候变化影响影响世界的影响，需要集体努力来减少温室气体排放。能源部门是气候变化的最大贡献者，许多努力集中在减少对碳源发电厂的依赖，并转向可再生能源，如太阳能。太阳能电池板位置的全面数据库对于协助分析师和政策制定者来说，在定义太阳能的进一步扩展方面的策略方面很重要。在本文中，我们专注于创建太阳能电池板的世界地图。我们识别给定地理区域内的太阳能电池板的位置和总表面积。我们使用深度学习方法来使用空中图像自动检测太阳能电池板位置及其表面积。该框架由使用具有语义分割模型的串联串联使用图像分类器的双分支模型组成的框架在我们创建的卫星图像的日数据集上培训。我们的作品提供了一种用于检测太阳能电池板的高效和可扩展的方法，实现分类的精度为0.96，并且对于分割性能，IOU分数为0.82。

translated by 谷歌翻译

What you get is not always what you see: pitfalls in solar array assessment using overhead imagery

Wei Hu , Kyle Bradbury , Jordan M. Malof , Boning Li , Bohao Huang , Artem Streltsov , K. Sydny Fujita , Ben Hoen

分类：计算机视觉

2019-02-28

小型太阳能光伏（PV）阵列中电网的有效集成计划需要访问高质量的数据：单个太阳能PV阵列的位置和功率容量。不幸的是，不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率，通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法，但根据研究，研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性，可能意味着报告的绩效评估过于乐观。异质性有多种形式，我们在这项工作中探讨了每种形式：空间聚集的水平，地面真理的验证，培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人，我们都会讨论文献中的新兴实践，以解决它们或暗示未来研究的方向。作为调查的一部分，我们评估了两个大区域的太阳PV识别性能。我们的发现表明，由于验证过程中的共同局限性，从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。

translated by 谷歌翻译

Discover the Mysteries of the Maya: Selected Contributions from the Machine Learning Challenge & The Discovery Challenge Workshop at ECML PKDD 2021

Dragi Kocev , Nikola Simidjievski , Ana Kostovska , Ivica Dimitrovski , Žiga Kokalj

分类：计算机视觉 | 人工智能 | 机器学习

2022-08-05

该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”，该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目（ECML PKDD 2021）中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试，除了关注整个古老的城市外，还集中在单个建筑物和结构上。最近，已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关，但却集中在狭窄的区域上，并依靠高质量的空中激光扫描（ALS）数据，该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面，由欧洲航天局（ESA）哨兵任务制作的卫星图像数据很丰富，更重要的是公开。旨在通过执行不同类型的卫星图像（Sentinel-1和Sentinel-2和ALS）的集成图像细分来定位和识别古老的Maya架构（建筑物，Aguadas和平台）的“发现和识别古代玛雅体系结构（建筑物，Aguadas和平台）的挑战的“发现和识别古老的玛雅体系结构（建筑物，阿吉达斯和平台）的“发现玛雅的奥秘”的挑战，（LIDAR）数据。

translated by 谷歌翻译

Current Trends in Deep Learning for Earth Observation: An Open-source Benchmark Arena for Image Classification

Ivica Dimitrovski , Ivan Kitanovski , Dragi Kocev , Nikola Simidjievski

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-14

我们提出“ AITLAS：基准竞技场” - 一个开源基准测试框架，用于评估地球观察中图像分类的最新深度学习方法（EO）。为此，我们介绍了从九种不同的最先进的体系结构得出的400多个模型的全面比较分析，并将它们与来自22个具有不同尺寸的数据集的各种多级和多标签分类任务进行比较和属性。除了完全在这些数据集上训练的模型外，我们还基于在转移学习的背景下训练的模型，利用预训练的模型变体，因为通常在实践中执行。所有提出的方法都是一般的，可以轻松地扩展到本研究中未考虑的许多其他遥感图像分类任务。为了确保可重复性并促进更好的可用性和进一步的开发，所有实验资源在内的所有实验资源，包括训练的模型，模型配置和数据集的处理详细信息（以及用于培训和评估模型的相应拆分）都在存储库上公开可用：HTTPS ：//github.com/biasvariancelabs/aitlas-arena。

translated by 谷歌翻译

Distribution-aware Margin Calibration for Semantic Segmentation in Images

Litao Yu , Zhibin Li , Min Xu , Yongsheng Gao , Jiebo Luo , Jian Zhang

分类：计算机视觉

2021-12-21

Jaccard索引，也称为交叉联盟（iou），是图像语义分段中最关键的评估度量之一。然而，由于学习目的既不可分解也不是可分解的，则iou得分的直接优化是非常困难的。虽然已经提出了一些算法来优化其代理，但没有提供泛化能力的保证。在本文中，我们提出了一种边缘校准方法，可以直接用作学习目标，在数据分布上改善IOO的推广，通过刚性下限为基础。本方案理论上，根据IOU分数来确保更好的分割性能。我们评估了在七个图像数据集中所提出的边缘校准方法的有效性，显示使用深度分割模型的其他学习目标的IOU分数大量改进。

translated by 谷歌翻译

TorchGeo: deep learning with geospatial data

Adam J. Stewart , Caleb Robinson , Isaac A. Corley , Anthony Ortiz , Juan M. Lavista Ferres , Arindam Banerjee

分类：计算机视觉 | 机器学习

2021-11-17

远程感知的地理空间数据对于包括精确农业，城市规划，灾害监测和反应以及气候变化研究等应用至关重要。对于在类似的计算机视觉任务中的深度神经网络的成功和可用的远程感测图像的纯粹体积的情况下，深入学习方法尤为前接受了许多遥感任务。然而，数据收集方法的方差和地理空间元数据的处理使得深度学习方法的应用成为远程感测的数据不动性。例如，卫星图像通常包括超出红色，绿色和蓝色的额外光谱频带，并且必须连接到可以具有不同坐标系，界限和分辨率的其他地理空间数据源。为了帮助实现遥感应用的深度学习的潜力，我们介绍了一个Pythono库的Torchgeo，用于将地理空间数据集成到Pytorch深度学习生态系统中。 Torchgeo为各种基准数据集，用于通用地理空间数据源的可组合数据集，用于地理空间数据的采样器以及使用多光谱图像的转换的数据加载器。 Torchgeo也是第一个为多光谱卫星图像提供预先训练的模型的库（例如，使用Sentinel 2卫星的所有频段的模型），允许在下游遥感任务上传输学习，其中包含有限的标记数据。我们使用Torchgeo在现有数据集上创建可重复的基准结果，并将我们的建议方法用于直通预处理地理空间图像。 Torchgeo是开源的，可在GitHub上提供：https://github.com/microsoft/torchgeo。

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

Unlocking large-scale crop field delineation in smallholder farming systems with transfer learning and weak supervision

Sherrie Wang , Francois Waldner , David B. Lobell

分类：计算机视觉

2022-01-13

作物现场边界有助于映射作物类型，预测产量，并向农民提供现场级分析。近年来，已经看到深深学习的成功应用于划定工业农业系统中的现场边界，但由于（1）需要高分辨率卫星图像的小型字段来解除界限和（2）缺乏（2）缺乏用于模型培训和验证的地面标签。在这项工作中，我们结合了转移学习和弱监督来克服这些挑战，我们展示了在印度的成功方法，我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入，预先列进法国界限的最先进的神经网络，以及印度标签上的微调，以实现0.86的联盟（iou）中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像，最好的模型可以实现0.72的中位数。实验还表明，法国的预训练减少了所需的印度现场标签的数量，以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型，以方便社区创建现场边界地图和新方法。

translated by 谷歌翻译

Improving Few-Shot Part Segmentation using Coarse Supervision

Oindrila Saha , Zezhou Cheng , Subhransu Maji

分类：计算机视觉

2022-04-11

在培训深层网络中进行部分分割的重要瓶颈是获得详细注释的成本。我们提出了一个框架，以利用粗糙标签，例如图形地面蒙版和关键点位置，这些位置容易用于某些类别以改善零件分割模型。一个关键的挑战是，这些注释是针对不同任务和不同的标签样式收集的，并且不能轻易地映射到零件标签上。为此，我们建议共同学习标签样式与部分分割模型之间的依赖关系，从而使我们能够利用来自不同标签的监督。为了评估我们的方法，我们在Caltech-UCSD鸟类和OID飞机数据集上开发了基准。我们的方法优于基于多任务学习，半监督学习和竞争方法的基准，这些方法依赖于手动设计的损失功能，以利用稀疏的supervision。

translated by 谷歌翻译

Evaluating Self and Semi-Supervised Methods for Remote Sensing Segmentation Tasks

Chaitanya Patel , Shashank Sharma , Varun Gulshan

分类：计算机视觉 | 机器学习

2021-11-19

我们对最近的自我和半监督ML技术进行严格的评估，从而利用未标记的数据来改善下游任务绩效，以河床分割的三个遥感任务，陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值，因为易于访问未标记的图像，并获得地面真理标签通常可以昂贵。当未标记的图像（标记数据集之外）提供培训时，我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性，当测试集相对于训练和验证集具有域移位时。

translated by 谷歌翻译

A Semantic Segmentation Network for Urban-Scale Building Footprint Extraction Using RGB Satellite Imagery

Aatif Jiwani , Shubhrakanti Ganguly , Chao Ding , Nan Zhou , David M. Chan

分类：计算机视觉

2021-04-02

城市地区消耗了世界上三分之二的能源，占全球二氧化碳排放量的70％以上。正如IPCC全球预热的1.5C报告所述，到2050年实现碳中型需要清楚地了解城市几何形状。卫星图像的高质量建筑占地面积可以加速这一预测过程和授权在规模上的授权市决策。然而，以前的深度学习的方法面临相应的问题，例如缩放不变性和缺陷的足迹，部分原因是由于持续存在的类别不平衡。此外，大多数方法都需要补充数据，例如点云数据，建筑物高度信息和多频段图像 - 这具有有限的可用性并且产生乏味。在本文中，我们提出了一种改进的Deeplabv3 +模块，其具有扩张的REN底座骨架，仅产生从三声道RGB卫星图像的建筑占地面积的掩模。此外，我们在客观函数中引入了F-Beta测量，以帮助模型账户进行偏斜类分布，并防止假阳性占地面积。除F-Beta之外，我们还纳入了指数加权的边界损失，并使用跨数据集培训策略来进一步提高预测的质量。因此，我们跨越三个公共基准实现最先进的表演，并证明我们的RGB方法产生更高质量的视觉结果，并且对卫星图像的规模，分辨率和城市密度不可知。

translated by 谷歌翻译

Mixed-domain Training Improves Multi-Mission Terrain Segmentation

Grace Vincent , Alice Yepremyan , Jingdao Chen , Edwin Goh

分类：计算机视觉

2022-09-27

行星漫游者任务必须利用基于机器学习的感知来继续发生地球外探索，几乎没有人类的存在。火星地形细分对于漫游车导航和避免危害至关重要，以执行进一步的探索性任务，例如土壤样品收集和寻找有机化合物。当前的火星地形细分模型需要大量标记的数据才能实现可接受的性能，还需要重新培训以在不同域中的部署，即不同的漫游者任务或不同的任务，即地质识别和导航。这项研究提出了一种半监督的学习方法，该方法利用了骨干的无监督对比度预处理，用于对火星表面的多效率语义分割。该模型将通过使用混合域训练套件来确保具有多样性的混合域训练套件，从而扩展到当前的火星分割能力，以便在不同的火星漫游者任务中部署以进行地形导航。使用平均像素精度的评估结果表明，与单个领域训练和监督培训相比，半监督的混合域方法通过达到火星科学实验室的好奇心漫游者的精度为97％，MARS 2020 Perseverance Perseverance Rover提高了精度。。此外，使用召回度量与标准的跨透镜损失相比，使用召回度量的损失功能提供不同的权重方法将对少数族裔或稀有类别的模型提高了30％以上。这些结果可以以数据效率的方式为Rover任务提供未来的多任务和多任务语义细分。

translated by 谷歌翻译

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick , Jeff Donahue , Trevor Darrell , Jitendra Malik

分类：

2013-11-11

Object detection performance, as measured on the canonical PASCAL VOC dataset, has plateaued in the last few years. The best-performing methods are complex ensemble systems that typically combine multiple low-level image features with high-level context. In this paper, we propose a simple and scalable detection algorithm that improves mean average precision (mAP) by more than 30% relative to the previous best result on VOC 2012-achieving a mAP of 53.3%. Our approach combines two key insights:(1) one can apply high-capacity convolutional neural networks (CNNs) to bottom-up region proposals in order to localize and segment objects and (2) when labeled training data is scarce, supervised pre-training for an auxiliary task, followed by domain-specific fine-tuning, yields a significant performance boost. Since we combine region proposals with CNNs, we call our method R-CNN: Regions with CNN features. We also compare R-CNN to OverFeat, a recently proposed sliding-window detector based on a similar CNN architecture. We find that R-CNN outperforms OverFeat by a large margin on the 200-class ILSVRC2013 detection dataset. Source code for the complete system is available at http://www.cs.berkeley.edu/ ˜rbg/rcnn.

translated by 谷歌翻译

Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep Learning

Alexandru Munteanu , Marian Neagul

分类：计算机视觉 | 人工智能

2022-09-28

近年来，地理空间行业一直在稳定发展。这种增长意味着增加卫星星座，每天都会产生大量的卫星图像和其他遥感数据。有时，这些信息，即使在某些情况下我们指的是公开可用的数据，由于它的大小，它也无法占据。从时间和其他资源的角度来看，借助人工或使用传统的自动化方法来处理如此大量的数据并不总是可行的解决方案。在目前的工作中，我们提出了一种方法，用于创建一个由公开可用的遥感数据组成的多模式和时空数据集，并使用ART机器学习（ML）技术进行可行性进行测试。确切地说，卷积神经网络（CNN）模型的用法能够分离拟议数据集中存在的不同类别的植被。在地理信息系统（GIS）和计算机视觉（CV）的背景下，类似方法的受欢迎程度和成功更普遍地表明，应考虑并进一步分析和开发方法。

translated by 谷歌翻译

Toward Foundation Models for Earth Monitoring: Proposal for a Climate Change Benchmark

Alexandre Lacoste , Evan David Sherwin , Hannah Kerner , Hamed Alemohammad , Björn Lütjens , Jeremy Irvin , David Dao , Alex Chang , Mehmet Gunturkun , Alexandre Drouin

分类：机器学习

2021-12-01

最近的自我监督进展表明，预先训练大量无监督数据的大型神经网络可能导致下游任务的概括令人印象深刻。这些模型最近被作为基础模型，一直转变为自然语言处理领域。虽然类似的模型也在大型图像的核心训练中，但它们不适合遥感数据。为刺激地球监测基础模型的发展，我们建议开发由与气候变化相关的各种下游任务组成的新基准。我们认为，这可能导致许多现有应用程序的大量改进，并促进新应用的发展。该提案还可以提出合作，并提出更好的评估过程，以减轻地球监测的基础模型的潜在缺陷。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Sparsely Annotated Object Detection: A Region-based Semi-supervised Approach

Sai Saketh Rambhatla , Saksham Suri , Rama Chellappa , Abhinav Shrivastava

分类：计算机视觉

2022-01-12

研究表明，当训练数据缺少注释时，对象检测器的性能下降，即稀疏注释数据。当代方法专注于缺少地面实话注释的代理，无论是伪标签的形式还是通过在训练期间重新称重梯度。在这项工作中，我们重新审视了稀疏注释物体检测的制定。我们观察到稀疏注释的物体检测可以被认为是区域级的半监督对象检测问题。在此洞察力上，我们提出了一种基于区域的半监督算法，它自动识别包含未标记的前景对象的区域。我们的算法然后以不同的方式处理标记和未标记的前景区域，在半监督方法中进行常见做法。为了评估所提出的方法的有效性，我们对普斯卡尔库尔和可可数据集的稀疏注释方法常用的五种分裂进行详尽的实验，并实现最先进的性能。除此之外，我们还表明，我们的方法在标准半监督设置上实现了竞争性能，证明了我们的方法的实力和广泛适用性。

translated by 谷歌翻译

Revisiting Unreasonable Effectiveness of Data in Deep Learning Era

Chen Sun , Abhinav Shrivastava , Saurabh Singh , Abhinav Gupta

分类：

2017-07-10

The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there have been significant advances in representation capabilities of the models and computational capabilities of GPUs. But the size of the biggest dataset has surprisingly remained constant. What will happen if we increase the dataset size by 10× or 100×? This paper takes a step towards clearing the clouds of mystery surrounding the relationship between 'enormous data' and visual deep learning. By exploiting the JFT-300M dataset which has more than 375M noisy labels for 300M images, we investigate how the performance of current vision tasks would change if this data was used for representation learning. Our paper delivers some surprising (and some expected) findings. First, we find that the performance on vision tasks increases logarithmically based on volume of training data size. Second, we show that representation learning (or pretraining) still holds a lot of promise. One can improve performance on many vision tasks by just training a better base model. Finally, as expected, we present new state-of-theart results for different vision tasks including image classification, object detection, semantic segmentation and human pose estimation. Our sincere hope is that this inspires vision community to not undervalue the data and develop collective efforts in building larger datasets.

translated by 谷歌翻译

A diverse large-scale building dataset and a novel plug-and-play domain generalization method for building extraction

Muying Luo , Shunping Ji , Shiqing Wei

分类：计算机视觉

2022-08-22

在本文中，我们介绍了一个新的建筑数据集，并提出了一种新颖的域泛化方法，以促进从高分辨率遥感图像中提取建筑物的开发。当前建筑数据集的问题涉及它们缺乏多样性，标签的质量不令人满意，并且几乎不用于培训具有良好概括能力的建筑提取模型，以便正确地评估模型在实践中的真实性能场景。为了解决这些问题，我们建立了一个名为WHU-MIX建筑数据集的多样化，大规模和高质量的建筑数据集，该数据集更加面向实践。 WHU-MIX建筑物数据集由一个培训/验证集组成，该培训/验证集包含来自世界各地的43,727个不同图像，以及一个测试集，其中包含来自五大洲其他五个城市的8402张图像。此外，为了进一步提高建筑物提取模型的概括能力，我们提出了一种名为批处理样式混合（BSM）的域概括方法，该方法可以嵌入建筑物的frond-end中，以嵌入为有效的插件模块提取模型，为模型提供逐渐更大的数据分布，以学习数据不变知识。这项研究中进行的实验证实了WHU-MIX建筑数据集的潜力，以提高建筑物提取模型的性能，与其他现有数据集相比，MIOU提高了6-36％。其他数据集中标签不准确的不利影响可能会导致约20％的IOU减少。该实验还证实了所提出的BSM模块在增强模型的概括能力和鲁棒性方面的高性能，超过了13％的基线模型，而MIOU中最新的域概括方法则超过了4-15％。

translated by 谷歌翻译