从合成孔径雷达(SAR)图像建立高度检索,对于城市应用来说,对于城市应用来说,对于SAR数据的复杂性来说,这一极为重视。本文从单个Terrasar-X Spotlight或Stribmap图像中解决了大型城市地区建立高度检索问题的问题。基于雷达观看几何形状,我们提出该问题可以作为边界框回归问题制定,因此允许将高度数据集成在更大的规模上生成地面真实。我们从地理信息系统(GIS)数据中的建筑占用脚印作为互补信息,并提出了一种限制框回归网络,该网络利用建筑物占地面积与其边界框之间的位置关系,允许快速计算。这对于大型应用来说很重要。在高分辨率聚光灯和RILTMAP模式下,使用Terrasar-X图像在四个城市数据集上验证该方法。实验结果表明,与基于速度的R-CNN的方法相比,所提出的网络可以显着降低计算成本,同时保持各个建筑物的高度精度。此外,我们调查了GIS数据对我们所提出的网络的影响,并且本研究表明边界框回归网络对GIS数据中的定位误差具有稳健。该方法具有适用于区域甚至全球范围的潜力。
translated by 谷歌翻译
最初在具有基于图像的图像的机器人和自主驾驶等领域开发的领域,基于图像的单图像深度估计(侧面)发现了对更广泛的图像分析界的兴趣。遥感也不例外,因为在地形重建的背景下估计来自单个空中或卫星图像的高度地图的可能性很大。少数开创性的调查已经证明了从光学遥感图像的单个图像高度预测的一般可行性,并激发了这种方向的进一步研究。借鉴了本文,我们介绍了对遥感中的其他重要传感器模式的基于深度学习的单图像高度预测的第一次演示:合成孔径雷达(SAR)数据。除了用于SAR强度图像的卷积神经网络(CNN)架构的适应外,我们还为不同SAR成像模式和测试站点提供了用于生成训练数据的工作流程,以及广泛的实验结果。由于我们特别强调可转换性,我们能够确认基于深度的学习的单图像高度估计不仅可能,而且也是不可能的,而且也转移到未经看的数据,即使通过不同的成像模式和成像参数获取。
translated by 谷歌翻译
现代光学卫星传感器使高分辨率立体声重建。但是在观察地球从空间推动立体声匹配时挑战成像条件。在实践中,由此产生的数字表面模型(DSM)相当嘈杂,并且通常不会达到3D城市建模等高分辨率应用所需的准确性。可以说,基于低电平图像相似性的立体声对应不足,并且应该互补关于超出基本局部平滑度的预期表面几何的先验知识。为此,我们介绍了Resptepth,这是一个卷积神经网络,其在示例数据之前学习如此表达几何。 Restepth在调节图像上的细化时改进初始原始的立体声DSM。即,它充当了一个智能,学习的后处理过滤器,可以无缝地补充任何立体声匹配管道。在一系列实验中,我们发现所提出的方法始终如一地改善了定量和定性的立体声DSM。我们表明,网络权重中的先前编码捕获了城市设计的有意义的几何特征,这也概括了不同地区,甚至从一个城市到另一个城市。此外,我们证明,通过对各种立体对的训练,RESPTH可以在成像条件和采集几何体中获得足够的不变性。
translated by 谷歌翻译
全球城市可免费获得大量的地理参考全景图像,以及各种各样的城市物体上的位置和元数据的详细地图。它们提供了有关城市物体的潜在信息来源,但是对象检测的手动注释是昂贵,费力和困难的。我们可以利用这种多媒体来源自动注释街道级图像作为手动标签的廉价替代品吗?使用Panorams框架,我们引入了一种方法,以根据城市上下文信息自动生成全景图像的边界框注释。遵循这种方法,我们仅以快速自动的方式从开放数据源中获得了大规模的(尽管嘈杂,但都嘈杂,但对城市数据集进行了注释。该数据集涵盖了阿姆斯特丹市,其中包括771,299张全景图像中22个对象类别的1400万个嘈杂的边界框注释。对于许多对象,可以从地理空间元数据(例如建筑价值,功能和平均表面积)获得进一步的细粒度信息。这样的信息将很难(即使不是不可能)单独根据图像来获取。为了进行详细评估,我们引入了一个有效的众包协议,用于在全景图像中进行边界框注释,我们将其部署以获取147,075个地面真实对象注释,用于7,348张图像的子集,Panorams-clean数据集。对于我们的Panorams-Noisy数据集,我们对噪声以及不同类型的噪声如何影响图像分类和对象检测性能提供了广泛的分析。我们可以公开提供数据集,全景噪声和全景清洁,基准和工具。
translated by 谷歌翻译
Deep learning based methods have significantly boosted the study of automatic building extraction from remote sensing images. However, delineating vectorized and regular building contours like a human does remains very challenging, due to the difficulty of the methodology, the diversity of building structures, and the imperfect imaging conditions. In this paper, we propose the first end-to-end learnable building contour extraction framework, named BuildMapper, which can directly and efficiently delineate building polygons just as a human does. BuildMapper consists of two main components: 1) a contour initialization module that generates initial building contours; and 2) a contour evolution module that performs both contour vertex deformation and reduction, which removes the need for complex empirical post-processing used in existing methods. In both components, we provide new ideas, including a learnable contour initialization method to replace the empirical methods, dynamic predicted and ground truth vertex pairing for the static vertex correspondence problem, and a lightweight encoder for vertex information extraction and aggregation, which benefit a general contour-based method; and a well-designed vertex classification head for building corner vertices detection, which casts light on direct structured building contour extraction. We also built a suitable large-scale building dataset, the WHU-Mix (vector) building dataset, to benefit the study of contour-based building extraction methods. The extensive experiments conducted on the WHU-Mix (vector) dataset, the WHU dataset, and the CrowdAI dataset verified that BuildMapper can achieve a state-of-the-art performance, with a higher mask average precision (AP) and boundary AP than both segmentation-based and contour-based methods.
translated by 谷歌翻译
遵循机器视觉系统在线自动化质量控制和检查过程的成功之后,这项工作中为两个不同的特定应用提供了一种对象识别解决方案,即,在医院准备在医院进行消毒的手术工具箱中检测质量控制项目,以及检测血管船体中的缺陷,以防止潜在的结构故障。该解决方案有两个阶段。首先,基于单镜头多伯克斯检测器(SSD)的特征金字塔体系结构用于改善检测性能,并采用基于地面真实的统计分析来选择一系列默认框的参数。其次,利用轻量级神经网络使用回归方法来实现定向检测结果。该方法的第一阶段能够检测两种情况下考虑的小目标。在第二阶段,尽管很简单,但在保持较高的运行效率的同时,检测细长目标是有效的。
translated by 谷歌翻译
在本文中,我们介绍了一个新的建筑数据集,并提出了一种新颖的域泛化方法,以促进从高分辨率遥感图像中提取建筑物的开发。当前建筑数据集的问题涉及它们缺乏多样性,标签的质量不令人满意,并且几乎不用于培训具有良好概括能力的建筑提取模型,以便正确地评估模型在实践中的真实性能场景。为了解决这些问题,我们建立了一个名为WHU-MIX建筑数据集的多样化,大规模和高质量的建筑数据集,该数据集更加面向实践。 WHU-MIX建筑物数据集由一个培训/验证集组成,该培训/验证集包含来自世界各地的43,727个不同图像,以及一个测试集,其中包含来自五大洲其他五个城市的8402张图像。此外,为了进一步提高建筑物提取模型的概括能力,我们提出了一种名为批处理样式混合(BSM)的域概括方法,该方法可以嵌入建筑物的frond-end中,以嵌入为有效的插件模块提取模型,为模型提供逐渐更大的数据分布,以学习数据不变知识。这项研究中进行的实验证实了WHU-MIX建筑数据集的潜力,以提高建筑物提取模型的性能,与其他现有数据集相比,MIOU提高了6-36%。其他数据集中标签不准确的不利影响可能会导致约20%的IOU减少。该实验还证实了所提出的BSM模块在增强模型的概括能力和鲁棒性方面的高性能,超过了13%的基线模型,而MIOU中最新的域概括方法则超过了4-15%。
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
Panoptic semonation组合实例和语义预测,允许同时检测“事物”和“东西”。在许多具有挑战性的问题中有效地接近远程感测的数据中的Panoptic分段可能是吉祥的,因为它允许连续映射和特定的目标计数。有几个困难阻止了遥感中这项任务的增长:(a)大多数算法都设计用于传统图像,(b)图像标签必须包含“事物”和“填写”类,并且(c)注释格式复杂。因此,旨在解决和提高遥感中Panoptic分割的可操作性,这项研究有五个目标:(1)创建一个新的Panoptic分段数据准备管道,(2)提出注释转换软件以产生Panoptic注释; (3)在城市地区提出一个小说数据集,(4)修改任务的Detectron2,(5)评估城市环境中这项任务的困难。我们使用的空中图像,考虑14级,使用0,24米的空间分辨率。我们的管道考虑了三个图像输入,所提出的软件使用点Shapefile来创建Coco格式的样本。我们的研究生成了3,400个样本,具有512x512像素尺寸。我们使用了带有两个骨干板(Reset-50和Reset-101)的Panoptic-FPN,以及模型评估被视为语义实例和Panoptic指标。我们获得了93.9,47.7和64.9的平均iou,box ap和pq。我们的研究提出了一个用于Panoptic Seation的第一个有效管道,以及用于其他研究人员的广泛数据库使用和处理需要彻底了解的其他数据或相关问题。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
定向对象检测是在空中图像中的具有挑战性的任务,因为航空图像中的物体以任意的方向显示并且经常密集包装。主流探测器使用五个参数或八个主角表示描述了旋转对象,这遭受了定向对象定义的表示模糊性。在本文中,我们提出了一种基于平行四边形的面积比的新型表示方法,称为ARP。具体地,ARP回归定向对象的最小边界矩形和三个面积比。三个面积比包括指向物体与最小的外接矩形的面积比和两个平行四边形到最小的矩形。它简化了偏移学习,消除了面向对象的角度周期性或标签点序列的问题。为了进一步弥补近横向物体的混淆问题,采用对象和其最小的外缘矩形的面积比来指导每个物体的水平或定向检测的选择。此外,使用水平边界盒和三个面积比的旋转高效交叉点(R-EIOU)丢失和三个面积比旨在优化用于旋转对象的边界盒回归。遥感数据集的实验结果,包括HRSC2016,DOTA和UCAS-AOD,表明我们的方法达到了卓越的检测性能,而不是许多最先进的方法。
translated by 谷歌翻译
本文介绍了Omnicity,这是一种从多层次和多视图图像中了解无所不能的城市理解的新数据集。更确切地说,Omnicity包含多视图的卫星图像以及街道级全景图和单视图图像,构成了超过100k像素的注释图像,这些图像是从纽约市的25k Geo-Locations中良好的一致性和收集的。为了减轻大量像素的注释努力,我们提出了一个有效的街景图像注释管道,该管道利用了卫星视图的现有标签地图以及不同观点之间的转换关系(卫星,Panorama和Mono-View)。有了新的Omnicity数据集,我们为各种任务提供基准,包括构建足迹提取,高度估计以及构建平面/实例/细粒细分。我们还分析了视图对每个任务的影响,不同模型的性能,现有方法的局限性等。与现有的多层次和多视图基准相比,我们的Omnicity包含更多具有更丰富注释类型和更丰富的图像更多的视图,提供了从最先进的模型获得的更多基线结果,并为街道级全景图像中的细粒度建筑实例细分介绍了一项新颖的任务。此外,Omnicity为现有任务提供了新的问题设置,例如跨视图匹配,合成,分割,检测等,并促进开发新方法,以了解大规模的城市理解,重建和仿真。 Omnicity数据集以及基准将在https://city-super.github.io/omnicity上找到。
translated by 谷歌翻译
2D和3D建筑图提供了宝贵的信息,以了解人类活动及其对地球及其环境的影响。尽管为提高建筑地图的质量而做出了巨大努力,但自动化方法产生的当前大规模建筑地图仍存在许多错误和不确定性,并且通常仅限于提供2D建筑信息。这项研究提出了一种开源无监督的2D和3D建筑物提取算法,并带有适用于大型建筑物映射的机载LIDAR数据。我们的算法以完全无监督的方式运行,不需要任何培训标签或培训程序。我们的算法由形态过滤和基于平面的过滤组成。因此,计算是有效的,结果易于预测,这可以大大减少所得建筑图中的不确定性。丹佛和纽约市的大规模数据集(> 550 $ km^2 $)的定量和定性评估表明,我们的算法比通过基于深度学习的方法生成的Microsoft Building Footprints可以产生更准确的建筑图。在不同条件下进行的广泛评估证实,我们的算法是可扩展的,可以通过适当的参数选择进一步改进。我们还详细介绍了参数和潜在错误来源的影响,以帮助我们算法的潜在用户。我们的基于激光雷达的算法具有优势,即生成2D和3D构建图在计算上有效,而它产生了准确且可解释的结果。我们提出的算法为带有机载激光雷达数据的全球尺度2D和3D建筑物映射提供了巨大的潜力。
translated by 谷歌翻译
该卷包含来自机器学习挑战的选定贡献“发现玛雅人的奥秘”,该挑战在欧洲机器学习和数据库中知识发现的欧洲挑战赛曲目(ECML PKDD 2021)中提出。遥感大大加速了古代玛雅人森林地区的传统考古景观调查。典型的探索和发现尝试,除了关注整个古老的城市外,还集中在单个建筑物和结构上。最近,已经成功地尝试了使用机器学习来识别古代玛雅人定居点。这些尝试虽然相关,但却集中在狭窄的区域上,并依靠高质量的空中激光扫描(ALS)数据,该数据仅涵盖古代玛雅人曾经定居的地区的一小部分。另一方面,由欧洲航天局(ESA)哨兵任务制作的卫星图像数据很丰富,更重要的是公开。旨在通过执行不同类型的卫星图像(Sentinel-1和Sentinel-2和ALS)的集成图像细分来定位和识别古老的Maya架构(建筑物,Aguadas和平台)的“发现和识别古代玛雅体系结构(建筑物,Aguadas和平台)的挑战的“发现和识别古老的玛雅体系结构(建筑物,阿吉达斯和平台)的“发现玛雅的奥秘”的挑战, (LIDAR)数据。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
自动检测武器对于改善个人的安全性和福祉是重要的,仍然是由于各种尺寸,武器形状和外观,这是一项艰巨的任务。查看点变化和遮挡也是使这项任务更加困难的原因。此外,目前的物体检测算法处理矩形区域,但是一个细长和长的步枪可以真正地覆盖区域的一部分区域,其余部分可能包含未经紧的细节。为了克服这些问题,我们提出了一种用于定向意识武器检测的CNN架构,其提供具有改进的武器检测性能的面向边界框。所提出的模型不仅通过将角度作为分类问题的角度分成8个类而且提供方向,而是作为回归问题。对于培训我们的武器检测模型,包括总6400件武器图像的新数据集从网上收集,然后用面向定向的边界框手动注释。我们的数据集不仅提供导向的边界框作为地面真相,还提供了水平边界框。我们还以多种现代对象探测器提供我们的数据集,用于在该领域进一步研究。所提出的模型在该数据集上进行评估,并且与搁板对象检测器的比较分析产生了卓越的拟议模型的性能,以标准评估策略测量。数据集和模型实现在此链接上公开可用:https://bit.ly/2tyzicf。
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译