成千上万的扫描历史地形图包含覆盖长时间的有价值的信息,例如如何随着时间的推移改变区域的水文。有效地解锁这些地图中的信息需要培训一种地理空间对象识别系统,该系统需要大量的注释数据。根据其坐标与地形图的重叠地理引用的外部矢量数据可以自动注释地图中的所需对象的位置。但是,直接重叠两个数据集会导致错位和错误的注释,因为出版年份和地形图的坐标投影系统与外部向量数据不同。我们提出了一种标签校正算法,它利用了地图的颜色信息和外部矢量数据的先前形状信息,以减少错位和错误的注释。实验表明,来自所提出的算法的注释精度比来自最先进的算法的注释高10%。因此,使用所提出的算法的注释的识别结果达到了比使用最先进的算法的注释更高的正确性。
translated by 谷歌翻译
集中的动物饲养业务(CAFOS)对空气,水和公共卫生构成严重风险,但已被证明挑战规范。美国政府问责办公室注意到基本挑战是缺乏关于咖啡馆的全面的位置信息。我们使用美国农业部的国家农产病程(Naip)1M / Pixel Acial Imagerery来检测美国大陆的家禽咖啡馆。我们培养卷积神经网络(CNN)模型来识别单个家禽谷仓,并将最佳表现模型应用于超过42 TB的图像,以创建家禽咖啡座的第一个国家开源数据集。我们验证了来自加利福尼亚州的10个手标县的家禽咖啡馆设施的模型预测,并证明这种方法具有填补环境监测中差距的显着潜力。
translated by 谷歌翻译
许多开销图像的增加的可用性和可访问性使我们能够估计和评估地理空间目标对象组的空间排列,这可以使许多应用程序受益,例如交通监测和农业监测。空间排列估计是识别包含顶部图像中所需对象的区域的过程。传统的监督对象检测方法可以估计准确的空间布置,但需要大量的边界盒注释。最近的半监督聚类方法可以减少手动标签,但仍需要图像中所有对象类别的注释。本文介绍了目标导向生成模型(TGGM),在变分自动编码器(VAE)框架下,它使用高斯混合模型(GMM)来估计VAE中隐藏和解码器变量的分布。通过GMM模拟隐藏和解码器变量,可显着为空间排列估计减少所需的手动注释。与现有方法不同,培训过程只能在优化迭代中将其作为整体更新GMM(例如,“小贴士”),TGGM允许在相同的优化迭代中单独更新各个GMM组件。单独优化GMM组件允许TGGM在空间数据中利用语义关系,只需要几个标签启动和指导生成过程。我们的实验表明,TGGM实现了与最先进的半监督方法相当的结果,并根据$ F_ {1} $得分,胜过无监督方法10%,同时需要显着较少的标记数据。
translated by 谷歌翻译
本文介绍了Omnicity,这是一种从多层次和多视图图像中了解无所不能的城市理解的新数据集。更确切地说,Omnicity包含多视图的卫星图像以及街道级全景图和单视图图像,构成了超过100k像素的注释图像,这些图像是从纽约市的25k Geo-Locations中良好的一致性和收集的。为了减轻大量像素的注释努力,我们提出了一个有效的街景图像注释管道,该管道利用了卫星视图的现有标签地图以及不同观点之间的转换关系(卫星,Panorama和Mono-View)。有了新的Omnicity数据集,我们为各种任务提供基准,包括构建足迹提取,高度估计以及构建平面/实例/细粒细分。我们还分析了视图对每个任务的影响,不同模型的性能,现有方法的局限性等。与现有的多层次和多视图基准相比,我们的Omnicity包含更多具有更丰富注释类型和更丰富的图像更多的视图,提供了从最先进的模型获得的更多基线结果,并为街道级全景图像中的细粒度建筑实例细分介绍了一项新颖的任务。此外,Omnicity为现有任务提供了新的问题设置,例如跨视图匹配,合成,分割,检测等,并促进开发新方法,以了解大规模的城市理解,重建和仿真。 Omnicity数据集以及基准将在https://city-super.github.io/omnicity上找到。
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
用于卫星图像分析的计算机视觉算法的创新可以使我们能够在行星层面探索全球挑战,例如城市化和土地利用变化。但是,当试图复制将这些分析推向新领域的模型时,尤其是在发展中国家的模型时,域转移问题是一个普遍的情况。如果模型是通过一个位置的图像和标签训练的,则通常不会很好地概括到图像和数据分布不同的新位置。在这项工作中,我们考虑了我们有一个大型卫星图像场景的设置,我们希望在该场景上解决一个应用问题 - 构建足迹细分。在这里,我们不一定需要担心创建一个概括过我们场景边界的模型,而是可以训练本地模型。我们表明,使用非常高分辨率(0.5m/px)卫星图像解决建筑细分问题需要的标签很少。我们只有527个稀疏多边形注释(相当于1500 x 1500名被标记的像素)训练的最佳型号,召回了0.87的持有足迹,R2的r2为0.93视窗。我们将模型应用于约旦安曼(Amman)的高分辨率图像中,在一项有关城市变化检测的案例研究中。
translated by 谷歌翻译
基于深入的学习划定3D结构的方法取决于准确的注释来培训网络。然而,在实践中,无论多么有认可,人们都有多么认真地划分3D和大规模的困难,部分原因是数据往往是难以在视觉上解释的,并且部分是因为3D接口很尴尬。在本文中,我们介绍了一种明确地占用诠释的方法。为此,我们将注释视为有效轮廓模型,可以在保留其拓扑时变形本身。这使我们能够联合培训网络和原始注释中的潜在错误。结果是一种提升培训的深网络性能的方法,患有可能不准确的注释。
translated by 谷歌翻译
Transfer Learning methods are widely used in satellite image segmentation problems and improve performance upon classical supervised learning methods. In this study, we present a semantic segmentation method that allows us to make land cover maps by using transfer learning methods. We compare models trained in low-resolution images with insufficient data for the targeted region or zoom level. In order to boost performance on target data we experiment with models trained with unsupervised, semi-supervised and supervised transfer learning approaches, including satellite images from public datasets and other unlabeled sources. According to experimental results, transfer learning improves segmentation performance 3.4% MIoU (Mean Intersection over Union) in rural regions and 12.9% MIoU in urban regions. We observed that transfer learning is more effective when two datasets share a comparable zoom level and are labeled with identical rules; otherwise, semi-supervised learning is more effective by using the data as unlabeled. In addition, experiments showed that HRNet outperformed building segmentation approaches in multi-class segmentation.
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
像素级裂纹分割由于对建筑物和道路检查的高影响而进行了广泛的研究。最近的研究已经取得了重大改善的准确性,但忽略了注释成本瓶颈。为了解决这个问题,我们将裂纹细分问题重新制定为一个弱监督的问题,并提出了一个两分的推理框架和一个不需要其他数据的注释细化模块,以抵消注释质量的损失。实验结果证实了该方法在裂纹分割以及其他目标域中的有效性。
translated by 谷歌翻译
这项研究介绍了\ textit {landslide4sense},这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片,可从Sentinel-2传感器中融合光学层,并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测,而最近的研究表明,仅使用光学数据,这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习(DL)研究,以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集:伊伯里(2018年9月),科达古(2018年8月),戈尔卡(2015年4月)和台湾(2009年8月)。每个图像像素均标记为属于滑坡,包括各种来源和彻底的手动注释。然后,我们评估11个最先进的DL分割模型的滑坡检测性能:U-NET,RESU-NET,PSPNET,CONTECTNET,DEEPLAB-V2,DEEPLAB-V3+,FCN-8,LINKNET,FRRRN-A,FRRN-A,, FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训,并在其他三个季度的独立贴片上进行了测试。我们的实验表明,Resu-NET的表现优于其他模型,用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据(Landslide4sense)和经过测试的DL模型,为遥感,计算机视觉和机器学习社区建立了重要的资源通常,尤其是对滑坡检测的应用。
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
深度学习的快速发展在分割方面取得了长足的进步,这是计算机视觉的基本任务之一。但是,当前的细分算法主要取决于像素级注释的可用性,这些注释通常昂贵,乏味且费力。为了减轻这一负担,过去几年见证了越来越多的关注,以建立标签高效,深度学习的细分算法。本文对标签有效的细分方法进行了全面的审查。为此,我们首先根据不同类型的弱标签提供的监督(包括没有监督,粗略监督,不完整的监督和嘈杂的监督和嘈杂的监督),首先开发出一种分类法来组织这些方法,并通过细分类型(包括语义细分)补充,实例分割和全景分割)。接下来,我们从统一的角度总结了现有的标签有效的细分方法,该方法讨论了一个重要的问题:如何弥合弱监督和密集预测之间的差距 - 当前的方法主要基于启发式先导,例如交叉像素相似性,跨标签约束,跨视图一致性,跨图像关系等。最后,我们分享了对标签有效深层细分的未来研究方向的看法。
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
捕获图像的全局拓扑对于提出对其域的准确分割至关重要。但是,大多数现有的分割方法都不能保留给定输入的初始拓扑,这对许多下游基于对象的任务有害。对于大多数在本地尺度上工作的深度学习模型来说,这是更真实的。在本文中,我们提出了一种新的拓扑深度图像分割方法,该方法依赖于新的泄漏损失:Pathloss。我们的方法是Baloss [1]的扩展,其中我们希望改进泄漏检测,以更好地恢复图像分割的接近度。这种损失使我们能够正确定位并修复预测中可能发生的关键点(边界中的泄漏),并基于最短路径搜索算法。这样,损失最小化仅在必要时才能强制连接,并最终提供了图像中对象边界的良好定位。此外,根据我们的研究,与无需使用拓扑损失的方法相比,我们的Pathloss学会了保持更强的细长结构。通过我们的拓扑损失函数培训,我们的方法在两个代表性数据集上优于最先进的拓扑感知方法:电子显微镜和历史图。
translated by 谷歌翻译
Semantic understanding of visual scenes is one of the holy grails of computer vision. Despite efforts of the community in data collection, there are still few image datasets covering a wide range of scenes and object categories with pixel-wise annotations for scene understanding. In this work, we present a densely annotated dataset ADE20K, which spans diverse annotations of scenes, objects, parts of objects, and in some cases even parts of parts. Totally there are 25k images of the complex everyday scenes containing a variety of objects in their natural spatial context. On average there are 19.5 instances and 10.5 object classes per image. Based on ADE20K, we construct benchmarks for scene parsing and instance segmentation. We provide baseline performances on both of the benchmarks and re-implement the state-ofthe-art models for open source. We further evaluate the effect of synchronized batch normalization and find that a reasonably large batch size is crucial for the semantic segmentation performance. We show that the networks trained on ADE20K are able to segment a wide variety of scenes and objects 1 .
translated by 谷歌翻译
深度学习算法在非常高分辨率(VHR)图像的语义分割方面取得了巨大成功。然而,培训这些模型通常需要大量准确的像素注释,这非常费力且耗时。为了减轻注释负担,本文提出了一个一致性调节的区域生长网络(CRGNET),以实现具有点级注释的VHR图像的语义分割。 CRGNET的关键思想是迭代选择未标记的像素,具有很高的信心,可以从原始稀疏点扩展带注释的区域。但是,由于扩展的注释中可能存在一些错误和噪音,因此直接向它们学习可能会误导网络的培训。为此,我们进一步提出了一致性正则化策略,在该策略中,基本分类器和扩展的分类器被采用。具体而言,基本分类器受原始稀疏注释的监督,而扩展的分类器的目的是从基本分类器生成的扩展注释中学习具有区域生长机制。因此,通过最大程度地减少基础和扩展分类器的预测之间的差异来实现一致性正则化。我们发现如此简单的正则化策略对于控制区域生长机制的质量非常有用。在两个基准数据集上进行的广泛实验表明,所提出的CRGNET显着优于现有的最新方法。代码和预培训模型可在线获得(https://github.com/yonghaoxu/crgnet)。
translated by 谷歌翻译
可再生能源的快速开发,尤其是太阳能光伏(PV),对于缓解气候变化至关重要。结果,印度设定了雄心勃勃的目标,可以在2030年之前安装500吉瓦的太阳能容量。鉴于预计大量的足迹可以满足可再生能源能源目标,因此对环境价值的土地利用冲突的潜力很高。为了加快太阳能的发展,土地使用计划者将需要访问PV基础设施的最新,准确的地理空间信息。在这项工作中,我们开发了一种露骨的机器学习模型,以使用自由使用的卫星图像绘制印度的公用事业规模的太阳能项目,平均准确性为92%。我们的模型预测得到了人类专家的验证,以获取1363个太阳能光伏农场的数据集。使用此数据集,我们测量了整个印度的太阳足迹,并量化了与PV基础设施发展相关的土地盖修改程度。我们的分析表明,印度超过74%的太阳能发展是建立在具有自然生态系统保护或农业价值的陆生类型上的。
translated by 谷歌翻译
从众包标签或公开的数据创建的大规模数据集已经至关重要,为大规模学习算法提供培训数据。虽然这些数据集更容易获取,但数据经常嘈杂和不可靠,这是对弱监督学习技术的激励研究。在本文中,我们提出了原始想法,帮助我们在变更检测的背景下利用此类数据集。首先,我们提出了引导的各向异性扩散(GAD)算法,其使用输入图像改善语义分割结果作为执行边缘保留滤波的引导件。然后,我们展示了它在改变检测中量身定制的两个弱监督的学习策略中的潜力。第一策略是一种迭代学习方法,它将模型优化和数据清理使用GAD从开放矢量数据生成的大规模改变检测数据集中提取有用信息。第二个在新的空间注意层内包含GAD,其增加训练训练的弱监管网络的准确性,以从图像级标签执行像素级预测。在4个不同的公共数据集上展示了关于最先进的最先进的改进。
translated by 谷歌翻译