Satellite image analysis has important implications for land use, urbanization, and ecosystem monitoring. Deep learning methods can facilitate the analysis of different satellite modalities, such as electro-optical (EO) and synthetic aperture radar (SAR) imagery, by supporting knowledge transfer between the modalities to compensate for individual shortcomings. Recent progress has shown how distributional alignment of neural network embeddings can produce powerful transfer learning models by employing a sliced Wasserstein distance (SWD) loss. We analyze how this method can be applied to Sentinel-1 and -2 satellite imagery and develop several extensions toward making it effective in practice. In an application to few-shot Local Climate Zone (LCZ) prediction, we show that these networks outperform multiple common baselines on datasets with a large number of classes. Further, we provide evidence that instance normalization can significantly stabilize the training process and that explicitly shaping the embedding space using supervised contrastive learning can lead to improved performance.
translated by 谷歌翻译
Deep learning has produced state-of-the-art results for a variety of tasks. While such approaches for supervised learning have performed well, they assume that training and testing data are drawn from the same distribution, which may not always be the case. As a complement to this challenge, single-source unsupervised domain adaptation can handle situations where a network is trained on labeled data from a source domain and unlabeled data from a related but different target domain with the goal of performing well at test-time on the target domain. Many single-source and typically homogeneous unsupervised deep domain adaptation approaches have thus been developed, combining the powerful, hierarchical representations from deep learning with domain adaptation to reduce reliance on potentially-costly target data labels. This survey will compare these approaches by examining alternative methods, the unique and common elements, results, and theoretical insights. We follow this with a look at application areas and open research directions.
translated by 谷歌翻译
Recent reports suggest that a generic supervised deep CNN model trained on a large-scale dataset reduces, but does not remove, dataset bias. Fine-tuning deep models in a new domain can require a significant amount of labeled data, which for many applications is simply not available. We propose a new CNN architecture to exploit unlabeled and sparsely labeled target domain data. Our approach simultaneously optimizes for domain invariance to facilitate domain transfer and uses a soft label distribution matching loss to transfer information between tasks. Our proposed adaptation method offers empirical performance which exceeds previously published results on two standard benchmark visual domain adaptation tasks, evaluated across supervised and semi-supervised adaptation settings.
translated by 谷歌翻译
Object detection and classification using aerial images is a challenging task as the information regarding targets are not abundant. Synthetic Aperture Radar(SAR) images can be used for Automatic Target Recognition(ATR) systems as it can operate in all-weather conditions and in low light settings. But, SAR images contain salt and pepper noise(speckle noise) that cause hindrance for the deep learning models to extract meaningful features. Using just aerial view Electro-optical(EO) images for ATR systems may also not result in high accuracy as these images are of low resolution and also do not provide ample information in extreme weather conditions. Therefore, information from multiple sensors can be used to enhance the performance of Automatic Target Recognition(ATR) systems. In this paper, we explore a methodology to use both EO and SAR sensor information to effectively improve the performance of the ATR systems by handling the shortcomings of each of the sensors. A novel Multi-Modal Domain Fusion(MDF) network is proposed to learn the domain invariant features from multi-modal data and use it to accurately classify the aerial view objects. The proposed MDF network achieves top-10 performance in the Track-1 with an accuracy of 25.3 % and top-5 performance in Track-2 with an accuracy of 34.26 % in the test phase on the PBVS MAVOC Challenge dataset [18].
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
自我监督的方法在计算机视野领域表现出巨大的成功,包括在遥感和医学成像中的应用。最流行的基于损坏的方法,例如SIMCLR,MOCO,MOCO-V2,通过在图像上应用人为的增强来创建正对并将其与负面示例进行对比,从而使用同一图像的多个视图。尽管这些技术运行良好,但大多数这些技术都在ImageNet(以及类似的计算机视觉数据集)上进行了调整。尽管有一些尝试捕获积极样本中更丰富的变形集,但在这项工作中,我们探索了一种有希望的替代方法,可以在对比度学习框架内为遥感数据生成积极的示例。可以将来自同一位置的不同传感器捕获的图像可以被认为是同一场景的强烈增强实例,从而消除了探索和调整一套手工制作的强大增强的需求。在本文中,我们提出了一个简单的双编码框架,该框架已在Sentinel-1和Sentinel-2图像对的大型未标记数据集(〜1m)上进行了预训练。我们测试了两个遥感下游任务的嵌入:洪水分割和土地覆盖映射,并从经验上表明,从该技术中学到的嵌入优于通过积极的数据增强来收集积极示例的传统技术。
translated by 谷歌翻译
解决无监督域的适应性的主要方法是将源和目标域的数据点映射到嵌入式空间中,该空间被建模为共享深层编码器的输出空间。对编码器进行了训练,以使嵌入式空间域 - 敏捷剂,以使源训练的分类器可在目标域上推广。进一步提高UDA性能的次要机制是使源域分布更加紧凑,以提高模型的通用性。我们证明,增加嵌入空间中的阶级边缘可以帮助开发具有改善性能的UDA算法。我们估计源域的内部学习的多模式分布,该分布是由于预处理而学到的,并使用它来增加源域中的类间分离以减少域移位的效果。我们证明,使用我们的方法导致在四个标准基准UDA图像分类数据集上提高模型的通用性,并与退出方法进行了有利的比较。
translated by 谷歌翻译
对比性自我监督学习方法学会将图像(例如图像)映射到无需标签的情况下将图像映射到非参数表示空间中。尽管非常成功,但当前方法在训练阶段需要大量数据。在目标训练集规模限制的情况下,已知概括是差的。在大型源数据集和目标样本上进行微调进行预处理,容易在几杆方向上过度拟合,在几个弹药方面,只有少量的目标样本可用。在此激励的情况下,我们提出了一种用于自我监督的对比度学习的域适应方法,称为少数最大的学习方法,以解决对目标分布的适应问题,这些问题在几乎没有射击学习下。为了量化表示质量,我们在包括ImageNet,Visda和FastMRI在内的一系列源和目标数据集上评估了很少的最大最大速度,在这些数据集和FastMRI上,很少有最大最大的最大值始终优于其他方法。
translated by 谷歌翻译
深度学习方法缺乏无线胶囊内窥镜检查(WCE)自动诊断的可普遍性,这阻止了任何显着优势降低到真实的临床实践。结果,使用WCE的疾病管理继续依赖医学专家的详尽手动调查。尽管有几个优势,但这解释了其有限的用途。先前的工作已经考虑使用更高质量和数量的标签作为解决缺乏概括的一种方式,但是考虑到病理多样性,这几乎是无法扩展的,更不用说标记大型数据集的标签还会支持医务人员。我们建议使用免费可用的域知识作为先验,以学习更多可靠和可推广的表示。我们通过实验表明,领域先验可以通过在标签的代理中作用来使表示形式受益,从而大大减少了标签要求,同时仍可以完全无监督而又感知的学习。我们在预处理过程中使用对比度目标以及先前的指导观点,在此观点选择激发了对病理信息的敏感性。在三个数据集上进行的广泛实验表明,我们的方法的性能要比(或与)域中的最新技术更好,在病理分类和跨数据库概括方面建立了新的基准,并扩展到不看病的病理学类别。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
深度学习已成为解决不同领域中现实世界中问题的首选方法,部分原因是它能够从数据中学习并在广泛的应用程序上实现令人印象深刻的性能。但是,它的成功通常取决于两个假设:(i)精确模型拟合需要大量标记的数据集,并且(ii)培训和测试数据是独立的且分布相同的。因此,不能保证它在看不见的目标域上的性能,尤其是在适应阶段遇到分布数据的数据时。目标域中数据的性能下降是部署深层神经网络的关键问题,这些网络已成功地在源域中的数据训练。通过利用标记的源域数据和未标记的目标域数据来执行目标域中的各种任务,提出了无监督的域适应(UDA)来对抗这一点。 UDA在自然图像处理,视频分析,自然语言处理,时间序列数据分析,医学图像分析等方面取得了令人鼓舞的结果。在本综述中,作为一个快速发展的主题,我们对其方法和应用程序进行了系统的比较。此外,还讨论了UDA与其紧密相关的任务的联系,例如域的概括和分布外检测。此外,突出显示了当前方法和可能有希望的方向的缺陷。
translated by 谷歌翻译
LIDAR(“光检测和测距”或“激光成像,检测和测距”)技术可用于提供城市和农村景观的详细三维高度地图。迄今为止,空气传播的激光雷达成像主要被限制在环境和考古域中。然而,该数据的地理上粒度和开放源特性也为使用了地理人口类型数据的社会,组织和业务应用程序。具体地,处理该多维数据的复杂性迄今为止涉及其更广泛的采用。在本文中,我们提出了一系列方便的任务无关瓷砖高程嵌入来解决这一挑战,利用无监督深度学习的最新进展。通过预测大伦敦地区的小型地区,通过预测七个剥夺指数(2019年)来测试我们嵌入的潜力。这些索引涵盖了一系列社会经济结果,并作为可以应用嵌入的各种下游任务的代理。我们考虑不仅仅是独立于自己的数据的适用性,而且与人口统计特征结合使用,也可以作为辅助数据源,从而为嵌入品提供了一个现实用例。在尝试各种模型/嵌入配置中,我们发现我们最好的表现嵌入式导致单独使用标准人口统计特征的根本平衡(RMSE)改进高达21%。我们还展示了使用深度学习与K-Means集群相结合的嵌入管道的嵌入管道,产生相干瓷砖段,允许解释潜在的嵌入功能。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
我们考虑无监督的域适应性(UDA),其中使用来自源域(例如照片)的标记数据,而来自目标域(例如草图)的未标记数据用于学习目标域的分类器。常规的UDA方法(例如,域对抗训练)学习域不变特征,以改善对目标域的概括。在本文中,我们表明,对比的预训练,它在未标记的源和目标数据上学习功能,然后在标记的源数据上进行微调,具有强大的UDA方法的竞争力。但是,我们发现对比前训练不会学习域不变特征,这与常规的UDA直觉不同。从理论上讲,我们证明了对比的预训练可以学习在跨域下微调但仍通过解开域和类信息来概括到目标域的特征。我们的结果表明,UDA不需要域的不变性。我们从经验上验证了基准视觉数据集的理论。
translated by 谷歌翻译
部署在野外的机器学习系统通常在源分布上培训,但部署在不同的目标分布上。未标记的数据可以是用于缓解这些分布班次的强大的利用点,因为它通常比标记数据更具可用。然而,未标记数据的现有分配转换基准不反映现实世界应用中出现的方案的广度。在这项工作中,我们介绍了Wilds 2.0更新,该更新在分发转移的野外基准中扩展了10个数据集中的8个,以包括将在部署中逼真获得的策划未标记数据。为了保持一致性,标记的培训,验证和测试集以及评估度量与原始野外基准中的标记与评估度量完全相同。这些数据集涵盖了广泛的应用程序(从组织学到野生动物保护),任务(分类,回归和检测)和方式(照片,卫星图像,显微镜载玻片,文本,分子图)。我们系统地基准测试最先进的方法,可以利用未标记的数据,包括域不变,自我培训和自我监督方法,并表明他们在野外的成功2.0是有限的。为了方便方法开发和评估,我们提供了一个自动化数据加载的开源包,并包含本文中使用的所有模型架构和方法。代码和排行榜可在https://wilds.stanford.edu获得。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
由于缺乏大规模标记的3D数据集,大多数3D神经网络都是从划痕训练。在本文中,我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质,我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外,我们设计了一个上采样功能投影层,以增加高级2D特征图的空间分辨率,这使得能够学习细粒度的3D表示。利用普雷累染的2D网络,所提出的预介绍过程不需要额外的2D或3D标记数据,进一步缓解了昂贵的3D数据注释成本。据我们所知,我们是第一个利用现有的2D培训的权重,以预先rain 3D深度神经网络。我们的密集实验表明,使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。
translated by 谷歌翻译
在这项工作中,我们以一种充满挑战的自我监督方法研究无监督的领域适应性(UDA)。困难之一是如何在没有目标标签的情况下学习任务歧视。与以前的文献直接使跨域分布或利用反向梯度保持一致,我们建议域混淆对比度学习(DCCL),以通过域难题桥接源和目标域,并在适应后保留歧视性表示。从技术上讲,DCCL搜索了最大的挑战方向,而精美的工艺领域将增强型混淆为正对,然后对比鼓励该模型向其他领域提取陈述,从而学习更稳定和有效的域名。我们还研究对比度学习在执行其他数据增强时是否必然有助于UDA。广泛的实验表明,DCCL明显优于基准。
translated by 谷歌翻译
对分布(OOD)数据的概括是人类自然的能力,但对于机器而言挑战。这是因为大多数学习算法强烈依赖于i.i.d.〜对源/目标数据的假设,这在域转移导致的实践中通常会违反。域的概括(DG)旨在通过仅使用源数据进行模型学习来实现OOD的概括。在过去的十年中,DG的研究取得了长足的进步,导致了广泛的方法论,例如,基于域的一致性,元学习,数据增强或合奏学习的方法,仅举几例;还在各个应用领域进行了研究,包括计算机视觉,语音识别,自然语言处理,医学成像和强化学习。在本文中,首次提供了DG中的全面文献综述,以总结过去十年来的发展。具体而言,我们首先通过正式定义DG并将其与其他相关领域(如域适应和转移学习)联系起来来涵盖背景。然后,我们对现有方法和理论进行了彻底的审查。最后,我们通过有关未来研究方向的见解和讨论来总结这项调查。
translated by 谷歌翻译