在有监督的深度学习中,学习远程感应图像(RSI)的良好表示依赖于手动注释。但是,在遥感领域,很难获得大量的标记数据。最近,自欺欺人的学习显示了其出色的学习图像表示形式的能力,尤其是实例歧视的方法。比较实例歧视的方法,基于聚类的方法不仅查看与``正面样本''相同图像的转换,而且还要查看相似的图像。在本文中,我们提出了一种基于群集的代表学习方法。我们首先介绍衡量表示表示的歧视性的数量,我们从中表明,即使分布都需要最判别的表示。这提供了理论上的见解,说明为什么均匀分发图像效果很好。我们注意到,只有保留邻里关系的均匀分布是可取的因此,我们开发了一种算法,该算法将神经网络的输出转换为实现均匀分发样品的目标,同时保留了输出的邻居关系。广泛的实验表明,我们的方法可以学习比或更好的表示形式。艺术状态的方法,我们的方法执行com在各种RSI数据集上有效地稳健地推荐。
translated by 谷歌翻译
图像聚类是一种非常有用的技术,可广泛应用于各个区域,包括遥感。最近,通过自我监督学习的视觉表示大大改善了图像聚类的性能。为了进一步改善训练良好的聚类模型,本文提出了一种新的方法,该方法是根据对当前群集的属性在每个集群中首先对样本进行排名的方法模型。为了对样品进行排名,我们开发了一种根据当前群集的样本的可能性,根据它们是否位于人口稠密的社区中,而在训练模型的同时,我们提供了加权排名样本的策略。我们提出了广泛的实验结果,这些结果表明新技术可用于改善最新的图像聚类模型,从而实现准确性的性能增长范围从$ 2.1 \%\%$到$ 15.9 \%$ $。在遥感中的各种数据集上执行我们的方法,我们表明我们的方法可以有效地应用于遥感图像。
translated by 谷歌翻译
Combining clustering and representation learning is one of the most promising approaches for unsupervised learning of deep neural networks. However, doing so naively leads to ill posed learning problems with degenerate solutions. In this paper, we propose a novel and principled learning formulation that addresses these issues. The method is obtained by maximizing the information between labels and input data indices. We show that this criterion extends standard crossentropy minimization to an optimal transport problem, which we solve efficiently for millions of input images and thousands of labels using a fast variant of the Sinkhorn-Knopp algorithm. The resulting method is able to self-label visual data so as to train highly competitive image representations without manual labels. Our method achieves state of the art representation learning performance for AlexNet and ResNet-50 on SVHN, CIFAR-10, CIFAR-100 and ImageNet and yields the first self-supervised AlexNet that outperforms the supervised Pascal VOC detection baseline. Code and models are available 1 .
translated by 谷歌翻译
Can we automatically group images into semantically meaningful clusters when ground-truth annotations are absent? The task of unsupervised image classification remains an important, and open challenge in computer vision. Several recent approaches have tried to tackle this problem in an end-to-end fashion. In this paper, we deviate from recent works, and advocate a two-step approach where feature learning and clustering are decoupled. First, a self-supervised task from representation learning is employed to obtain semantically meaningful features. Second, we use the obtained features as a prior in a learnable clustering approach. In doing so, we remove the ability for cluster learning to depend on low-level features, which is present in current end-to-end learning approaches. Experimental evaluation shows that we outperform state-of-the-art methods by large margins, in particular +26.6% on CI-FAR10, +25.0% on CIFAR100-20 and +21.3% on STL10 in terms of classification accuracy. Furthermore, our method is the first to perform well on a large-scale dataset for image classification. In particular, we obtain promising results on ImageNet, and outperform several semi-supervised learning methods in the low-data regime without the use of any groundtruth annotations. The code is made publicly available here.
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
虽然通过学习特定于样本的鉴别视觉特征,但对比学习最近对未标记图像的深度聚类引起了显着的益处,但其对明确推断的类决策界限的可能性不太了解。这是因为它的实例鉴别策略不是类敏感性,因此,没有优化导出的特定于特定于特定的特征空间的簇,以便对应于有意义的类决策边界进行了优化。在这项工作中,我们通过引入语义对比学习(SCL)来解决这个问题。通过制定语义(群集感知)对比学习目标,SCL对未标记的训练数据进行了明确的基于距离的群集结构。此外,我们引入了通过实例视觉相似性和群集决策边界共同满足的聚类一致性条件,并同时通过他们的共识,同时优化了关于语义地面类别(未知/未标记)的假设。这种语义对比学习方法来发现未知类决策界限对无监督对象识别任务的学习具有相当大的优势。广泛的实验表明,SCL在六个对象识别基准上表现出最先进的对比学习和深度聚类方法,特别是在更具有挑战性的更精细的粒度和更大的数据集。
translated by 谷歌翻译
This paper reviews the recent progress of remote sensing image scene classification, proposes a large-scale benchmark dataset, and evaluates a number of state-of-the-art methods using the proposed dataset.
translated by 谷歌翻译
我们介绍了代表学习(CARL)的一致分配,通过组合来自自我监督对比学习和深层聚类的思路来学习视觉表现的无监督学习方法。通过从聚类角度来看对比学习,Carl通过学习一组一般原型来学习无监督的表示,该原型用作能量锚来强制执行给定图像的不同视图被分配给相同的原型。与与深层聚类的对比学习的当代工作不同,Carl建议以在线方式学习一组一般原型,使用梯度下降,而无需使用非可微分算法或k手段来解决群集分配问题。卡尔在许多代表性学习基准中超越了竞争对手,包括线性评估,半监督学习和转移学习。
translated by 谷歌翻译
Unsupervised image representations have significantly reduced the gap with supervised pretraining, notably with the recent achievements of contrastive learning methods. These contrastive methods typically work online and rely on a large number of explicit pairwise feature comparisons, which is computationally challenging. In this paper, we propose an online algorithm, SwAV, that takes advantage of contrastive methods without requiring to compute pairwise comparisons. Specifically, our method simultaneously clusters the data while enforcing consistency between cluster assignments produced for different augmentations (or "views") of the same image, instead of comparing features directly as in contrastive learning. Simply put, we use a "swapped" prediction mechanism where we predict the code of a view from the representation of another view. Our method can be trained with large and small batches and can scale to unlimited amounts of data. Compared to previous contrastive methods, our method is more memory efficient since it does not require a large memory bank or a special momentum network. In addition, we also propose a new data augmentation strategy, multi-crop, that uses a mix of views with different resolutions in place of two full-resolution views, without increasing the memory or compute requirements. We validate our findings by achieving 75.3% top-1 accuracy on ImageNet with ResNet-50, as well as surpassing supervised pretraining on all the considered transfer tasks.
translated by 谷歌翻译
本文解决了新型类别发现(NCD)的问题,该问题旨在区分大规模图像集中的未知类别。 NCD任务由于与现实世界情景的亲密关系而具有挑战性,我们只遇到了一些部分类和图像。与NCD上的其他作品不同,我们利用原型强调类别歧视的重要性,并减轻缺少新颖阶级注释的问题。具体而言,我们提出了一种新型的适应性原型学习方法,该方法由两个主要阶段组成:原型表示学习和原型自我训练。在第一阶段,我们获得了一个可靠的特征提取器,该功能提取器可以为所有具有基础和新颖类别的图像提供。该功能提取器的实例和类别歧视能力通过自我监督的学习和适应性原型来提高。在第二阶段,我们再次利用原型来整理离线伪标签,并训练类别聚类的最终参数分类器。我们对四个基准数据集进行了广泛的实验,并证明了该方法具有最先进的性能的有效性和鲁棒性。
translated by 谷歌翻译
深度学习表明,针对不同领域(例如图像和语音识别)的传统机器学习方法有了重大改进。他们在基准数据集上的成功通过从业人员通过验证的模型转移到现实世界中。使用监督学习预处理的视觉模型需要大量昂贵的数据注释。为了应对这一限制,已经提出了DeepCluster(一种简单且可扩展的视觉表示预处理)。但是,该模型的基本工作尚不清楚。在本文中,我们分析了DeepCluster内部质量,并详尽地评估了各种超参数在三个不同数据集上的影响。因此,我们提出了一个解释算法在实践中起作用的原因。我们还表明,深簇收敛和性能高度取决于卷积层随机初始化过滤器的质量与所选簇数的相互作用。此外,我们证明连续聚类对于深簇收敛并不重要。因此,聚类阶段的早期停止将减少训练时间,并允许算法扩展到大型数据集。最后,我们在半监督环境中得出了合理的超参数选择标准。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
近年来,深度学习算法在地球观察(EO)中的应用使依赖远程感知数据的领域取得了重大进展。但是,鉴于EO中的数据量表,创建具有专家使用像素级注释的大型数据集是昂贵且耗时的。在这种情况下,先验被视为一种有吸引力的方法,可以减轻在训练EO的深度学习方法时手动标签的负担。对于某些应用,这些先验很容易获得。本研究以许多计算机视觉任务中的自我监督特征表示学习的对比学习方法取得了巨大成功的动机,本研究提出了一种使用作物标签比例的在线深度聚类方法,作为研究基于政府作物的样本级别的先验者 - 整个农业地区的比例数据。我们使用来自巴西两个不同农业地区的两个大数据集评估了该方法。广泛的实验表明,该方法对不同的数据类型(合成句子雷达和光学图像)具有鲁棒性,考虑到目标区域中主要的作物类型,报告了更高的精度值。因此,它可以减轻EO应用中大规模图像注释的负担。
translated by 谷歌翻译
近年来,已经开发了几种无监督和自我监督的方法,以从大规模未标记的数据集中学习视觉功能。然而,它们的主要缺点是,如果简单地旋转或相机的视角更改,这些方法几乎无法识别同一对象的视觉特征。为了克服此限制,同时利用有用的监督来源,我们考虑了视频对象轨道。遵循直觉,轨道中的两个补丁应该在学习的特征空间中具有相似的视觉表示形式,我们采用了一种无监督的基于群集的方法,并约束此类表示为同一类别,因为它们可能属于同一对象或对象零件。与先前的工作相比,不同数据集上两个下游任务的实验结果证明了我们在线深度聚类(ODCT)方法的有效性,而视频轨道一致性(ODCT)方法没有利用时间信息。此外,我们表明,与依靠昂贵和精确的轨道注释相比,利用无监督的类不知所措但嘈杂的轨道生成器的产量提高了准确性。
translated by 谷歌翻译
异常检测方法识别偏离数据集的正常行为的样本。它通常用于训练集,其中包含来自多个标记类或单个未标记的类的普通数据。当前方法面对培训数据时争取多个类但没有标签。在这项工作中,我们首先发现自我监督的图像聚类方法学习的分类器为未标记的多级数据集上的异常检测提供了强大的基线。也许令人惊讶的是,我们发现初始化具有预先训练功能的聚类方法并不能改善其自我监督的对应物。这是由于灾难性遗忘的现象。相反,我们建议了两级方法。我们使用自我监督方法群集图像并为每个图像获取群集标签。我们使用群集标签作为“伪监督”,用于分销(OOD)方法。具体而言,我们通过群集标签对图像进行分类的任务进行预训练功能。我们提供了我们对方法的广泛分析,并展示了我们两级方法的必要性。我们评估符合最先进的自我监督和预用方法,并表现出卓越的性能。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
Clustering is a class of unsupervised learning methods that has been extensively applied and studied in computer vision. Little work has been done to adapt it to the end-to-end training of visual features on large scale datasets. In this work, we present DeepCluster, a clustering method that jointly learns the parameters of a neural network and the cluster assignments of the resulting features. DeepCluster iteratively groups the features with a standard clustering algorithm, kmeans, and uses the subsequent assignments as supervision to update the weights of the network. We apply DeepCluster to the unsupervised training of convolutional neural networks on large datasets like ImageNet and YFCC100M. The resulting model outperforms the current state of the art by a significant margin on all the standard benchmarks.
translated by 谷歌翻译
对比性自我监督表示方法学习方法最大程度地提高了正对之间的相似性,同时倾向于最大程度地减少负对之间的相似性。但是,总的来说,负面对之间的相互作用被忽略了,因为它们没有根据其特定差异和相似性而采用的特殊机制来对待负面对。在本文中,我们提出了扩展的动量对比(Xmoco),这是一种基于MOCO家族配置中提出的动量编码单元的遗产,一种自我监督的表示方法。为此,我们引入了交叉一致性正则化损失,并通过该损失将转换一致性扩展到不同图像(负对)。在交叉一致性正则化规则下,我们认为与任何一对图像(正或负)相关的语义表示应在借口转换下保留其交叉相似性。此外,我们通过在批处理上的负面对上实施相似性的均匀分布来进一步规范训练损失。可以轻松地将所提出的正规化添加到现有的自我监督学习算法中。从经验上讲,我们报告了标准Imagenet-1K线性头部分类基准的竞争性能。此外,通过将学习的表示形式转移到常见的下游任务中,我们表明,将Xmoco与普遍使用的增强功能一起使用可以改善此类任务的性能。我们希望本文的发现是研究人员考虑自我监督学习中负面例子的重要相互作用的动机。
translated by 谷歌翻译
自我监督的学习(SSL)已成为无需人类注释而产生不变表示的流行方法。但是,通过在输入数据上利用先前的在线转换功能来实现所需的不变表示。结果,每个SSL框架都是针对特定数据类型(例如,视觉数据)定制的,如果将其用于其他数据集类型,则需要进行进一步的修改。另一方面,是一个通用且广泛适用的框架的自动编码器(AE),主要集中于缩小尺寸,不适合学习不变表示。本文提出了一个基于阻止退化解决方案的受限自我标签分配过程的通用SSL框架。具体而言,先前的转换函数被用无监督的对抗训练的训练过程得出,以实现不变表示。通过自我转化机制,可以从相同的输入数据生成成对的增强实例。最后,基于对比度学习的培训目标是通过利用自我标签分配和自我转化机制来设计的。尽管自我转化过程非常通用,但拟议的培训策略的表现优于基于AE结构的大多数最先进的表示方法。为了验证我们的方法的性能,我们对四种类型的数据进行实验,即视觉,音频,文本和质谱数据,并用四个定量指标进行比较。我们的比较结果表明,所提出的方法证明了鲁棒性并成功识别数据集中的模式。
translated by 谷歌翻译