事实证明,深度学习是高光谱图像(HSI)分类的一种非常有效的方法。但是,深度神经网络需要大量注释的数据集来概括地概括。这限制了深度学习对HSI分类的适用性,在该分类中,为每个场景手动标记成千上万的像素是不切实际的。在本文中,我们建议利用自我监督学习(SSL)进行HSI分类。我们表明,通过使用Barlow-Twins(一种最先进的SSL算法)在未标记的像素上预先培训编码器,我们可以获得具有少数标签的准确模型。实验结果表明,这种方法明显优于香草的监督学习。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
半监督的学习技术由于其有效的建筑模型能力,即使有稀缺的标记数据可用,它们也在受欢迎程度。在本文中,我们提出了一个框架和特定任务,用于\ textit {multichannel}模型的自我监督预处理,例如多光谱和合成孔径雷达图像的融合。我们表明,拟议的自我监督方法非常有效地学习与土地覆盖分类标签相关的特征。这是通过预处理任务的明确设计来实现的,该任务促进了感应方式之间的差距和利用输入的光谱特征。在半监督的环境中,如果有限的标签可用,则使用拟议的自我监督预审议,然后使用SAR和多光谱数据进行监督的填充,以进行土地覆盖分类,以优于纯粹监督的学习,例如纯监督的学习,来自Imagenet和ImageNet和Imagenet和Imagenet和Imagenet和Imagenet和ImageNet培训的初始化其他最近的自我监督方法。
translated by 谷歌翻译
自欺欺人的学习(SSL)由于能够学习任务不足的表示而没有人类注释的能力,因此对遥感和地球观察引起了极大的兴趣。尽管大多数现有的SSL在遥感中起作用,利用Convnet骨架并专注于单个模态,但我们探索了视觉变压器(VIT)的潜在,用于关节SAR-OCTICATION学习。基于Dino,一种最先进的SSL算法,它从输入图像的两个增强视图中提取知识,我们通过将所有通道串联到统一输入来结合SAR和光学图像。随后,我们随机掩盖了一种模式作为数据增强策略的通道。在训练期间,该模型将被喂养仅光学,仅SAR-SAR-SAR-SAR-OFICATION图像对学习内部和模式内表示。使用BigeArthnet-MM数据集的实验结果证明了VIT骨架和拟议的多模式SSL算法Dino-MM的好处。
translated by 谷歌翻译
自我监督的学习(SSL)已成为几个领域分类和分割任务中的新最先进。其中,SSL中的一个流行类别是蒸馏网络,例如BYOL。这项工作提出了RSDNET,该RSDNET在遥感(RS)域中应用蒸馏网络(BYOL),其中数据与天然RGB图像无关。由于多光谱(MS)和合成孔径雷达(SAR)传感器提供各种光谱和空间分辨率信息,因此我们将它们用作隐式增强,以学习不变特征嵌入。为了通过SSL学习基于RS的不变功能,我们通过两种方式训练了RSDNET,即单频道功能学习和三个通道功能学习。与使用三个或更多频段的常见概念相比,这项工作探讨了从随机MS和SAR频段学习的单个通道特征学习的有用性。在我们的线性评估中,这些单个通道功能在EuroSat分类任务上达到了0.92 F1分数,对于某些单个频段,DFC分割任务上达到了59.6 MIOU。我们还将我们的结果与成像网的重量进行了比较,并表明基于RS的SSL模型的表现优于基于有监督的Imagenet模型。我们进一步探讨了多模式数据与单个模态数据相比的实用性,并且表明,使用MS和SAR数据比仅利用MS数据更好地学习不变表示。
translated by 谷歌翻译
数据标签通常是开发计算病理模型时最具挑战性的任务。病理学家参与是生成准确的标签,以及对病理学家的局限性和大型标有数据集的需求已经导致使用患者级标签,机器辅助注释和主动学习在内的地区研究了弱监督学习。在本文中,我们探索自我监督的学习,以减少计算病理中的标记负担。我们在使用Barlow Twiss方法对乳腺癌组织进行分类的背景下探讨这一点,我们将自我监督与低数据场景中的预先训练网络中的替代品进行了比较。对于本文探索的任务,我们发现想象成预先训练的网络在很大程度上超越了使用巴洛双胞胎获得的自我监督的表示。
translated by 谷歌翻译
Whole slide images (WSI) are microscopy images of stained tissue slides routinely prepared for diagnosis and treatment selection in medical practice. WSI are very large (gigapixel size) and complex (made of up to millions of cells). The current state-of-the-art (SoTA) approach to classify WSI subdivides them into tiles, encodes them by pre-trained networks and applies Multiple Instance Learning (MIL) to train for specific downstream tasks. However, annotated datasets are often small, typically a few hundred to a few thousand WSI, which may cause overfitting and underperforming models. Conversely, the number of unannotated WSI is ever increasing, with datasets of tens of thousands (soon to be millions) of images available. While it has been previously proposed to use these unannotated data to identify suitable tile representations by self-supervised learning (SSL), downstream classification tasks still require full supervision because parts of the MIL architecture is not trained during tile level SSL pre-training. Here, we propose a strategy of slide level SSL to leverage the large number of WSI without annotations to infer powerful slide representations. Applying our method to The Cancer-Genome Atlas, one of the most widely used data resources in cancer research (16 TB image data), we are able to downsize the dataset to 23 MB without any loss in predictive power: we show that a linear classifier trained on top of these embeddings maintains or improves previous SoTA performances on various benchmark WSI classification tasks. Finally, we observe that training a classifier on these representations with tiny datasets (e.g. 50 slides) improved performances over SoTA by an average of +6.3 AUC points over all downstream tasks.
translated by 谷歌翻译
Semi-supervised learning (SSL) has made significant strides in the field of remote sensing. Finding a large number of labeled datasets for SSL methods is uncommon, and manually labeling datasets is expensive and time-consuming. Furthermore, accurately identifying remote sensing satellite images is more complicated than it is for conventional images. Class-imbalanced datasets are another prevalent phenomenon, and models trained on these become biased towards the majority classes. This becomes a critical issue with an SSL model's subpar performance. We aim to address the issue of labeling unlabeled data and also solve the model bias problem due to imbalanced datasets while achieving better accuracy. To accomplish this, we create "artificial" labels and train a model to have reasonable accuracy. We iteratively redistribute the classes through resampling using a distribution alignment technique. We use a variety of class imbalanced satellite image datasets: EuroSAT, UCM, and WHU-RS19. On UCM balanced dataset, our method outperforms previous methods MSMatch and FixMatch by 1.21% and 0.6%, respectively. For imbalanced EuroSAT, our method outperforms MSMatch and FixMatch by 1.08% and 1%, respectively. Our approach significantly lessens the requirement for labeled data, consistently outperforms alternative approaches, and resolves the issue of model bias caused by class imbalance in datasets.
translated by 谷歌翻译
大型视力模型的无监督预训练方法已显示出可以提高下游监督任务的性能。为卫星图像开发类似的技术带来了重要的机会,因为未标记的数据很丰富,并且固有的时间和多光谱结构提供了途径,以进一步改善现有的训练策略。在本文中,我们提出了Satmae,这是基于蒙面自动编码器(MAE)的时间或多光谱卫星图像的预训练框架。为了利用时间信息,我们包括一个时间嵌入以及跨时间独立掩盖图像贴片。此外,我们证明将多光谱数据编码为具有不同光谱位置编码的频段组是有益的。我们的方法在基准数据集(最高$ \ uparrow $ 7 \%)上的监督学习绩效方面都对先前最先前的技术产生了强大的改进,以及在下游遥感任务(包括土地)上的转移学习绩效封面分类(最多$ \ uparrow $ 14 \%)和语义细分。
translated by 谷歌翻译
我们提出了Parse,这是一种新颖的半监督结构,用于学习强大的脑电图表现以进行情感识别。为了减少大量未标记数据与标记数据有限的潜在分布不匹配,Parse使用成对表示对准。首先,我们的模型执行数据增强,然后标签猜测大量原始和增强的未标记数据。然后将其锐化的标签和标记数据的凸组合锐化。最后,进行表示对准和情感分类。为了严格测试我们的模型,我们将解析与我们实施并适应脑电图学习的几种最先进的半监督方法进行了比较。我们对四个基于公共EEG的情绪识别数据集,种子,种子IV,种子V和Amigos(价和唤醒)进行这些实验。该实验表明,我们提出的框架在种子,种子-IV和Amigos(Valence)中的标记样品有限的情况下,取得了总体最佳效果,同时接近种子V和Amigos中的总体最佳结果(达到第二好) (唤醒)。分析表明,我们的成对表示对齐方式通过减少未标记数据和标记数据之间的分布比对来大大提高性能,尤其是当每类仅1个样本被标记时。
translated by 谷歌翻译
高光谱成像为各种应用提供了新的视角,包括使用空降或卫星遥感,精密养殖,食品安全,行星勘探或天体物理学的环境监测。遗憾的是,信息的频谱分集以各种劣化来源的牺牲品,并且目前获取的缺乏准确的地面“清洁”高光谱信号使得恢复任务具有挑战性。特别是,与传统的RGB成像问题相比,培训深度神经网络用于恢复难以深入展现的传统RGB成像问题。在本文中,我们提倡基于稀疏编码原理的混合方法,其保留与手工图像前导者编码域知识的经典技术的可解释性,同时允许在没有大量数据的情况下训练模型参数。我们在各种去噪基准上展示了我们的方法是计算上高效并且显着优于现有技术。
translated by 谷歌翻译
监督的深度学习模型取决于大量标记的数据。不幸的是,收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感(RS)变化检测(CD)中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练,该预训练从图像到标签,我们将语义监督纳入了自我监督的学习(SSL)框架中。通常,多个感兴趣的对象(例如,建筑物)以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示,而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征,从而使下游密集的CD受益。为了实现这一目标,我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间,将背景和前景点分开,并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变(照明和无关紧要的土地覆盖)可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩,用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练,内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是,我们使用20%的培训数据获得了比基线(随机初始化)使用100%数据获得竞争结果。我们的代码可用。
translated by 谷歌翻译
监督学习可以学习大型代表性空间,这对于处理困难的学习任务至关重要。然而,由于模型的设计,经典图像分类方法争取在处理小型数据集时概括为新的问题和新情况。事实上,监督学习可能失去图像特征的位置,这导致在非常深刻的架构中的监督崩溃。在本文中,我们调查了如何有效地对未标记数据的强大和充分增强的自我监督,可以有效地培训神经网络的第一层,甚至比监督学习更好,无需数百万标记的数据。主要目标是通过获取通用任务 - 不可知的低级功能来断开像素数据与注释的连接。此外,我们调查视觉变形金刚(VIV)并表明,从自我监督架构中得出的低级功能可以提高这种紧急架构的鲁棒性和整体性能。我们在最小的开源数据集STL-​​10上评估了我们的方法,当从自我监督的学习架构输入到vit而不是原始时,我们获得了从41.66%的显着提升到83.25%。图片。
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
头视点标签的成本是改善细粒度头姿势估计算法的主要障碍。缺乏大量标签的一种解决方案正在使用自我监督的学习(SSL)。 SSL可以从未标记的数据中提取良好的功能,用于下游任务。因此,本文试图显示头部姿势估计的SSL方法之间的差异。通常,使用SSL的两个主要方法:(1)使用它以预先培训权重,(2)在一个训练期间除了监督学习(SL)之外的SSL作为辅助任务。在本文中,我们通过设计混合多任务学习(HMTL)架构并使用两个SSL预先文本任务,旋转和令人困惑来评估两种方法。结果表明,两种方法的组合在其中使用旋转进行预训练和使用令人难以用于辅助头的令人费示。与基线相比,误差率降低了23.1%,这与电流的SOTA方法相当。最后,我们比较了初始权重对HMTL和SL的影响。随后,通过HMTL,使用各种初始权重减少错误:随机,想象成和SSL。
translated by 谷歌翻译
我们研究了视觉变压器的培训,用于半监督图像分类。变形金刚最近在众多监督的学习任务中表现出令人印象深刻的表现。令人惊讶的是,我们发现视觉变形金刚在半监督的想象中心设置上表现不佳。相比之下,卷积神经网络(CNNS)实现了小标记数据制度的卓越结果。进一步调查揭示了原因是CNN具有强大的空间归纳偏差。灵感来自这一观察,我们介绍了一个联合半监督学习框架,半统一,其中包含变压器分支,卷积分支和精心设计的融合模块,用于分支之间的知识共享。卷积分支在有限监督数据上培训,并生成伪标签,以监督变压器分支对未标记数据的培训。关于Imagenet的广泛实验表明,半统一达到75.5 \%的前1个精度,优于最先进的。此外,我们显示Semifirmer是一般框架,与大多数现代变压器和卷积神经结构兼容。
translated by 谷歌翻译
与现场测量相比,遥感益处可以通过使大面积的监控更容易地进行栖息地保护,尤其是在可以自动分析遥感数据的情况下。监测的一个重要方面是对受监视区域中存在的栖息地类型进行分类和映射。自动分类是一项艰巨的任务,因为课程具有细粒度的差异,并且它们的分布是长尾巴且不平衡的。通常,用于自动土地覆盖分类的培训数据取决于完全注释的分割图,从遥感的图像到相当高的分类学,即森林,农田或市区等类别。自动栖息地分类的挑战是可靠的数据注释需要现场策略。因此,完整的分割图的生产成本很高,训练数据通常很稀疏,类似点,并且仅限于可以步行访问的区域。需要更有效地利用这些有限数据的方法。我们通过提出一种栖息地分类和映射的方法来解决这些问题,并应用此方法将整个芬兰拉普兰北部地区分类为Natura2000类。该方法的特征是使用从现场收集的细粒,稀疏,单像素注释,并与大量未经通知的数据结合在一起来产生分割图。比较了监督,无监督和半监督的方法,并证明了从较大的室外数据集中转移学习的好处。我们提出了一个\ ac {cnn}偏向于中心像素分类,与随机的森林分类器结合使用,该分类器比单独的模型本身产生更高的质量分类。我们表明,增加种植,测试时间的增加和半监督的学习可以进一步帮助分类。
translated by 谷歌翻译
大多数现有的少量学习(FSL)方法都需要大量的元训练中标记数据,这是一个主要限制。为了减少标签的需求,已经为FSL提出了半监督的元训练设置,其中仅包括几个标记的样品和基础类别中的未标记样本数量。但是,此设置下的现有方法需要从未标记的集合中选择类吸引的样本选择,这违反了未标记集的假设。在本文中,我们提出了一个实用的半监督元训练环境,并使用真正的未标记数据。在新设置下,现有方法的性能显着下降。为了更好地利用标签和真正未标记的数据,我们提出了一个简单有效的元训练框架,称为基于元学习(PLML)的伪标记。首先,我们通过常见的半监督学习(SSL)训练分类器,并使用它来获取未标记数据的伪标记。然后,我们从标记和伪标记的数据中构建了几个射击任务,并在构造的任务上运行元学习以学习FSL模型。令人惊讶的是,通过在两个FSL数据集的广泛实验中,我们发现这个简单的元训练框架有效地防止了在有限的标记数据下FSL的性能降解。此外,从元培训中受益,提出的方法还改善了两种代表性SSL算法所学的分类器。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
最近的研究表明,在高光谱图像(HSI)分类任务中,深度学习算法的巨大潜力。然而,培训这些模型通常需要大量标记的数据。由于针对HSI的像素级注释的收集是费力且耗时的,因此开发算法可以在小样本量的情况下产生良好的性能。在这项研究中,我们提出了一个强大的自我缩放网络(RSEN)来解决这个问题。拟议的RSEN由两个子网组成,包括基本网络和一个集合网络。鉴于标记数据的监督损失以及未经标记的数据的无监督损失,基本网络和整体网络都可以相互学习,从而实现自我启动的机制。据我们所知,提出的方法是首次尝试将自我汇总技术引入HSI分类任务,该任务提供了有关如何利用HSI中未标记数据来协助网络培训的不同观点。我们进一步提出了一种新型的一致性滤波器,以增加自我同步学习的鲁棒性。在三个基准HSI数据集上进行的广泛实验表明,与最新方法相比,所提出的算法可以产生竞争性能。代码可在线获得(\ url {https://github.com/yonghaoxu/rsen})。
translated by 谷歌翻译