在灾难后评估领域,为了及时准确的救援和本地化,人们需要知道损坏的建筑物的位置。在深度学习中,一些学者提出了通过遥感图像进行自动且高度准确的建筑损害评估的方法,事实证明,这些方法比域专家评估更有效。但是,由于缺乏大量标记的数据,这些任务可能因能够进行准确的评估而遭受损失,因为深度学习模型的效率高度依赖于标记的数据。尽管现有的半监督和无监督研究在这一领域取得了突破,但它们都没有完全解决这个问题。因此,我们建议采用一种自制的比较学习方法来解决任务,而无需标记数据。我们构建了一个新颖的非对称双网络架构,并在XBD数据集上测试了其性能。我们模型的实验结果表明,与基线和常用方法相比,改善了。我们还展示了自我监督方法建立损害识别意识的潜力。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
组织病理学图像包含丰富的表型信息和病理模式,这是疾病诊断的黄金标准,对于预测患者预后和治疗结果至关重要。近年来,在临床实践中迫切需要针对组织病理学图像的计算机自动化分析技术,而卷积神经网络代表的深度学习方法已逐渐成为数字病理领域的主流。但是,在该领域获得大量细粒的注释数据是一项非常昂贵且艰巨的任务,这阻碍了基于大量注释数据的传统监督算法的进一步开发。最新的研究开始从传统的监督范式中解放出来,最有代表性的研究是基于弱注释,基于有限的注释的半监督学习范式以及基于自我监督的学习范式的弱监督学习范式的研究图像表示学习。这些新方法引发了针对注释效率的新自动病理图像诊断和分析。通过对130篇论文的调查,我们对从技术和方法论的角度来看,对计算病理学领域中有关弱监督学习,半监督学习以及自我监督学习的最新研究进行了全面的系统综述。最后,我们提出了这些技术的关键挑战和未来趋势。
translated by 谷歌翻译
深度学习已成为火星探索的强大工具。火星地形细分是一项重要的火星愿景任务,它是漫游者自动计划和安全驾驶的基础。但是,现有的基于深度学习的地形细分方法遇到了两个问题:一个是缺乏足够的详细和高信心注释,另一个是模型过度依赖于注释的培训数据。在本文中,我们从联合数据和方法设计的角度解决了这两个问题。我们首先提出了一个新的火星地形细分数据集,该数据集包含6K高分辨率图像,并根据置信度稀疏注释,以确保标签的高质量。然后从这些稀疏的数据中学习,我们为火星地形细分的基于表示的学习框架,包括一个自我监督的学习阶段(用于预训练)和半监督的学习阶段(用于微调)。具体而言,对于自我监督的学习,我们设计了一个基于掩盖图像建模(MIM)概念的多任务机制,以强调图像的纹理信息。对于半监督的学习,由于我们的数据集很少注释,因此我们鼓励该模型通过在线生成和利用伪标签来挖掘每个图像中未标记的区域的信息。我们将数据集和方法命名为MARS(S $^{5} $ MARS)的自我监督和半监督分割。实验结果表明,我们的方法可以超越最先进的方法,并通过很大的边距提高地形分割性能。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
与自然图像相比,医学图像很难获取,标签成本很高。作为一种无监督的学习方法,对比学习可以更有效地利用未标记的医学图像。在本文中,我们使用了一种基于变压器的对比学习方法,并通过转移学习创新了对比度学习网络。然后,将输出模型转移到下游腮腺分割任务,该任务改善了测试集上腮腺分割模型的性能。改善的DSC为89.60%,MPA为99.36%,MIOU为85.11%,HD为2.98。与使用监督学习模型作为腮腺分割网络的预训练模型的结果相比,所有四个指标均显示出显着改善。此外,我们发现,通过对比度学习模型对细分网络的改进主要在编码器部分中,因此本文还试图为解码器部分构建对比度学习网络,并讨论了在构建过程中遇到的问题。
translated by 谷歌翻译
本文介绍了Dahitra,这是一种具有分层变压器的新型深度学习模型,可在飓风后根据卫星图像对建筑物的损害进行分类。自动化的建筑损害评估为决策和资源分配提供了关键信息,以快速应急响应。卫星图像提供了实时,高覆盖的信息,并提供了向大规模污点后建筑物损失评估提供信息的机会。此外,深入学习方法已证明在对建筑物的损害进行分类方面有希望。在这项工作中,提出了一个基于变压器的新型网络来评估建筑物的损失。该网络利用多个分辨率的层次空间特征,并在将变压器编码器应用于空间特征后捕获特征域的时间差异。当对大规模灾难损坏数据集(XBD)进行测试以构建本地化和损坏分类以及在Levir-CD数据集上进行更改检测任务时,该网络将实现最先进的绩效。此外,我们引入了一个新的高分辨率卫星图像数据集,IDA-BD(与2021年路易斯安那州的2021年飓风IDA有关,以便域名适应以进一步评估该模型的能力,以适用于新损坏的区域。域的适应结果表明,所提出的模型可以适应一个新事件,只有有限的微调。因此,所提出的模型通过更好的性能和域的适应来推进艺术的当前状态。此外,IDA-BD也提供了A高分辨率注释的数据集用于该领域的未来研究。
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
糖尿病性视网膜病变(DR)是发达国家工人衰老人群中失明的主要原因之一,这是由于糖尿病的副作用降低了视网膜的血液供应。深度神经网络已被广泛用于自动化系统中,以在眼底图像上进行DR分类。但是,这些模型需要大量带注释的图像。在医疗领域,专家的注释昂贵,乏味且耗时。结果,提供了有限数量的注释图像。本文提出了一种半监督的方法,该方法利用未标记的图像和标记的图像来训练一种检测糖尿病性视网膜病的模型。提出的方法通过自我监督的学习使用无监督的预告片,然后使用一小部分标记的图像和知识蒸馏来监督微调,以提高分类任务的性能。在Eyepacs测试和Messidor-2数据集中评估了此方法,仅使用2%的Eyepacs列车标记图像,分别使用0.94和0.89 AUC。
translated by 谷歌翻译
这里介绍了人工智能研究所(IARAI)组织的2022年Landslide4sense(L4S)竞赛的科学结果。竞争的目的是根据全球收集的卫星图像的大规模多个来源自动检测滑坡。 2022 L4S旨在促进有关使用卫星图像的语义分割任务的深度学习模型(DL)模型最新发展的跨学科研究。在过去的几年中,由于卷积神经网络(CNN)的发展,基于DL的模型已经达到了对图像解释的期望。本文的主要目的是介绍本次比赛中介绍的细节和表现最佳的算法。获胜的解决方案详细介绍了Swin Transformer,Segformer和U-NET等最先进的模型。还考虑了先进的机器学习技术和诸如硬采矿,自我培训和混合数据增强之类的策略。此外,我们描述了L4S基准数据集,以促进进一步的比较,并在线报告准确性评估的结果。可以在\ textIt {未来开发排行榜上访问数据,以供将来评估,\ url {https://www.iarai.ac.ac.at/landslide4sense/challenge/},并邀请研究人员提交更多预测结果,评估准确性在他们的方法中,将它们与其他用户的方法进行比较,理想情况下,改善了本文报告的滑坡检测结果。
translated by 谷歌翻译
农民常规施用氮气(N)肥料以增加作物产量。目前,农民经常在某些位置或时间点上过度应用N肥料,因为它们没有高分辨率作物N状态数据。 N用效率可以很低,剩下的N损失环境,导致生产成本高,环境污染。准确和及时估计作物中的N状况至关重要,从而提高种植系统的经济和环境可持续性。基于组织分析的常规方法在实验室中估算植物中的N个状态是耗时和破坏性的。遥感和机器学习的最新进展表明了以非破坏性方式解决上述挑战的承诺。我们提出了一种新的深度学习框架:一种基于频道空间关注的视觉变压器(CSVT),用于估计从麦田中从UAV收集的大图像的作物N状态。与现有的作品不同,所提出的CSVT引入了通道注意力块(CAB)和空间交互块(SIB),其允许捕获来自UAV数字空中图像的空间和通道功能的非线性特性,以获得准确的N状态预测在小麦作物。此外,由于获得标记的数据是耗时且昂贵的,因此引入了本地到全局自我监督的学习,以预先培训CSVT,具有广泛的未标记数据。建议的CSVT与最先进的模型进行了比较,在测试和独立数据集上进行测试和验证。该方法实现了高精度(0.96),具有良好的普遍性和对小麦N状况估算的再现性。
translated by 谷歌翻译
在亲自重新识别(REID)中,最近的研究已经验证了未标记的人图像上的模型的预训练要比ImageNet上要好得多。但是,这些研究直接应用了为图像分类设计的现有自我监督学习(SSL)方法,用于REID,而无需在框架中进行任何适应。这些SSL方法将本地视图的输出(例如红色T恤,蓝色短裤)与同时的全球视图相匹配,从而丢失了很多细节。在本文中,我们提出了一种特定于REID的预训练方法,部分意识的自我监督预训练(PASS),该方法可以生成零件级别的功能以提供细粒度的信息,并且更适合REID。通行证将图像分为几个局部区域,每个区域随机裁剪的本地视图都有特定的可学习[部分]令牌。另一方面,所有地方区域的[部分]也附加到全球视图中。通行证学习以匹配同一[部分]上本地视图的输出和全局视图。也就是说,从本地区域获得的本地视图的[部分]仅与从全球视图中学到的相应[部分]相匹配。结果,每个[部分]可以专注于图像的特定局部区域,并提取该区域的细粒度信息。实验显示通行证在Market1501和MSMT17上的新最先进的表演以及各种REID任务(例如Vanilla vit-s/16)通过Pass Achieves 92.2 \%/90.2 \%/88.5 \%地图准确性,例如Vanilla vit-s/16在Market1501上进行监督/UDA/USL REID。我们的代码可在https://github.com/casia-iva-lab/pass-reid上找到。
translated by 谷歌翻译
自我监督的学习(SSL)已成为几个领域分类和分割任务中的新最先进。其中,SSL中的一个流行类别是蒸馏网络,例如BYOL。这项工作提出了RSDNET,该RSDNET在遥感(RS)域中应用蒸馏网络(BYOL),其中数据与天然RGB图像无关。由于多光谱(MS)和合成孔径雷达(SAR)传感器提供各种光谱和空间分辨率信息,因此我们将它们用作隐式增强,以学习不变特征嵌入。为了通过SSL学习基于RS的不变功能,我们通过两种方式训练了RSDNET,即单频道功能学习和三个通道功能学习。与使用三个或更多频段的常见概念相比,这项工作探讨了从随机MS和SAR频段学习的单个通道特征学习的有用性。在我们的线性评估中,这些单个通道功能在EuroSat分类任务上达到了0.92 F1分数,对于某些单个频段,DFC分割任务上达到了59.6 MIOU。我们还将我们的结果与成像网的重量进行了比较,并表明基于RS的SSL模型的表现优于基于有监督的Imagenet模型。我们进一步探讨了多模式数据与单个模态数据相比的实用性,并且表明,使用MS和SAR数据比仅利用MS数据更好地学习不变表示。
translated by 谷歌翻译
目前,在有监督的学习下,由大规模自然界数据集预测的模型,然后在一些特定的任务标签数据上进行微调,这是主导知识转移学习的范式。它已达到遥感域(RSD)中任务感知模型培训的共识解决方案的状态。不幸的是,由于不同类别的成像数据和数据注释的严峻挑战,因此没有足够大且均匀的遥感数据集来支持RSD中的大规模预处理。此外,通过监督学习,然后直接对不同的下游任务进行微调,在大规模自然场景数据集上进行了预处理的模型似乎是一种粗略的方法,这很容易受到不可避免的标记噪声,严重的域间隙和任务意识到的差异的影响。因此,在本文中,考虑了一个简洁有效的知识转移学习策略,称为连续预审计(CSPT),考虑了不停止在自然语言处理中预处理的想法(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT)(CSPT),那么在本文中。 NLP),可以逐渐弥合域间隙并将知识从自然场景域转移到RSD。拟议的CSPT还可以发布未标记数据的巨大潜力,以进行任务感知模型培训。最后,在RSD的十二个数据集上进行了广泛的实验,涉及三种类型的下游任务(例如,场景分类,对象检测和土地覆盖分类)和两种类型的成像数据(例如,光学和SAR)。结果表明,通过利用拟议的CSPT进行任务感知模型培训,RSD中的几乎所有下游任务都可以胜过先前的监督预处理的方法,然后再进行预先调整,甚至超过了最先进的方法(SOTA)(SOTA)(SOTA)性能没有任何昂贵的标签消费和仔细的模型设计。
translated by 谷歌翻译
In contrastive self-supervised learning, the common way to learn discriminative representation is to pull different augmented "views" of the same image closer while pushing all other images further apart, which has been proven to be effective. However, it is unavoidable to construct undesirable views containing different semantic concepts during the augmentation procedure. It would damage the semantic consistency of representation to pull these augmentations closer in the feature space indiscriminately. In this study, we introduce feature-level augmentation and propose a novel semantics-consistent feature search (SCFS) method to mitigate this negative effect. The main idea of SCFS is to adaptively search semantics-consistent features to enhance the contrast between semantics-consistent regions in different augmentations. Thus, the trained model can learn to focus on meaningful object regions, improving the semantic representation ability. Extensive experiments conducted on different datasets and tasks demonstrate that SCFS effectively improves the performance of self-supervised learning and achieves state-of-the-art performance on different downstream tasks.
translated by 谷歌翻译
通过开发基于生成的自我监督学习(SSL)方法,例如Beit和Mae,如何通过掩盖输入图像的随机补丁并重建缺失信息来学习良好的表示形式。但是,Beit和Peco需要一个“预先陈述”阶段,以生成用于掩盖补丁代表的离散代码手册。 MAE不需要预训练的代码簿流程,但是将像素设置为重建目标可能会引入前训练和下游任务之间的优化差距,即良好的重建质量可能并不总是会导致模型的高描述能力。考虑到上述问题,在本文中,我们提出了一个简单的自鉴定的蒙面自动编码器网络,即SDAE。 SDAE由一个使用编码器解码器结构的学生分支组成,以重建缺失的信息,并制作一个师范分支,生产蒙版代币的潜在表示。我们还分析了如何从信息瓶颈的角度来为教师分支机构建立潜在代表性的好看法。之后,我们提出了一种多重掩蔽策略,以提供多个掩盖视图,并具有平衡的信息以提高性能,这也可以降低计算复杂性。我们的方法很好地概括了:只有300个时期预训练,香草vit-base模型在Imagenet-1K分类上达到了84.1%的微调精度,48.6 MIOU在ADE20K细分方面和48.9 coco检测中的MAP,它超过了其他方法,从而超过其他方法。通过相当大的边距。代码可从https://github.com/abrahamyabo/sdae获得。
translated by 谷歌翻译
监督的深度学习模型取决于大量标记的数据。不幸的是,收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感(RS)变化检测(CD)中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练,该预训练从图像到标签,我们将语义监督纳入了自我监督的学习(SSL)框架中。通常,多个感兴趣的对象(例如,建筑物)以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示,而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征,从而使下游密集的CD受益。为了实现这一目标,我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间,将背景和前景点分开,并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变(照明和无关紧要的土地覆盖)可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩,用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练,内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是,我们使用20%的培训数据获得了比基线(随机初始化)使用100%数据获得竞争结果。我们的代码可用。
translated by 谷歌翻译
本文研究了两种技术,用于开发有效的自我监督视觉变压器(ESVIT)进行视觉表示学习。首先,我们通过一项全面的实证研究表明,具有稀疏自我生产的多阶段体系结构可以显着降低建模的复杂性,但具有失去捕获图像区域之间细粒度对应关系的能力的成本。其次,我们提出了一项新的区域匹配训练任务,该任务使模型可以捕获细粒的区域依赖性,因此显着提高了学习视觉表示的质量。我们的结果表明,ESVIT在ImageNet线性探针评估上结合两种技术,在ImageNet线性探针评估中获得了81.3%的TOP-1,优于先前的艺术,其较高吞吐量的顺序幅度约为较高。当转移到下游线性分类任务时,ESVIT在18个数据集中的17个中优于其受监督的对方。代码和模型可公开可用:https://github.com/microsoft/esvit
translated by 谷歌翻译
Transfer Learning methods are widely used in satellite image segmentation problems and improve performance upon classical supervised learning methods. In this study, we present a semantic segmentation method that allows us to make land cover maps by using transfer learning methods. We compare models trained in low-resolution images with insufficient data for the targeted region or zoom level. In order to boost performance on target data we experiment with models trained with unsupervised, semi-supervised and supervised transfer learning approaches, including satellite images from public datasets and other unlabeled sources. According to experimental results, transfer learning improves segmentation performance 3.4% MIoU (Mean Intersection over Union) in rural regions and 12.9% MIoU in urban regions. We observed that transfer learning is more effective when two datasets share a comparable zoom level and are labeled with identical rules; otherwise, semi-supervised learning is more effective by using the data as unlabeled. In addition, experiments showed that HRNet outperformed building segmentation approaches in multi-class segmentation.
translated by 谷歌翻译
由于缺乏大规模标记的3D数据集,大多数3D神经网络都是从划痕训练。在本文中,我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质,我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外,我们设计了一个上采样功能投影层,以增加高级2D特征图的空间分辨率,这使得能够学习细粒度的3D表示。利用普雷累染的2D网络,所提出的预介绍过程不需要额外的2D或3D标记数据,进一步缓解了昂贵的3D数据注释成本。据我们所知,我们是第一个利用现有的2D培训的权重,以预先rain 3D深度神经网络。我们的密集实验表明,使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。
translated by 谷歌翻译