Transformer has achieved impressive successes for various computer vision tasks. However, most of existing studies require to pretrain the Transformer backbone on a large-scale labeled dataset (e.g., ImageNet) for achieving satisfactory performance, which is usually unavailable for medical images. Additionally, due to the gap between medical and natural images, the improvement generated by the ImageNet pretrained weights significantly degrades while transferring the weights to medical image processing tasks. In this paper, we propose Bootstrap Own Latent of Transformer (BOLT), a self-supervised learning approach specifically for medical image classification with the Transformer backbone. Our BOLT consists of two networks, namely online and target branches, for self-supervised representation learning. Concretely, the online network is trained to predict the target network representation of the same patch embedding tokens with a different perturbation. To maximally excavate the impact of Transformer from limited medical data, we propose an auxiliary difficulty ranking task. The Transformer is enforced to identify which branch (i.e., online/target) is processing the more difficult perturbed tokens. Overall, the Transformer endeavours itself to distill the transformation-invariant features from the perturbed tokens to simultaneously achieve difficulty measurement and maintain the consistency of self-supervised representations. The proposed BOLT is evaluated on three medical image processing tasks, i.e., skin lesion classification, knee fatigue fracture grading and diabetic retinopathy grading. The experimental results validate the superiority of our BOLT for medical image classification, compared to ImageNet pretrained weights and state-of-the-art self-supervised learning approaches.
translated by 谷歌翻译
由于其最近在减少监督学习的差距方面取得了成功,自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理(NLP)中,自我监督的学习和变形金刚已经是选择的方法。最近的文献表明,变压器也在计算机愿景中越来越受欢迎。到目前为止,当使用大规模监督数据或某种共同监督时,视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化,变化最小。在这项工作中,我们调查自我监督学习的预用图像/视觉变压器,然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器(坐在)并讨论了几种自我监督的培训机制,以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器,并无缝地使用多个自我监控任务。我们表明,可以在小规模数据集上进行预训练,以便在小型数据集上进行下游分类任务,包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好,很少有镜头学习,并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练,FineTuning和评估代码将在以下:https://github.com/sara-ahmed/sit。
translated by 谷歌翻译
转移学习已成为减轻医疗分类任务中缺乏标记数据的标准做法。虽然FineEning使用受监督的想象佩尔预押的下游任务预磨损的功能是简单的,并且在许多作品中进行了广泛的调查,但对自我监督预测的有用性很少有研究。在本文中,我们评估了通过从三种自我监督技术(SIMCLR,SWAV和DINO)对所选医疗分类任务的三种自我监控技术(SIMCLRR,SWAV和DINO)初始化的模型的性能来评估想象成自我监督的可转换性。所选择的任务涵盖Sentinel腋窝淋巴结图像中的肿瘤检测,眼底图像中的糖尿病视网膜病变分类以及胸部X射线图像中的多种病理条件分类。我们展示了自我监督的佩戴模型产生比其监督对应物更丰富的嵌入式,这鉴于线性评估和FineTuning均有益处下游任务。例如,考虑到在织物上的数据的线性评估,我们在糖尿病视网膜病变分类任务中看到高达14.79%的提高,肿瘤分类任务中的5.4%,肺炎中的7.03%AUC检测和9.4%的AUC在胸部X射线的病理条件下检测。此外,我们将动态视觉元嵌入(DVME)引入端到端的转移学习方法,融合来自多种型号的佩尔净化的嵌入物。我们表明,与使用单个掠过的模型方法相比,DVME获得的集体表示导致所选任务的性能的显着改进,并且可以推广到预磨料模型的任何组合。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译
自我监督的学习(SSL)为更好的利用未标记的数据开辟了巨大的机会。对于缺乏注释,通常已知的医学图像分析至关重要。然而,当我们尝试在SSL中使用尽可能多的未标记的医学图像时,打破维度屏障(即,使得可以共同使用2D和3D图像)成为必须的。在本文中,我们提出了一个基于学生教师范式的普遍的自我监督变压器(USST)框架,旨在利用大量未标记的医疗数据,以多种维度来学习丰富的代表。为此,我们将金字塔变压器U-NET(PTU)设计为骨干,由可切换贴片嵌入(SPE)层和变压器层组成。 SPE层根据输入维度切换到2D或3D贴片嵌入。之后,无论其原始尺寸如何,图像都被转换为序列。然后,变压器层以序列到序列方式模拟长期依赖性,从而使您能够学习来自2D和3D图像的表示。与当前维度特定的SSL相比,USST有两个明显的优点:(1)\ TextBF {更有效} - 可以从越来越多的数据中学习表示; (2)\ textBF {更多功能} - 可以传输到各种下游任务。结果表明,USST在六个2D / 3D医学图像分类和分割任务中提供了有希望的结果,表现出大量监督的想象式预训练和高级SSL对应。
translated by 谷歌翻译
自我监督的学习(SSL)通过大量未标记的数据的先知,在各种医学成像任务上取得了出色的性能。但是,对于特定的下游任务,仍然缺乏有关如何选择合适的借口任务和实现细节的指令书。在这项工作中,我们首先回顾了医学成像分析领域中自我监督方法的最新应用。然后,我们进行了广泛的实验,以探索SSL中的四个重要问题用于医学成像,包括(1)自我监督预处理对不平衡数据集的影响,(2)网络体系结构,(3)上游任务对下游任务和下游任务和下游任务的适用性(4)SSL和常用政策用于深度学习的堆叠效果,包括数据重新采样和增强。根据实验结果,提出了潜在的指南,以在医学成像中进行自我监督预处理。最后,我们讨论未来的研究方向并提出问题,以了解新的SSL方法和范式时要注意。
translated by 谷歌翻译
蒙面图像建模(MIM)在各种视觉任务上取得了令人鼓舞的结果。但是,学到的表示形式的有限可区分性表现出来,使一个更强大的视力学习者还有很多值得一试。为了实现这一目标,我们提出了对比度蒙面的自动编码器(CMAE),这是一种新的自我监督的预训练方法,用于学习更全面和有能力的视觉表示。通过详细统一的对比度学习(CL)和掩盖图像模型(MIM),CMAE利用了它们各自的优势,并以强大的实例可辨别性和局部的可感知来学习表示形式。具体而言,CMAE由两个分支组成,其中在线分支是不对称的编码器编码器,而目标分支是动量更新的编码器。在培训期间,在线编码器从蒙面图像的潜在表示中重建了原始图像,以学习整体特征。馈送完整图像的目标编码器通过其在线学习通过对比度学习增强了功能可区分性。为了使CL与MIM兼容,CMAE引入了两个新组件,即用于生成合理的正视图和特征解码器的像素移位,以补充对比度对的特征。多亏了这些新颖的设计,CMAE可以有效地提高了MIM对应物的表示质量和转移性能。 CMAE在图像分类,语义分割和对象检测的高度竞争基准上实现了最先进的性能。值得注意的是,CMAE-BASE在Imagenet上获得了$ 85.3 \%$ $ TOP-1的准确性和$ 52.5 \%$ MIOU的ADE20K,分别超过了$ 0.7 \%\%$ $和$ 1.8 \%$ $。代码将公开可用。
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译
The pretrain-finetune paradigm in modern computer vision facilitates the success of self-supervised learning, which tends to achieve better transferability than supervised learning. However, with the availability of massive labeled data, a natural question emerges: how to train a better model with both self and full supervision signals? In this paper, we propose Omni-suPErvised Representation leArning with hierarchical supervisions (OPERA) as a solution. We provide a unified perspective of supervisions from labeled and unlabeled data and propose a unified framework of fully supervised and self-supervised learning. We extract a set of hierarchical proxy representations for each image and impose self and full supervisions on the corresponding proxy representations. Extensive experiments on both convolutional neural networks and vision transformers demonstrate the superiority of OPERA in image classification, segmentation, and object detection. Code is available at: https://github.com/wangck20/OPERA.
translated by 谷歌翻译
人们普遍认为,污渍差异引起的颜色变化是组织病理学图像分析的关键问题。现有方法采用颜色匹配,染色分离,污渍转移或它们的组合以减轻污渍变化问题。在本文中,我们提出了一种用于组织病理学图像分析的新型染色自适应自我监督学习(SASSL)方法。我们的SASSL将一个域 - 交流训练模块集成到SSL框架中,以学习独特的特征,这些功能对各种转换和污渍变化都具有鲁棒性。所提出的SASSL被视为域不变特征提取的一般方法,可以通过对特定下游任务的特征进行细微调整特征来灵活地与任意下游组织病理学图像分析模块(例如核/组织分割)结合。我们进行了有关公开可用的病理图像分析数据集的实验,包括熊猫,乳腺癌和camelyon16数据集,以实现最先进的性能。实验结果表明,所提出的方法可以鲁棒地提高模型的特征提取能力,并在下游任务中实现稳定的性能改善。
translated by 谷歌翻译
监督的机器学习为各种计算机视觉问题提供了最新的解决方案。但是,对大量标记的培训数据的需求限制了这些算法在稀缺或昂贵的情况下的这些算法的功能。自我监督的学习提供了一种方法,可以通过对未标记数据的特定域进行预处理模型来降低对手动注释数据的需求。在这种方法中,标记的数据完全需要用于微调下游任务的模型。医疗图像细分是一个标签数据需要专家知识并收集大型标记数据集的领域。因此,自我监督的学习算法有望在该领域进行实质性改进。尽管如此,自我监督的学习算法很少用于预识医学图像分割网络。在本文中,我们详细阐述并分析了对下游医学图像分割的监督和自我监督预审方法的有效性,重点是收敛和数据效率。我们发现,对自然图像和目标域特异性图像进行自我监督的预测会导致最快,最稳定的下游收敛性。在我们对ACDC心脏分割数据集的实验中,与Imagenet预处理的模型相比,这种预处理的方法可实现4-5倍的微调收敛。我们还表明,这种方法需要在域特异性数据上进行少于五个时期的预处理,以在下游收敛时间进行这种改进。最后,我们发现,在低数据方案中,有监督的Imagenet预处理达到了最佳准确性,需要少于100个带注释的样品才能实现接近最小误差。
translated by 谷歌翻译
最近,蒙面图像建模(MIM)由于其能力从大量未标记的数据中学习而引起了人们的关注,并且已被证明对涉及自然图像的各种视觉任务有效。同时,由于未标记的图像的数量高,预计3D医学图像中的自我监督学习的潜力预计将是巨大的,以及质量标签的费用和困难。但是,MIM对医学图像的适用性仍然不确定。在本文中,我们证明了掩盖的图像建模方法还可以推进3D医学图像分析,除了自然图像。我们研究掩盖图像建模策略如何从3D医学图像分割的角度利用性能作为代表性的下游任务:i)与天真的对比度学习相比,蒙版的图像建模方法可以加快监督培训的收敛性,甚至更快(1.40美元$ \ times $ \ times $ $ $ )并最终产生更高的骰子分数; ii)预测具有较高掩盖比和相对较小的贴片大小的原始体素值是用于医学图像建模的非平凡的自我监督借口任务; iii)重建的轻质解码器或投影头设计对于3D医学图像上的掩盖图像建模非常有力,该图像加快了训练并降低成本; iv)最后,我们还研究了在不同的实际情况下使用不同图像分辨率和标记的数据比率的MIM方法的有效性。
translated by 谷歌翻译
深度学习和计算机视觉的最新进展减轻了许多瓶颈,从而使算法无标记,并且性能更好。具体而言,变形金刚提供了图像的全球视角,该图像卷积神经网络(CNN)缺乏设计。在这里,我们介绍了跨体系结构自学,这是一种新颖的自我监督学习方法,同时利用了变形金刚和CNN,同时也可以通过易于可用的云服务在计算上访问。与现有的最先进的自我监督学习方法相比,我们从经验上显示了经过CASS训练的CNN,而Transformers则使用100%标记的数据,平均获得8.5%,具有10%标记的数据,为11.5%,1.5%,1百分比在三个不同数据集中标记的数据。值得注意的是,一个被使用的数据集包括自身免疫性疾病的组织病理学幻灯片,这是医学成像中代表性不足的主题,并且数据最少。此外,我们的发现表明,就训练时间而言,CASS的效率是其他最先进方法的两倍。
translated by 谷歌翻译
最近在自我监督学习中的最先进的框架最近表明,与传统的CNN型号相比,基于变压器的模型可以导致性能提升。繁荣以最大化图像的两个视图的相互信息,现有的作品对最终陈述具有对比损失。在我们的工作中,我们通过通过对比损失允许中间表示从最终层学习来进一步利用这一点,这可以最大化原始目标的上限和两层之间的相互信息。我们的方法,自蒸馏自我监督学习(SDSSL),胜过竞争基础(SIMCLR,BYOL和MOCO V3)使用各种任务和数据集。在线性评估和K-NN协议中,SDSSL不仅导致最终层的性能优异,而且在大多数下层中也是如此。此外,正负对准用于解释如何更有效地形成表示。代码将可用。
translated by 谷歌翻译
自我监督的预训练似乎是在转移学习预培训的有利替代方案。通过在借口任务上综合注释,自我划分允许在对目标任务进行细微调整之前对大量伪标签进行预训练模型。在这项工作中,我们评估了诊断皮肤病变的自学意识,将三个自我监管的管道与具有挑战性的监督基线进行了比较,该管道包括五个测试数据集,其中包括分布式和分布样品的五个测试数据集。我们的结果表明,自学在改善准确性和降低结果的可变性方面都具有竞争力。自我划分证明,对于低训练数据方案($ <1 \,500 $和$ <150 $样本)而言,它特别有用,在该方案中,其稳定结果的能力对于提供合理的结果至关重要。
translated by 谷歌翻译
本文探讨了贝尔视觉变压器预训练的更好的码本。最近的工作成功地转移了从NLP到视野领域的BERT预训练。它直接采用一个简单的离散VAE作为视觉销售器,但尚未考虑由此产生的视觉令牌的语义水平。相比之下,NLP字段中的离散令牌是自然的高度语义。这种差异激励我们学习一个感知码本。我们惊奇地找到了一个简单而有效的想法:在DVAE训练期间强制执行感知相似性。我们证明,所提出的感知码本生成的视觉令牌确实表现出更好的语义含义,随后有助于预训练在各种下游任务中实现卓越的转移性能。例如,我们在Imagenet-1K上实现了84.5前1个精度,vit-B骨干,优于竞争方法Beit +1.3,具有相同的训练纪元。它还可以通过+1.3框AP和+1.0掩模AP,在ADE20K上的语义细分,在ADE20K上提高对象检测和分割任务的性能,+1.0 miou,代码和型号将在\ url {https:// github.com/microsoft/peco}。
translated by 谷歌翻译
数据采集​​和注释中的困难基本上限制了3D医学成像应用的训练数据集的样本尺寸。结果,在没有足够的预训练参数的情况下,构建来自划痕的高性能3D卷积神经网络仍然是一项艰巨的任务。以前关于3D预培训的努力经常依赖于自我监督的方法,它在未标记的数据上使用预测或对比学习来构建不变的3D表示。然而,由于大规模监督信息的不可用,从这些学习框架获得语义不变和歧视性表示仍然存在问题。在本文中,我们重新审视了一种创新但简单的完全监督的3D网络预训练框架,以利用来自大型2D自然图像数据集的语义监督。通过重新设计的3D网络架构,重新设计的自然图像用于解决数据稀缺问题并开发强大的3D表示。四个基准数据集上的综合实验表明,所提出的预先接受的模型可以有效地加速收敛,同时还提高了各种3D医学成像任务,例如分类,分割和检测的准确性。此外,与从头划伤的训练相比,它可以节省高达60%的注释工作。在NIH Deeplesion数据集上,它同样地实现了最先进的检测性能,优于早期的自我监督和完全监督的预训练方法,以及从头训练进行培训的方法。为了促进3D医疗模型的进一步发展,我们的代码和预先接受的模型权重在https://github.com/urmagicsmine/cspr上公开使用。
translated by 谷歌翻译
监督学习可以学习大型代表性空间,这对于处理困难的学习任务至关重要。然而,由于模型的设计,经典图像分类方法争取在处理小型数据集时概括为新的问题和新情况。事实上,监督学习可能失去图像特征的位置,这导致在非常深刻的架构中的监督崩溃。在本文中,我们调查了如何有效地对未标记数据的强大和充分增强的自我监督,可以有效地培训神经网络的第一层,甚至比监督学习更好,无需数百万标记的数据。主要目标是通过获取通用任务 - 不可知的低级功能来断开像素数据与注释的连接。此外,我们调查视觉变形金刚(VIV)并表明,从自我监督架构中得出的低级功能可以提高这种紧急架构的鲁棒性和整体性能。我们在最小的开源数据集STL-​​10上评估了我们的方法,当从自我监督的学习架构输入到vit而不是原始时,我们获得了从41.66%的显着提升到83.25%。图片。
translated by 谷歌翻译
在为医疗保健领域开发监督的机器学习解决方案时,具有高质量地面真实标签的大规模数据的可用性是一个挑战。尽管临床工作流程中的数字数据量正在增加,但大多数数据都分布在临床站点上并受到保护以确保患者隐私。放射学读数和处理大型临床数据给可用资源带来了重大负担,这是机器学习和人工智能发挥关键作用的地方。用于肌肉骨骼(MSK)诊断的磁共振成像(MRI)是一个例子,其中扫描具有大量信息,但需要大量时间阅读和标记。自我监督的学习(SSL)可以是处理缺乏地面真相标签的解决方案,但通常需要在训练阶段进行大量培训数据。本文中,我们提出了一个基于切片的自制深度学习框架(SB-SSL),这是一种基于切片的新型范式,用于使用膝盖MRI扫描对异常进行分类。我们表明,在有限数量的情况下(<1000),我们提出的框架能够以89.17%的精度识别前交叉韧带撕裂,而AUC为0.954,不超过最先进的情况,而无需使用外部数据。在训练期间。这表明我们提出的框架适用于有限的数据制度中的SSL。
translated by 谷歌翻译
最近的自我监督学习(SSL)方法在从未标记的图像中学习视觉表示方面显示出令人印象深刻的结果。本文旨在通过利用基础神经网络的建筑优势进一步提高其性能,因为SSL的当前最新视觉借口任务不享受好处,即它们是架构 - 敏捷的。特别是,我们专注于视觉变形金刚(VIT),这些变压器最近引起了人们的关注,作为更好的建筑选择,通常优于各种视觉任务的卷积网络。 VIT的独特特征在于,它从图像中采取了一系列不交联补丁,并在内部处理补丁级表示。受此启发的启发,我们设计了一个简单而有效的视觉借口任务,创造了自我绘制,以学习更好的补丁级表示。要具体而言,我们对每个贴片及其邻居的不变性执行,即每个贴片都将相似的相邻贴片视为正样品。因此,用自我绘制的培训可以学习斑块之间更有意义的关系(不使用人类通知的标签),这可能是有益的,特别是对密集预测类型的下游任务。尽管它很简单,但我们证明了它可以显着提高现有SSL方法的性能,包括对象检测和语义分割。具体而言,SelfPatch通过在可可对象检测上实现+1.3 AP,在COCO实例段中+1.2 AP显着改善了最新的自我监督的VIT,Dino和+2.9 MIOU在ADE20K语义段中。
translated by 谷歌翻译