最近的对比学习方法在低标签制度中实现了最新的。但是,培训需要大批量和重型增强,以创建图像的多个视图。使用非对抗性方法,负面因素被隐式地纳入损失中,允许不同的图像和模态作为对。尽管医学成像中的元信息(即年龄,性别)很丰富,但注释又嘈杂,容易出现阶级失衡。在这项工作中,我们使用纵向光学相干断层扫描(OCT)数据集利用了已经存在的时间信息(来自患者的不同访问),但使用时间知情的非对抗性损失(TINC),而没有增加复杂性和对负面对的需求。此外,我们的新颖配对方案可以避免重大增强,并将时间信息隐含地纳入对。最后,这些从训练中学到的表示在预测时间信息对于下游任务至关重要的情况下更为成功。更具体地说,我们的模型优于现有模型,可以预测从中期与年龄相关的黄斑变性(AMD)到晚期湿AMD阶段的转化风险。
translated by 谷歌翻译
有监督的深度学习算法具有自动化筛查,监视和分级的医学图像的巨大潜力。但是,培训表现模型通常需要大量的标记数据,这在医疗领域几乎无法获得。自我监督的对比框架通过首先从未标记的图像中学习来放松这种依赖性。在这项工作中,我们表明使用两种对比方法进行了预处理,即SIMCLR和BYOL,就与年龄相关的黄斑变性(AMD)的临床评估有关深度学习的实用性。在实验中,使用两个大型临床数据集,其中包含7,912名患者的170,427个光学相干断层扫描(OCT)图像,我们评估了从AMD阶段和类型分类到功能性终点的七个下游任务,从七个下游任务进行预处理,从在标签较少的七个任务中,六个任务中有六个显着增加。但是,标准的对比框架具有两个已知的弱点,这些弱点不利于医疗领域的预处理。用于创建正面对比对的几种图像转换不适用于灰度医学扫描。此外,医学图像通常描绘了相同的解剖区域和疾病的严重程度,从而导致许多误导性负面对。为了解决这些问题,我们开发了一种新颖的元数据增强方法,该方法利用了丰富的固有可用患者信息集。为此,我们采用了患者身份,眼睛位置(即左或右)和时间序列数据的记录,以指示典型的不可知的对比关系。通过利用这种经常被忽视的信息,我们元数据增强的对比预处理可带来进一步的好处,并且在下游七个任务中有五个任务中的五个中的五分之一。
translated by 谷歌翻译
This paper presents a novel positive and negative set selection strategy for contrastive learning of medical images based on labels that can be extracted from clinical data. In the medical field, there exists a variety of labels for data that serve different purposes at different stages of a diagnostic and treatment process. Clinical labels and biomarker labels are two examples. In general, clinical labels are easier to obtain in larger quantities because they are regularly collected during routine clinical care, while biomarker labels require expert analysis and interpretation to obtain. Within the field of ophthalmology, previous work has shown that clinical values exhibit correlations with biomarker structures that manifest within optical coherence tomography (OCT) scans. We exploit this relationship between clinical and biomarker data to improve performance for biomarker classification. This is accomplished by leveraging the larger amount of clinical data as pseudo-labels for our data without biomarker labels in order to choose positive and negative instances for training a backbone network with a supervised contrastive loss. In this way, a backbone network learns a representation space that aligns with the clinical data distribution available. Afterwards, we fine-tune the network trained in this manner with the smaller amount of biomarker labeled data with a cross-entropy loss in order to classify these key indicators of disease directly from OCT scans. Our method is shown to outperform state of the art self-supervised methods by as much as 5% in terms of accuracy on individual biomarker detection.
translated by 谷歌翻译
对于图像表示的自我监督学习最近对线性评估和微调评估有很多突破。这些方法依赖于巧妙制作的损失函数和培训设置,以避免特征崩溃问题。在本文中,我们改进了最近提出的VICREG纸,这引入了一个不依赖于专业训练环的损失函数,以收敛到有用的陈述。我们的方法改进了Vicrog中提出的协方差术语,另外我们通过极大地加速模型收敛的纤维镜层增强了架构的头部。我们的模型在UCR时间序列分类归档和PTB-XL ECG数据集的子集上实现了卓越的性能和对LINEAR评估和微调评估。
translated by 谷歌翻译
具有病理注释的计算机断层扫描(CT)样品很难获得。结果,计算机辅助诊断(CAD)算法在小型数据集(例如带有1,018个样本的LIDC-IDRI)上进行了培训,从而限制了其准确性和可靠性。在过去的五年中,通过二维(2D)和三维(3D)自我监督学习(SSL)算法为CT病变的无监督表示量身定制了几项作品。 2D算法很难捕获3D信息,并且现有的3D算法在计算上很重。轻巧的3D SSL仍然是要探索的边界。在本文中,我们提出了螺旋形对比度学习(SCL),该学习以计算有效的方式产生3D表示。 SCL首先使用信息保护螺旋变换将3D病变转换为2D平面,然后使用2D对比度学习学习转换不变的特征。为了进行增强,我们考虑自然图像增强和医疗图像增强。我们通过在嵌入层上训练分类头来评估SCL。实验结果表明,对于无监督的代表性学习,SCL在LIDC-IDRI(89.72%),LNDB(82.09%)和天奇(90.16%)上实现了最先进的准确性。使用10%的带计算的注释数据,SCL的性能与监督学习算法的性能相当(Lidc-Idri的85.75%比85.03%,78.20%vs. 73.44%的LNDB和87.85%vs. 83.34%vs. 83.34%and。天奇,分别)。同时,与其他3D SSL算法相比,SCL将计算工作减少了66.98%,这证明了该方法在无监督的预训练中的效率。
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译
图像回归任务,如骨矿物密度(BMD)估计和左心室喷射分数(LVEF)预测,在计算机辅助疾病评估中起重要作用。大多数深度回归方法用单一的回归损耗函数训练神经网络,如MSE或L1损耗。在本文中,我们提出了一种用于深度图像回归的第一个对比学习框架,即adacon,其包括通过新颖的自适应边缘对比损耗和回归预测分支的特征学习分支组成。我们的方法包含标签距离关系作为学习特征表示的一部分,这允许在下游回归任务中进行更好的性能。此外,它可以用作即插即用模块,以提高现有回归方法的性能。我们展示了adacon对来自X射线图像的骨矿物密度估计和来自超声心动图象的X射线图像和左心室喷射分数预测的骨矿物密度估计的有效性。 Adacon分别导致MAE在最先进的BMD估计和LVEF预测方法中相对提高3.3%和5.9%。
translated by 谷歌翻译
在过去几年中,无监督的学习取得了很大的进展,特别是通过对比的自我监督学习。用于基准测试自我监督学习的主导数据集已经想象,最近的方法正在接近通过完全监督培训实现的性能。然而,ImageNet DataSet在很大程度上是以对象为中心的,并且目前尚不清楚这些方法的广泛不同的数据集和任务,这些方法是非以对象为中心的,例如数字病理学。虽然自我监督的学习已经开始在这个领域探讨了令人鼓舞的结果,但有理由看起来更接近这个环境与自然图像和想象成的不同。在本文中,我们对组织病理学进行了对比学学习的深入分析,引脚指向对比物镜的表现如何不同,由于组织病理学数据的特征。我们提出了一些考虑因素,例如对比目标和超参数调整的观点。在大量的实验中,我们分析了组织分类的下游性能如何受到这些考虑因素的影响。结果指出了对比学习如何减少数字病理中的注释工作,但需要考虑特定的数据集特征。为了充分利用对比学习目标,需要不同的视野和超参数校准。我们的结果为实现组织病理学应用的自我监督学习的全部潜力铺平了道路。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive selfsupervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by Sim-CLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-ofthe-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100× fewer labels. 1
translated by 谷歌翻译
受到计算机视觉的自我监督学习的最新进展的启发,在本文中,我们介绍了Delores,这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置(数据和计算)中,可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发,我们建议学习对输入音频样本失真不变的嵌入,同时确保它们包含有关样本的非冗余信息。为此,我们测量了两个相同的网络的输出之间的互相关矩阵,该网络用从音频文件采样的音频段的变形版本中,使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习,并且与最先进的算法相比,参数的一半不到一半。为了进行评估,我们将这些学习的表示形式转移到9个下游分类任务,包括语音,音乐和动物声音,并在不同的评估设置下显示竞争结果。除了简单明了,我们的预训练算法还可以通过其固有的构造本质来计算,并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外,我们对结果进行消融研究,并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。
translated by 谷歌翻译
Edema is a common symptom of kidney disease, and quantitative measurement of edema is desired. This paper presents a method to estimate the degree of edema from facial images taken before and after dialysis of renal failure patients. As tasks to estimate the degree of edema, we perform pre- and post-dialysis classification and body weight prediction. We develop a multi-patient pre-training framework for acquiring knowledge of edema and transfer the pre-trained model to a model for each patient. For effective pre-training, we propose a novel contrastive representation learning, called weight-aware supervised momentum contrast (WeightSupMoCo). WeightSupMoCo aims to make feature representations of facial images closer in similarity of patient weight when the pre- and post-dialysis labels are the same. Experimental results show that our pre-training approach improves the accuracy of pre- and post-dialysis classification by 15.1% and reduces the mean absolute error of weight prediction by 0.243 kg compared with training from scratch. The proposed method accurately estimate the degree of edema from facial images; our edema estimation system could thus be beneficial to dialysis patients.
translated by 谷歌翻译
近年来,随着深度神经网络方法的普及,手术计算机视觉领域经历了相当大的突破。但是,用于培训的标准全面监督方法需要大量的带注释的数据,从而实现高昂的成本;特别是在临床领域。已经开始在一般计算机视觉社区中获得吸引力的自我监督学习(SSL)方法代表了对这些注释成本的潜在解决方案,从而使仅从未标记的数据中学习有用的表示形式。尽管如此,SSL方法在更复杂和有影响力的领域(例如医学和手术)中的有效性仍然有限且未开发。在这项工作中,我们通过在手术计算机视觉的背景下研究了四种最先进的SSL方法(Moco V2,Simclr,Dino,SWAV),以解决这一关键需求。我们对这些方法在cholec80数据集上的性能进行了广泛的分析,以在手术环境理解,相位识别和工具存在检测中为两个基本和流行的任务。我们检查了它们的参数化,然后在半监督设置中相对于训练数据数量的行为。如本工作所述和进行的那样,将这些方法的正确转移到手术中,可以使SSL的一般用途获得可观的性能 - 相位识别率高达7%,而在工具存在检测方面,则具有20% - 半监督相位识别方法高达14%。该代码将在https://github.com/camma-public/selfsupsurg上提供。
translated by 谷歌翻译
Deep neural networks have been successfully adopted to diverse domains including pathology classification based on medical images. However, large-scale and high-quality data to train powerful neural networks are rare in the medical domain as the labeling must be done by qualified experts. Researchers recently tackled this problem with some success by taking advantage of models pre-trained on large-scale general domain data. Specifically, researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it with chest X-ray images and paired reports to perform zero-shot pathology classification, thus completely removing the need for pathology-annotated images to train a classification model. Existing studies, however, fine-tuned the pre-trained model with the same contrastive learning objective, and failed to exploit the multi-labeled nature of medical image-report pairs. In this paper, we propose a new fine-tuning strategy based on sentence sampling and positive-pair loss relaxation for improving the downstream zero-shot pathology classification performance, which can be applied to any pre-trained contrastive image-text encoders. Our method consistently showed dramatically improved zero-shot pathology classification performance on four different chest X-ray datasets and 3 different pre-trained models (5.77% average AUROC increase). In particular, fine-tuning CLIP with our method showed much comparable or marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1 score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent diseases from the CheXpert dataset.
translated by 谷歌翻译
在这项工作中,我们使用功能磁共振成像(fMRI)专注于具有挑战性的任务,神经疾病分类。在基于人群的疾病分析中,图卷积神经网络(GCN)取得了显着的成功。但是,这些成就与丰富的标记数据密不可分,对虚假信号敏感。为了改善在标签有效的设置下的fMRI表示学习和分类,我们建议在GCN上使用新颖的,理论驱动的自我监督学习(SSL)框架,即在FMRI分析门上用于时间自我监督学习的CCA。具体而言,要求设计合适有效的SSL策略来提取fMRI的形成和鲁棒特征。为此,我们研究了FMRI动态功能连接(FC)的几种新的图表增强策略,用于SSL培训。此外,我们利用规范相关分析(CCA)在不同的时间嵌入中,并呈现理论含义。因此,这产生了一个新颖的两步GCN学习程序,该过程包括在未标记的fMRI人群图上的(i)SSL组成,并且(ii)在小标记的fMRI数据集上进行了微调,以进行分类任务。我们的方法在两个独立的fMRI数据集上进行了测试,这表明自闭症和痴呆症诊断方面表现出色。
translated by 谷歌翻译
我们介绍了一种对比视频表示方法,它使用课程学习在对比度培训中施加动态抽样策略。更具体地说,Concur以易于正面样本(在时间上和语义上相似的剪辑上)开始对比度训练,并且随着训练的进行,它会有效地提高时间跨度,从而有效地采样了硬质阳性(时间为时间和语义上不同)。为了学习更好的上下文感知表示形式,我们还提出了一个辅助任务,以预测积极剪辑之间的时间距离。我们对两个流行的动作识别数据集进行了广泛的实验,即UCF101和HMDB51,我们提出的方法在两项视频动作识别和视频检索的基准任务上实现了最新的性能。我们通过使用R(2+1)D和C3D编码器以及对Kinetics-400和Kinetics-200200数据集的R(2+1)D和C3D编码器以及预训练的影响来探讨编码器骨架和预训练策略的影响。此外,一项详细的消融研究显示了我们提出的方法的每个组成部分的有效性。
translated by 谷歌翻译
自我监督的对比表示学习提供了从未标记的医学数据集中学习有意义的视觉表示的优势,以进行转移学习。但是,将当前的对比度学习方法应用于医疗数据而不考虑其特定区域的解剖学特征可能会导致视觉表示,这些视觉表示在外观和语义上是不一致的。在本文中,我们建议通过解剖学对比度学习(AWCL)改善医学图像的视觉表示,该学习结合了解剖学信息,以以对比度学习方式增强正/阴性对采样。为自动化的胎儿超声成像任务展示了所提出的方法,从而使从解剖学上相似的相同或不同的超声扫描实现了正对,这些扫描在解剖学上相似,可以将其拉在一起,从而改善了表示的学习。我们从经验上研究了与粗粒和细粒度的粒度纳入解剖信息的效果,以进行对比学习,并发现使用细粒度的解剖学信息的学习能够保留阶层内差异比其对应物更有效。我们还分析了解剖比对我们的AWCL框架的影响,发现使用更独特但解剖学上的样品构成阳性对的影响会带来更好的质量表示。大规模胎儿超声数据集的实验表明,我们的方法对学习表征有效,可以很好地转移到三个临床下游任务,并且与受监督的Imagenet和当前的先进对比度学习方法相比,取得了优越的性能。特别是,在跨域分割任务上,AWCL的表现优于Imagenet监督方法,高于13.8%,基于最先进的对比度方法的方法为7.1%。
translated by 谷歌翻译
由于监督学习模型的培训中的高成本和数据限制,自我监督学习(SSL)最近引起了很多关注。 SSL中的当前范式是利用输入空间的数据增强来创建相同图像的不同视图并训练模型以最大化相似图像之间的表示,并最大程度地减少它们的不同图像。尽管这种方法实现了最新的(SOTA),但仍会实现各种下游任务,但它仍然有机会调查潜在的空间扩展。本文提出了Trimix,这是SSL的一种新颖概念,该概念通过数据的线性插值生成虚拟嵌入,从而为模型提供了新的表示。我们的策略着重于训练模型,以从虚拟的嵌入中提取原始嵌入,从而更好地表示学习。此外,我们提出了一个自称术语,可以提高虚拟嵌入和实际嵌入之间的一致性。我们在八个基准数据集上验证了Trimix,这些数据集由天然和医学图像组成,提高了2.71%和0.41%,比两种数据类型的第二好的模型好。此外,我们的方法表现优于半监督学习中的当前方法,尤其是在低数据制度中。此外,我们的预训练模型显示出更好的传输到其他数据集。
translated by 谷歌翻译
使用超越欧几里德距离的神经网络,深入的Bregman分歧测量数据点的分歧,并且能够捕获分布的发散。在本文中,我们提出了深深的布利曼对视觉表现的对比学习的分歧,我们的目标是通过基于功能Bregman分歧培训额外的网络来提高自我监督学习中使用的对比损失。与完全基于单点之间的分歧的传统对比学学习方法相比,我们的框架可以捕获分布之间的发散,这提高了学习表示的质量。我们展示了传统的对比损失和我们提出的分歧损失优于基线的结合,并且最先前的自我监督和半监督学习的大多数方法在多个分类和对象检测任务和数据集中。此外,学习的陈述在转移到其他数据集和任务时概括了良好。源代码和我们的型号可用于补充,并将通过纸张释放。
translated by 谷歌翻译
胸部射线照相是一种相对便宜,广泛的医疗程序,可传达用于进行诊断决策的关键信息。胸部X射线几乎总是用于诊断呼吸系统疾病,如肺炎或最近的Covid-19。在本文中,我们提出了一个自我监督的深神经网络,其在未标记的胸部X射线数据集上掠夺。学习的陈述转移到下游任务 - 呼吸系统疾病的分类。在四个公共数据集获得的结果表明,我们的方法在不需要大量标记的培训数据的情况下产生竞争力。
translated by 谷歌翻译