Modeling noise transition matrix is a kind of promising method for learning with label noise. Based on the estimated noise transition matrix and the noisy posterior probabilities, the clean posterior probabilities, which are jointly called Label Distribution (LD) in this paper, can be calculated as the supervision. To reliably estimate the noise transition matrix, some methods assume that anchor points are available during training. Nonetheless, if anchor points are invalid, the noise transition matrix might be poorly learned, resulting in poor performance. Consequently, other methods treat reliable data points, extracted from training data, as pseudo anchor points. However, from a statistical point of view, the noise transition matrix can be inferred from data with noisy labels under the clean-label-domination assumption. Therefore, we aim to estimate the noise transition matrix without (pseudo) anchor points. There is evidence showing that samples are more likely to be mislabeled as other similar class labels, which means the mislabeling probability is highly correlated with the inter-class correlation. Inspired by this observation, we propose an instance-specific Label Distribution Regularization (LDR), in which the instance-specific LD is estimated as the supervision, to prevent DCNNs from memorizing noisy labels. Specifically, we estimate the noisy posterior under the supervision of noisy labels, and approximate the batch-level noise transition matrix by estimating the inter-class correlation matrix with neither anchor points nor pseudo anchor points. Experimental results on two synthetic noisy datasets and two real-world noisy datasets demonstrate that our LDR outperforms existing methods.
translated by 谷歌翻译
尽管变形金刚已成功地从其语言建模起源过渡到基于图像的应用程序,但它们的二次计算复杂性仍然是一个挑战,尤其是对于密集的预测。在本文中,我们提出了一种基于内容的稀疏注意方法,以替代密集的自我注意力,旨在降低计算复杂性,同时保留对远程依赖性建模的能力。具体而言,我们聚集,然后汇总键和值代币,作为减少总代币计数的基于内容的方法。由此产生的聚类序列保留了原始信号的语义多样性,但可以以较低的计算成本进行处理。此外,我们进一步将聚类引导的注意力从单尺度扩展到多尺度,这有利于密集的预测任务。我们标记了提出的变压器体系结构固定,并证明它在各种视觉任务上实现了最新的性能,但计算成本较低,参数较少。例如,我们具有2270万参数的cluster小型模型可在Imagenet上实现83.2 \%TOP-1的精度。源代码和Imagenet模型将公开可用。
translated by 谷歌翻译
本文研究了从预先训练的模型,尤其是蒙面自动编码器中提取知识的潜力。我们的方法很简单:除了优化掩盖输入的像素重建损失外,我们还将教师模型的中间特征图与学生模型的中间特征图之间的距离最小化。此设计导致一个计算高效的知识蒸馏框架,给定1)仅使用一个少量可见的补丁子集,2)(笨拙的)教师模型仅需要部分执行,\ ie,\ ie,在前几个中,向前传播输入层,用于获得中间特征图。与直接蒸馏微型模型相比,提炼预训练的模型显着改善了下游性能。例如,通过将知识从MAE预先训练的VIT-L提炼为VIT-B,我们的方法可实现84.0%的Imagenet Top-1精度,表现优于直接将微型VIT-L蒸馏的基线,降低1.2%。更有趣的是,我们的方法即使具有极高的掩盖率也可以从教师模型中进行鲁棒性蒸馏:例如,在蒸馏过程中仅可见十个斑块,我们的VIT-B具有竞争力的前1个Imagenet精度为83.6%,在95%的掩盖率中,只有十个斑块。 ;令人惊讶的是,它仍然可以通过仅四个可见斑(98%的掩盖率)积极训练来确保82.4%的Top-1 Imagenet精度。代码和模型可在https://github.com/ucsc-vlaa/dmae上公开获得。
translated by 谷歌翻译
自我监督学习的一个重要目标是使模型预训练能够从几乎无限的数据中受益。但是,一种最近变得流行的方法,即掩盖图像建模(MIM),被怀疑无法从较大的数据中受益。在这项工作中,我们通过广泛的实验打破了这一误解,数据量表从10 \%imagenet-1k到完整的Imagenet-22K,型号的尺寸从4,900万到10亿,培训长度从125k迭代到500k迭代迭代范围不等。我们的研究表明:(i)蒙版的图像建模也要求对较大的数据进行要求。我们观察到,非常大的模型被相对较小的数据过度。 (ii)培训的时间长度。接受掩盖图像建模训练的大型模型可以从更多的数据中受益,并具有更长的培训。 (iii)预训练中的验证损失是衡量模型在多个任务上进行微调的表现的好指标。该观察结果使我们能够预先评估预训练的模型,而无需对下游任务进行昂贵的试用和错误评估。我们希望我们的发现能够从缩放能力方面提高对蒙版图像建模的理解。
translated by 谷歌翻译
视觉变形金刚最近的成功是在图像识别中挥舞着卷积神经网络(CNN)的长期优势。具体而言,就稳健性而言,最近的研究发现,无论训练设置如何,变压器本质上比CNN更强大。此外,人们认为,变形金刚的这种优越性应该在很大程度上被认为是他们的自我注意力型建筑本身。在本文中,我们通过密切研究变压器的设计来质疑这种信念。我们的发现导致了三种高效的体系结构设计,以提高鲁棒性,但很简单,可以在几行代码中实现,即a)修补输入图像,b)扩大内核大小,c)降低激活层和归一化层。将这些组件融合在一起,我们能够构建纯CNN体系结构,而没有任何类似注意力的操作,这些操作比变形金刚更强大,甚至更健壮。我们希望这项工作可以帮助社区更好地了解强大的神经体系结构的设计。该代码可在https://github.com/ucsc-vlaa/robustcnn上公开获得。
translated by 谷歌翻译
形成含有各种不同化合物的高质量分子候选套装对于药物发现的成功至关重要。然而,与旨在优化化学性质的研究相比,如何相对描述如何测量和改善各种药物候选者。在本文中,首先研究通过公理分析框架和实证研究妥善测量分子种类的问题。我们的分析表明,许多现有措施不适用于评估各种分子。我们还根据我们的分析提出了新的各种措施。我们进一步明确地将所提出的各种措施集成到分子产生模型的优化目标中。我们的实验结果表明,这种新的优化目标可以指导分子产生模型,以找到覆盖贮藏的化学空间的化合物,提供更明显的药物候选选择的下游阶段。
translated by 谷歌翻译
自我监督的学习(SSL)为更好的利用未标记的数据开辟了巨大的机会。对于缺乏注释,通常已知的医学图像分析至关重要。然而,当我们尝试在SSL中使用尽可能多的未标记的医学图像时,打破维度屏障(即,使得可以共同使用2D和3D图像)成为必须的。在本文中,我们提出了一个基于学生教师范式的普遍的自我监督变压器(USST)框架,旨在利用大量未标记的医疗数据,以多种维度来学习丰富的代表。为此,我们将金字塔变压器U-NET(PTU)设计为骨干,由可切换贴片嵌入(SPE)层和变压器层组成。 SPE层根据输入维度切换到2D或3D贴片嵌入。之后,无论其原始尺寸如何,图像都被转换为序列。然后,变压器层以序列到序列方式模拟长期依赖性,从而使您能够学习来自2D和3D图像的表示。与当前维度特定的SSL相比,USST有两个明显的优点:(1)\ TextBF {更有效} - 可以从越来越多的数据中学习表示; (2)\ textBF {更多功能} - 可以传输到各种下游任务。结果表明,USST在六个2D / 3D医学图像分类和分割任务中提供了有希望的结果,表现出大量监督的想象式预训练和高级SSL对应。
translated by 谷歌翻译
手动注释医学图像是高度主观的,导致不可避免和巨大的注释偏见。深度学习模型可能超过各种任务的人类性能,但它们也可能模仿或放大这些偏差。虽然我们可以有多个注释器并融化它们的注释来减少随机错误,但我们无法使用这种策略来处理因注释器偏好引起的偏差。在本文中,我们突出了对医学图像分割任务的注释相关偏差问题,并提出了涉及涉及的注释分配学习(PADL)框架来解决它从解开注入者的偏好使用分配学习的随机误差的偏好来解决它由于不仅产生元分割,而且产生每个注释器的分割。在此框架下,随机误差建模(SEM)模块估计元分割图和平均随机错误映射,以及一系列人类偏好建模(HPM)模块估计每个注释器的分段和相应的随机误差。我们在具有不同的成像方式的两个医学图像基准上进行了评估了我们的PADL框架,这些模型由多个医疗专业人员注释,并在所有五种医学图像分割任务上取得了有希望的表现。
translated by 谷歌翻译
本文介绍了Simmim,这是一个简单的蒙面图像建模框架。我们在没有特殊设计的情况下简化了最近提出的相关方法,例如通过离散VAE或聚类的块状掩蔽和令牌化。要研究蒙版图像建模任务学习良好的表示,我们系统地研究了我们框架中的主要组成部分,并发现每个组件的简单设计揭示了非常强烈的表示学习性能:1)用中等的输入图像随机掩蔽输入图像大型蒙面贴片尺寸(例如,32)进行了强大的文本前任务; 2)通过直接回归预测RGB值的原始像素不比具有复杂设计的补丁分类方法更差; 3)预测头可以像线性层一样光,性能比较重的形式更差。使用VIT-B,我们的方法通过预训练在此数据集上进行预培训,我们的方法在ImageNet-1K上实现了83.8%的精细调整精度,超过了以前最佳方法+ 0.6%。当应用于大约6.5亿参数的更大模型时,SwinV2-H,它在Imagenet-1K上使用Imagenet-1K数据实现了87.1%的前1个精度。我们还利用这种方法来促进3B模型(SWINV2-G)的培训,比以前的实践中的数据减少40美元,我们在四个代表性视觉基准上实现了最先进的。代码和模型将在https://github.com/microsoft/simmim公开使用。
translated by 谷歌翻译
我们提出了用于将Swin变压器缩放到3亿参数的技术,并使其能够使用高达1,536美元的图像培训1,536美元。通过缩放容量和分辨率,Swin变压器在四个代表视觉基准上设置新记录:84.0%的Top-1在Imagenet-V2图像分类准确度,63.1 / 54.4盒/掩模地图上的Coco对象检测,59.9 Miou在Ade20K语义细分中,在动力学-400视频动作分类上的86.8%的前1个精度。我们的技术通常适用于缩放视觉模型,这尚未广泛探索为NLP语言模型,部分原因是培训和应用中的困难:1)视觉模型经常面临规模的不稳定问题,2)许多下游愿景任务需要高分辨率图像或窗口,并且目前尚不清楚如何有效地将模型在低分辨率上预先培训到更高分辨率。当图像分辨率高时,GPU存储器消耗也是一个问题。为了解决这些问题,我们提出了几种技术,通过使用Swin Transformer作为案例研究来说明:1)归一化技术和缩放的余弦注意力,提高大视觉模型的稳定性; 2)一种日志间隔的连续位置偏置技术,以有效地将在低分辨率图像和窗口预先训练的模型转移到其更高分辨率的对应物。此外,我们分享了我们的关键实施细节,导致GPU内存消耗的大量节省,从而使得用常规GPU培训大型视觉模型可行。使用这些技术和自我监督的预训练,我们成功培训了强大的3B往返变压器模型,并有效地将其转移到涉及高分辨率图像或窗口的各种视觉任务,实现了各种最先进的准确性基准。
translated by 谷歌翻译