High content imaging assays can capture rich phenotypic response data for large sets of compound treatments, aiding in the characterization and discovery of novel drugs. However, extracting representative features from high content images that can capture subtle nuances in phenotypes remains challenging. The lack of high-quality labels makes it difficult to achieve satisfactory results with supervised deep learning. Self-Supervised learning methods, which learn from automatically generated labels has shown great success on natural images, offer an attractive alternative also to microscopy images. However, we find that self-supervised learning techniques underperform on high content imaging assays. One challenge is the undesirable domain shifts present in the data known as batch effects, which may be caused by biological noise or uncontrolled experimental conditions. To this end, we introduce Cross-Domain Consistency Learning (CDCL), a novel approach that is able to learn in the presence of batch effects. CDCL enforces the learning of biological similarities while disregarding undesirable batch-specific signals, which leads to more useful and versatile representations. These features are organised according to their morphological changes and are more useful for downstream tasks - such as distinguishing treatments and mode of action.
translated by 谷歌翻译
我们将WS-DINO作为一种新型框架,以从细胞的高内感荧光图像学习表型表示中使用弱标记信息。我们的模型基于具有视觉变压器骨干(Dino)的知识蒸馏方法,我们将其用作研究的基准模型。使用WS-DINO,我们对高含量显微镜屏幕(处理和化合物)中可用的弱标签信息进行了微调,并在BBBC021数据集的非同样化合物的动作预测中实现了最先进的性能(98%),并使用该化合物作为弱标签,而非类型的化合物和批处理性能(96%)。我们的方法绕过单细胞种植作为预处理步骤,并使用自发图表表明该模型学习结构上有意义的表型曲线。
translated by 谷歌翻译
大多数现有的工作在几次学习中,依赖于Meta-Learning网络在大型基础数据集上,该网络通常是与目标数据集相同的域。我们解决了跨域几秒钟的问题,其中基础和目标域之间存在大移位。与未标记的目标数据的跨域几秒识别问题在很大程度上在文献中毫无根据。启动是使用自我训练解决此问题的第一个方法。但是,它使用固定的老师在标记的基础数据集上返回,以为未标记的目标样本创建软标签。由于基本数据集和未标记的数据集来自不同的域,因此将基本数据集的类域中的目标图像投影,具有固定的预制模型可能是子最优的。我们提出了一种简单的动态蒸馏基方法,以方便来自新颖/基础数据集的未标记图像。我们通过从教师网络中的未标记图像的未标记版本的预测计算并将其与来自学生网络相同的相同图像的强大版本匹配来施加一致性正常化。教师网络的参数被更新为学生网络参数的指数移动平均值。我们表明所提出的网络了解可以轻松适应目标域的表示,即使它尚未在预先预测阶段的目标专用类别训练。我们的车型优于当前最先进的方法,在BSCD-FSL基准中的5次分类,3.6%的3.6%,并在传统的域名几枪学习任务中显示出竞争性能。
translated by 谷歌翻译
通过自学学习的视觉表示是一项极具挑战性的任务,因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强,大规模数据集和过量量的计算来实现的。视频自我监督学习(SSL)面临着额外的挑战:视频数据集通常不如图像数据集那么大,计算是一个数量级,并且优化器所必须通过的伪造模式数量乘以几倍。因此,直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题,我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型,并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此,我们修改了典型的基于视频的SSL设计和目标,以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容,该模型在通用域上训练。所提出的算法被证明可以更有效地学习(即在较小的时期和较小的批次中),并在单模式SSL方法中对标准下游任务进行了新的最新性能。
translated by 谷歌翻译
近年来,随着深度神经网络方法的普及,手术计算机视觉领域经历了相当大的突破。但是,用于培训的标准全面监督方法需要大量的带注释的数据,从而实现高昂的成本;特别是在临床领域。已经开始在一般计算机视觉社区中获得吸引力的自我监督学习(SSL)方法代表了对这些注释成本的潜在解决方案,从而使仅从未标记的数据中学习有用的表示形式。尽管如此,SSL方法在更复杂和有影响力的领域(例如医学和手术)中的有效性仍然有限且未开发。在这项工作中,我们通过在手术计算机视觉的背景下研究了四种最先进的SSL方法(Moco V2,Simclr,Dino,SWAV),以解决这一关键需求。我们对这些方法在cholec80数据集上的性能进行了广泛的分析,以在手术环境理解,相位识别和工具存在检测中为两个基本和流行的任务。我们检查了它们的参数化,然后在半监督设置中相对于训练数据数量的行为。如本工作所述和进行的那样,将这些方法的正确转移到手术中,可以使SSL的一般用途获得可观的性能 - 相位识别率高达7%,而在工具存在检测方面,则具有20% - 半监督相位识别方法高达14%。该代码将在https://github.com/camma-public/selfsupsurg上提供。
translated by 谷歌翻译
特征回归是将大型神经网络模型蒸馏到较小的功能回归。我们表明,随着网络架构的简单变化,回归可能会优于自我监督模型的知识蒸馏更复杂的最先进方法。令人惊讶的是,即使仅在蒸馏过程中仅使用并且在下游任务中丢弃时,将多层的Perceptron头部添加到CNN骨架上是有益的。因此,更深的非线性投影可以使用在不改变推理架构和时间的情况下准确地模仿老师。此外,我们利用独立的投影头来同时蒸馏多个教师网络。我们还发现,使用与教师和学生网络的输入相同的弱增强图像辅助蒸馏。Imagenet DataSet上的实验证明了各种自我监督蒸馏环境中提出的变化的功效。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译
最近在自我监督学习中的最先进的框架最近表明,与传统的CNN型号相比,基于变压器的模型可以导致性能提升。繁荣以最大化图像的两个视图的相互信息,现有的作品对最终陈述具有对比损失。在我们的工作中,我们通过通过对比损失允许中间表示从最终层学习来进一步利用这一点,这可以最大化原始目标的上限和两层之间的相互信息。我们的方法,自蒸馏自我监督学习(SDSSL),胜过竞争基础(SIMCLR,BYOL和MOCO V3)使用各种任务和数据集。在线性评估和K-NN协议中,SDSSL不仅导致最终层的性能优异,而且在大多数下层中也是如此。此外,正负对准用于解释如何更有效地形成表示。代码将可用。
translated by 谷歌翻译
本文研究了两种技术,用于开发有效的自我监督视觉变压器(ESVIT)进行视觉表示学习。首先,我们通过一项全面的实证研究表明,具有稀疏自我生产的多阶段体系结构可以显着降低建模的复杂性,但具有失去捕获图像区域之间细粒度对应关系的能力的成本。其次,我们提出了一项新的区域匹配训练任务,该任务使模型可以捕获细粒的区域依赖性,因此显着提高了学习视觉表示的质量。我们的结果表明,ESVIT在ImageNet线性探针评估上结合两种技术,在ImageNet线性探针评估中获得了81.3%的TOP-1,优于先前的艺术,其较高吞吐量的顺序幅度约为较高。当转移到下游线性分类任务时,ESVIT在18个数据集中的17个中优于其受监督的对方。代码和模型可公开可用:https://github.com/microsoft/esvit
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to selfsupervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected. 3
translated by 谷歌翻译
We introduce Bootstrap Your Own Latent (BYOL), a new approach to self-supervised image representation learning. BYOL relies on two neural networks, referred to as online and target networks, that interact and learn from each other. From an augmented view of an image, we train the online network to predict the target network representation of the same image under a different augmented view. At the same time, we update the target network with a slow-moving average of the online network. While state-of-the art methods rely on negative pairs, BYOL achieves a new state of the art without them. BYOL reaches 74.3% top-1 classification accuracy on ImageNet using a linear evaluation with a ResNet-50 architecture and 79.6% with a larger ResNet. We show that BYOL performs on par or better than the current state of the art on both transfer and semi-supervised benchmarks. Our implementation and pretrained models are given on GitHub. 3 * Equal contribution; the order of first authors was randomly selected.
translated by 谷歌翻译
当自我监督的模型已经显示出比在规模上未标记的数据训练的情况下的监督对方的可比视觉表现。然而,它们的功效在持续的学习(CL)场景中灾难性地减少,其中数据被顺序地向模型呈现给模型。在本文中,我们表明,通过添加将表示的当前状态映射到其过去状态,可以通过添加预测的网络来无缝地转换为CL的蒸馏机制。这使我们能够制定一个持续自我监督的视觉表示的框架,学习(i)显着提高了学习象征的质量,(ii)与若干最先进的自我监督目标兼容(III)几乎没有近似参数调整。我们通过在各种CL设置中培训六种受欢迎的自我监督模型来证明我们的方法的有效性。
translated by 谷歌翻译
受到计算机视觉的自我监督学习的最新进展的启发,在本文中,我们介绍了Delores,这是一种新的通用音频表示方法。我们的主要目标是使我们的网络学习在资源受限的设置(数据和计算)中,可以很好地跨越各种下游任务。受Barlow Twins目标功能的启发,我们建议学习对输入音频样本失真不变的嵌入,同时确保它们包含有关样本的非冗余信息。为此,我们测量了两个相同的网络的输出之间的互相关矩阵,该网络用从音频文件采样的音频段的变形版本中,使其尽可能接近身份矩阵。我们将大规模音频集数据集和FSD50K的一小部分组合用于自学学习,并且与最先进的算法相比,参数的一半不到一半。为了进行评估,我们将这些学习的表示形式转移到9个下游分类任务,包括语音,音乐和动物声音,并在不同的评估设置下显示竞争结果。除了简单明了,我们的预训练算法还可以通过其固有的构造本质来计算,并且不需要仔细的实施细节以避免琐碎或退化的解决方案。此外,我们对结果进行消融研究,并使我们的所有代码和预培训模型公开可用https://github.com/speech-lab-iitm/delores。
translated by 谷歌翻译
最近,电子学习平台已经发展为学生可以发表疑问(用智能手机拍摄的快照)并在几分钟内解决的地方。但是,这些平台的质量差异很大的学生寄出疑问的数量显着增加,这不仅给教师导航解决方案带来了挑战,还增加了每个疑问的分辨率时间。两者都是不可接受的,因为高度怀疑的时间阻碍了学生学习进度的学习。这需要方法来自动识别存储库中是否存在类似的疑问,然后将其作为验证和与学生沟通的合理解决方案。监督的学习技术(如暹罗建筑)需要标签来识别比赛,这是不可行的,因为标签稀缺且昂贵。因此,在这项工作中,我们基于通过自我监督技术学到的表示形式开发了符合范式的标签不足的疑问。在BYOL的先前理论见解(Bootstrap您自己的潜在空间)的基础上,我们提出了Custom Byol,将特定于域特异性的增强与对比目标结合在一起,而不是各种适当构建的数据视图。结果强调,与BYOL和监督学习实例相比,Custom Byol分别将TOP-1匹配精度提高了大约6 \%和5 \%。我们进一步表明,基于BYOL的学习实例在标准杆上的性能比人类标签更好。
translated by 谷歌翻译
Computational pathology can lead to saving human lives, but models are annotation hungry and pathology images are notoriously expensive to annotate. Self-supervised learning has shown to be an effective method for utilizing unlabeled data, and its application to pathology could greatly benefit its downstream tasks. Yet, there are no principled studies that compare SSL methods and discuss how to adapt them for pathology. To address this need, we execute the largest-scale study of SSL pre-training on pathology image data, to date. Our study is conducted using 4 representative SSL methods on diverse downstream tasks. We establish that large-scale domain-aligned pre-training in pathology consistently out-performs ImageNet pre-training in standard SSL settings such as linear and fine-tuning evaluations, as well as in low-label regimes. Moreover, we propose a set of domain-specific techniques that we experimentally show leads to a performance boost. Lastly, for the first time, we apply SSL to the challenging task of nuclei instance segmentation and show large and consistent performance improvements under diverse settings.
translated by 谷歌翻译
自我监督的预训练似乎是在转移学习预培训的有利替代方案。通过在借口任务上综合注释,自我划分允许在对目标任务进行细微调整之前对大量伪标签进行预训练模型。在这项工作中,我们评估了诊断皮肤病变的自学意识,将三个自我监管的管道与具有挑战性的监督基线进行了比较,该管道包括五个测试数据集,其中包括分布式和分布样品的五个测试数据集。我们的结果表明,自学在改善准确性和降低结果的可变性方面都具有竞争力。自我划分证明,对于低训练数据方案($ <1 \,500 $和$ <150 $样本)而言,它特别有用,在该方案中,其稳定结果的能力对于提供合理的结果至关重要。
translated by 谷歌翻译
在过去几年中,无监督的学习取得了很大的进展,特别是通过对比的自我监督学习。用于基准测试自我监督学习的主导数据集已经想象,最近的方法正在接近通过完全监督培训实现的性能。然而,ImageNet DataSet在很大程度上是以对象为中心的,并且目前尚不清楚这些方法的广泛不同的数据集和任务,这些方法是非以对象为中心的,例如数字病理学。虽然自我监督的学习已经开始在这个领域探讨了令人鼓舞的结果,但有理由看起来更接近这个环境与自然图像和想象成的不同。在本文中,我们对组织病理学进行了对比学学习的深入分析,引脚指向对比物镜的表现如何不同,由于组织病理学数据的特征。我们提出了一些考虑因素,例如对比目标和超参数调整的观点。在大量的实验中,我们分析了组织分类的下游性能如何受到这些考虑因素的影响。结果指出了对比学习如何减少数字病理中的注释工作,但需要考虑特定的数据集特征。为了充分利用对比学习目标,需要不同的视野和超参数校准。我们的结果为实现组织病理学应用的自我监督学习的全部潜力铺平了道路。
translated by 谷歌翻译
胸部射线照相是一种相对便宜,广泛的医疗程序,可传达用于进行诊断决策的关键信息。胸部X射线几乎总是用于诊断呼吸系统疾病,如肺炎或最近的Covid-19。在本文中,我们提出了一个自我监督的深神经网络,其在未标记的胸部X射线数据集上掠夺。学习的陈述转移到下游任务 - 呼吸系统疾病的分类。在四个公共数据集获得的结果表明,我们的方法在不需要大量标记的培训数据的情况下产生竞争力。
translated by 谷歌翻译