我们展示了自我监督学习的使用来探索和利用大型未标记的数据集。从最新数据释放的暗能谱仪器(DESI)传统成像调查中侧重于4200万个Galaxy图像,我们首先培养一个自我监督模型来蒸馏到对称,不确定性和每个噪声的强大稳健图片。然后,我们使用表示来构建和公开发布交互式语义相似性搜索工具。我们展示了我们的工具如何用于迅速发现罕见的物体,仅给出一个例子,提高人群采购活动的速度,并构建和改进监督应用程序的培训集。虽然我们专注于Sky调查的图像,但该技术很简单适用于任何维度的任何科学数据集。可以在https://github.com/georgestein/galaxy_search找到相似性搜索Web应用程序
translated by 谷歌翻译
我们采用自我监督的代表性学习来从深色能源仪器遗产成像调查的数据释放9中从7600万个星系图像中提取信息9.针对新的强力引力镜头候选者的识别,我们首先创建了快速的相似性搜索工具,以发现新的搜索工具强镜仅给出一个单个标记的示例。然后,我们展示如何在自我监督的表示上训练简单的线性分类器,仅需几分钟即可在CPU上进行几分钟,可以自动以极高的效率对强镜进行分类。我们提出了1192个新的强镜候选者,我们通过简短的视觉标识活动确定,并释放一种基于Web的相似性搜索工具和顶级网络预测,以促进众包快速发现额外的强力镜头和其他稀有物体:HTTPS:https://github.com/georgestein/ssl-legacysurvey。
translated by 谷歌翻译
天文学家通常已经着手通过从头开始创建自己的表示来解决监督的机器学习问题。我们表明,经过训练的深度学习模型,可以回答每个星系动物园贴花问题问题,即学习星系的有意义的语义表示,这些语义表示对于从未训练过的新任务很有用。我们利用这些表示形式优于最近对研究大型星系样本至关重要的实际任务的方法。第一个任务是识别与查询星系相似的形态的星系。给定一个星系为人类分配了一个免费文本标签(例如“ #diffuse”),我们可以找到与大多数标签匹配该标签的星系。第二个任务是确定特定研究人员最有趣的异常。我们的方法在识别最有趣的100个异常(由Galaxy Zoo 2志愿者判断)方面是100%准确的。第三个任务是调整模型来仅使用少数新标记的星系解决新任务。与从陆地图像(ImageNet)或从头开始训练的模型相比,从我们的表示形式进行微调的模型可以更好地识别环形星系。我们用很少的新标签解决每个任务;一个(用于相似性搜索)或数百个(用于异常检测或微调)。这挑战了长期以来的观点,即深度监督方法需要新的大型标签数据集,以便在天文学中实际使用。为了帮助社区受益于我们验证的模型,我们发布了我们的微调代码Zoobot。没有先前经验的研究人员可以访问Zoobot。
translated by 谷歌翻译
现代的天空调查正在产生大量的观测数据,这使经典方法的应用用于分类和分析对象具有挑战性和耗时的。但是,使用自动机器和深度学习方法可能会大大减轻此问题。我们提出了一种新的深度学习工具Ulisse,它从单个原型对象开始,能够识别具有相同形态和光度特性的对象,因此可以创建候选苏西亚列表。在这项工作中,我们专注于在斯隆数字天空调查的星系样本中应用方法来检测AGN候选物,因为光带中主动银河系核(AGN)的鉴定和分类仍然是外层术天文学的挑战性任务。乌里斯(Ulisse)旨在初步探索大型天空调查,直接使用从图像网数据集提取的功能来执行相似性搜索。该方法能够快速识别仅从给定原型的单个图像开始的候选人列表,而无需任何耗时的神经网络训练。我们的实验表明,乌里斯(Ulisse)能够根据宿主星系形态,颜色和中央核源的存在的结合来鉴定AGN候选物,检索效率从21%到65%(包括复合源)(包括复合源),这是基于宿主的候选者。随机猜测基线为12%。我们发现,与具有螺旋形或晚期特性的原型相反,Ulisse在早期型宿主星系中检索AGN最有效。根据这项工作中描述的结果,Ulisse可以是在当前和未来的广阔田野调查(例如欧几里得,LSST等)中选择不同类型的天体物理对象的有前途的工具,该工具每晚都针对数百万个来源。
translated by 谷歌翻译
我们在过去十年中目睹了监督学习范式的大规模增长。监督学习需要大量标记的数据来达到最先进的性能。但是,标记样本需要很多人的注释。为避免标签数据的成本,提出了自我监督的方法来利用大部分可用的未标记数据。本研究对特征表示的自我监督范式的最新发展进行了全面和富有洞察力的调查和分析。在本文中,我们调查了影响不同环境下自我监督有用性的因素。我们展示了一些关于自我监督,生成和对比方法的两种不同方法的关键见解。我们还调查了监督对抗培训的局限性以及自我监督如何帮助克服这些限制。然后,我们继续讨论有效利用自我监督对视觉任务的局限性和挑战。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
The objective of this paper is visual-only self-supervised video representation learning. We make the following contributions: (i) we investigate the benefit of adding semantic-class positives to instance-based Info Noise Contrastive Estimation (In-foNCE) training, showing that this form of supervised contrastive learning leads to a clear improvement in performance; (ii) we propose a novel self-supervised co-training scheme to improve the popular infoNCE loss, exploiting the complementary information from different views, RGB streams and optical flow, of the same data source by using one view to obtain positive class samples for the other; (iii) we thoroughly evaluate the quality of the learnt representation on two different downstream tasks: action recognition and video retrieval. In both cases, the proposed approach demonstrates state-of-the-art or comparable performance with other self-supervised approaches, whilst being significantly more efficient to train, i.e. requiring far less training data to achieve similar performance.
translated by 谷歌翻译
在过去几年中,无监督的学习取得了很大的进展,特别是通过对比的自我监督学习。用于基准测试自我监督学习的主导数据集已经想象,最近的方法正在接近通过完全监督培训实现的性能。然而,ImageNet DataSet在很大程度上是以对象为中心的,并且目前尚不清楚这些方法的广泛不同的数据集和任务,这些方法是非以对象为中心的,例如数字病理学。虽然自我监督的学习已经开始在这个领域探讨了令人鼓舞的结果,但有理由看起来更接近这个环境与自然图像和想象成的不同。在本文中,我们对组织病理学进行了对比学学习的深入分析,引脚指向对比物镜的表现如何不同,由于组织病理学数据的特征。我们提出了一些考虑因素,例如对比目标和超参数调整的观点。在大量的实验中,我们分析了组织分类的下游性能如何受到这些考虑因素的影响。结果指出了对比学习如何减少数字病理中的注释工作,但需要考虑特定的数据集特征。为了充分利用对比学习目标,需要不同的视野和超参数校准。我们的结果为实现组织病理学应用的自我监督学习的全部潜力铺平了道路。
translated by 谷歌翻译
从Linac Coohent Light Source(LCLS-II)和高级光子源升级(APS-U)等工具产生的数据中迅速提取可行的信息,由于高(最高(最高为TB/S)数据速率)变得越来越具有挑战性。常规的基于物理的信息检索方法很难快速检测有趣的事件,以便及时关注罕见事件或纠正错误。机器学习〜(ML)学习廉价替代分类器的方法是有希望的替代方法,但是当仪器或样品变化导致ML性能降解时可能会灾难性地失败。为了克服此类困难,我们提出了一个新的数据存储和ML模型培训体系结构,旨在组织大量的数据和模型,以便在检测到模型降解时,可以快速查询先验模型和/或数据。针对新条件进行了微调。我们表明,与当前最新的训练速度提高了200倍和92X端到端模型更新时间的速度相比,我们的方法最多可以达到100倍数据标记的速度。
translated by 谷歌翻译
我们对最近的自我和半监督ML技术进行严格的评估,从而利用未标记的数据来改善下游任务绩效,以河床分割的三个遥感任务,陆地覆盖映射和洪水映射。这些方法对于遥感任务特别有价值,因为易于访问未标记的图像,并获得地面真理标签通常可以昂贵。当未标记的图像(标记数据集之外)提供培训时,我们量化性能改进可以对这些遥感分割任务进行期望。我们还设计实验以测试这些技术的有效性,当测试集相对于训练和验证集具有域移位时。
translated by 谷歌翻译
最近,电子学习平台已经发展为学生可以发表疑问(用智能手机拍摄的快照)并在几分钟内解决的地方。但是,这些平台的质量差异很大的学生寄出疑问的数量显着增加,这不仅给教师导航解决方案带来了挑战,还增加了每个疑问的分辨率时间。两者都是不可接受的,因为高度怀疑的时间阻碍了学生学习进度的学习。这需要方法来自动识别存储库中是否存在类似的疑问,然后将其作为验证和与学生沟通的合理解决方案。监督的学习技术(如暹罗建筑)需要标签来识别比赛,这是不可行的,因为标签稀缺且昂贵。因此,在这项工作中,我们基于通过自我监督技术学到的表示形式开发了符合范式的标签不足的疑问。在BYOL的先前理论见解(Bootstrap您自己的潜在空间)的基础上,我们提出了Custom Byol,将特定于域特异性的增强与对比目标结合在一起,而不是各种适当构建的数据视图。结果强调,与BYOL和监督学习实例相比,Custom Byol分别将TOP-1匹配精度提高了大约6 \%和5 \%。我们进一步表明,基于BYOL的学习实例在标准杆上的性能比人类标签更好。
translated by 谷歌翻译
The goal of self-supervised learning from images is to construct image representations that are semantically meaningful via pretext tasks that do not require semantic annotations. Many pretext tasks lead to representations that are covariant with image transformations. We argue that, instead, semantic representations ought to be invariant under such transformations. Specifically, we develop Pretext-Invariant Representation Learning (PIRL, pronounced as "pearl") that learns invariant representations based on pretext tasks. We use PIRL with a commonly used pretext task that involves solving jigsaw puzzles. We find that PIRL substantially improves the semantic quality of the learned image representations. Our approach sets a new stateof-the-art in self-supervised learning from images on several popular benchmarks for self-supervised learning. Despite being unsupervised, PIRL outperforms supervised pre-training in learning image representations for object detection. Altogether, our results demonstrate the potential of self-supervised representations with good invariance properties.
translated by 谷歌翻译
自我监督的视觉表现学习的目标是学习强大,可转让的图像表示,其中大多数研究专注于物体或场景水平。另一方面,在部分级别的代表学习得到了显着的关注。在本文中,我们向对象部分发现和分割提出了一个无人监督的方法,并进行三个贡献。首先,我们通过一系列目标构建一个代理任务,鼓励模型将图像的有意义分解成其部件。其次,先前的工作争辩地用于重建或聚类预先计算的功能作为代理的代理;我们凭经验展示了这一点,这种情况不太可能找到有意义的部分;主要是因为它们的低分辨率和分类网络到空间涂抹信息的趋势。我们建议像素水平的图像重建可以缓解这个问题,充当互补的提示。最后,我们表明基于Keypoint回归的标准评估与分割质量不符合良好,因此引入不同的指标,NMI和ARI,更好地表征对象的分解成零件。我们的方法产生了一致的细粒度但视觉上不同的类别的语义部分,优于三个基准数据集的现有技术。代码可在项目页面上找到:https://www.robots.ox.ac.uk/~vgg/research/unsup-parts/
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译
由于其最近在减少监督学习的差距方面取得了成功,自我监督的学习方法正在增加计算机愿景的牵引力。在自然语言处理(NLP)中,自我监督的学习和变形金刚已经是选择的方法。最近的文献表明,变压器也在计算机愿景中越来越受欢迎。到目前为止,当使用大规模监督数据或某种共同监督时,视觉变压器已被证明可以很好地工作。在教师网络方面。这些监督的普试视觉变压器在下游任务中实现了非常好的变化,变化最小。在这项工作中,我们调查自我监督学习的预用图像/视觉变压器,然后使用它们进行下游分类任务的优点。我们提出了自我监督的视觉变压器(坐在)并讨论了几种自我监督的培训机制,以获得借口模型。静坐的架构灵活性允许我们将其用作自动统计器,并无缝地使用多个自我监控任务。我们表明,可以在小规模数据集上进行预训练,以便在小型数据集上进行下游分类任务,包括几千个图像而不是数百万的图像。使用公共协议对所提出的方法进行评估标准数据集。结果展示了变压器的强度及其对自我监督学习的适用性。我们通过大边缘表现出现有的自我监督学习方法。我们还观察到坐着很好,很少有镜头学习,并且还表明它通过简单地训练从坐的学到的学习功能的线性分类器来学习有用的表示。预先训练,FineTuning和评估代码将在以下:https://github.com/sara-ahmed/sit。
translated by 谷歌翻译
监督的深度学习模型取决于大量标记的数据。不幸的是,收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感(RS)变化检测(CD)中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练,该预训练从图像到标签,我们将语义监督纳入了自我监督的学习(SSL)框架中。通常,多个感兴趣的对象(例如,建筑物)以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示,而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征,从而使下游密集的CD受益。为了实现这一目标,我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间,将背景和前景点分开,并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变(照明和无关紧要的土地覆盖)可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩,用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练,内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是,我们使用20%的培训数据获得了比基线(随机初始化)使用100%数据获得竞争结果。我们的代码可用。
translated by 谷歌翻译
We tackle the problem of novel class discovery and localization (NCDL). In this setting, we assume a source dataset with supervision for only some object classes. Instances of other classes need to be discovered, classified, and localized automatically based on visual similarity without any human supervision. To tackle NCDL, we propose a two-stage object detection network Region-based NCDL (RNCDL) that uses a region proposal network to localize regions of interest (RoIs). We then train our network to learn to classify each RoI, either as one of the known classes, seen in the source dataset, or one of the novel classes, with a long-tail distribution constraint on the class assignments, reflecting the natural frequency of classes in the real world. By training our detection network with this objective in an end-to-end manner, it learns to classify all region proposals for a large variety of classes, including those not part of the labeled object class vocabulary. Our experiments conducted using COCO and LVIS datasets reveal that our method is significantly more effective than multi-stage pipelines that rely on traditional clustering algorithms. Furthermore, we demonstrate the generality of our approach by applying our method to a large-scale Visual Genome dataset, where our network successfully learns to detect various semantic classes without direct supervision.
translated by 谷歌翻译
自我监督的学习是一个强大的范例,用于在未标记的图像上学习。基于实例匹配的大量有效的新方法依赖于数据增强来推动学习,这些方法达成了优化流行识别基准的增强方案的粗略协议。但是,有强有力的理由可疑计算机视觉中的不同任务需要对不同(IN)差异进行编码的功能,因此可能需要不同的增强策略。在本文中,我们衡量了对比方法学到的修正学知识,并确认他们确实学会了与使用的增强的不变性,进一步表明,这一不变性大大转移到与姿势和照明的相关真实变化的变化很大程度上转移。我们展示了学习的InorRARCES强烈影响下游任务性能,并确认不同的下游任务从极性相反(IN)差异中受益,导致使用标准增强策略时的性能损失。最后,我们证明,具有互补的修正条件的表现简单融合可确保对所考虑的所有不同下游任务进行广泛的可转换性。
translated by 谷歌翻译
Applying Machine learning to domains like Earth Sciences is impeded by the lack of labeled data, despite a large corpus of raw data available in such domains. For instance, training a wildfire classifier on satellite imagery requires curating a massive and diverse dataset, which is an expensive and time-consuming process that can span from weeks to months. Searching for relevant examples in over 40 petabytes of unlabelled data requires researchers to manually hunt for such images, much like finding a needle in a haystack. We present a no-code end-to-end pipeline, Curator, which dramatically minimizes the time taken to curate an exhaustive labeled dataset. Curator is able to search massive amounts of unlabelled data by combining self-supervision, scalable nearest neighbor search, and active learning to learn and differentiate image representations. The pipeline can also be readily applied to solve problems across different domains. Overall, the pipeline makes it practical for researchers to go from just one reference image to a comprehensive dataset in a diminutive span of time.
translated by 谷歌翻译
自我监督学习的最新进展证明了多种视觉任务的有希望的结果。高性能自我监督方法中的一个重要成分是通过培训模型使用数据增强,以便在嵌入空间附近的相同图像的不同增强视图。然而,常用的增强管道整体地对待图像,忽略图像的部分的语义相关性-e.g。主题与背景 - 这可能导致学习杂散相关性。我们的工作通过调查一类简单但高度有效的“背景增强”来解决这个问题,这鼓励模型专注于语义相关内容,劝阻它们专注于图像背景。通过系统的调查,我们表明背景增强导致在各种任务中跨越一系列最先进的自我监督方法(MOCO-V2,BYOL,SWAV)的性能大量改进。 $ \ SIM $ + 1-2%的ImageNet收益,使得与监督基准的表现有关。此外,我们发现有限标签设置的改进甚至更大(高达4.2%)。背景技术增强还改善了许多分布换档的鲁棒性,包括天然对抗性实例,想象群-9,对抗性攻击,想象成型。我们还在产生了用于背景增强的显着掩模的过程中完全无监督的显着性检测进展。
translated by 谷歌翻译