We study different aspects of active learning with deep neural networks in a consistent and unified way. i) We investigate incremental and cumulative training modes which specify how the newly labeled data are used for training. ii) We study active learning w.r.t. the model configurations such as the number of epochs and neurons as well as the choice of batch size. iii) We consider in detail the behavior of query strategies and their corresponding informativeness measures and accordingly propose more efficient querying procedures. iv) We perform statistical analyses, e.g., on actively learned classes and test error estimation, that reveal several insights about active learning. v) We investigate how active learning with neural networks can benefit from pseudo-labels as proxies for actual labels.
translated by 谷歌翻译
Annotated driving scenario trajectories are crucial for verification and validation of autonomous vehicles. However, annotation of such trajectories based only on explicit rules (i.e. knowledge-based methods) may be prone to errors, such as false positive/negative classification of scenarios that lie on the border of two scenario classes, missing unknown scenario classes, or even failing to detect anomalies. On the other hand, verification of labels by annotators is not cost-efficient. For this purpose, active learning (AL) could potentially improve the annotation procedure by including an annotator/expert in an efficient way. In this study, we develop a generic active learning framework to annotate driving trajectory time series data. We first compute an embedding of the trajectories into a latent space in order to extract the temporal nature of the data. Given such an embedding, the framework becomes task agnostic since active learning can be performed using any classification method and any query strategy, regardless of the structure of the original time series data. Furthermore, we utilize our active learning framework to discover unknown driving scenario trajectories. This will ensure that previously unknown trajectory types can be effectively detected and included in the labeled dataset. We evaluate our proposed framework in different settings on novel real-world datasets consisting of driving trajectories collected by Volvo Cars Corporation. We observe that active learning constitutes an effective tool for labelling driving trajectories as well as for detecting unknown classes. Expectedly, the quality of the embedding plays an important role in the success of the proposed framework.
translated by 谷歌翻译
在构建培训迷你批次时,最半监督的学习方法在样本标记的数据上。本文研究了这种常见做法是否改善了学习和方法。我们将其与替代设置进行比较,其中每个迷你批次从所有训练数据均匀地采样,标有或不统计,这大大减少了典型的低标签制度中真正标签的直接监督。然而,这种更简单的设置也可以看作更通用,甚至是必要的,在多任务问题中,标记数据的过采样将变得棘手。我们对半监控的CiFar-10图像分类的实验,使用FixMatch显示使用均匀采样方法时的性能下降,当标记数据的量或训练时间增加时,在均匀采样方法增加时。此外,我们分析培训动态,了解标记数据的过采样如何比较均匀采样。我们的主要发现是,在训练中特别有益,但在更多伪标签变得正确时,在后期的阶段中不太重要。尽管如此,我们还发现,保持一些真正的标签仍然很重要,以避免从错误的伪标签中积累确认错误。
translated by 谷歌翻译
积极学习是一种降低标签成本以构建高质量机器学习模型的既定技术。主动学习的核心组件是确定应选择哪些数据来注释的采集功能。最先进的采集功能 - 更重要的是主动学习技术 - 已经旨在最大限度地提高清洁性能(例如,准确性)并忽视了鲁棒性,这是一种受到越来越受关注的重要品质。因此,主动学习产生准确但不强大的模型。在本文中,我们提出了一种积极的学习过程,集成了对抗性培训的积极学习过程 - 最熟悉的制作强大模型的方法。通过对11个采集函数的实证研究,4个数据集,6个DNN架构和15105培训的DNN,我们表明,强大的主动学习可以产生具有鲁棒性的模型(对抗性示例的准确性),范围从2.35 \%到63.85 \%,而标准主动学习系统地实现了可忽略不计的鲁棒性(小于0.20 \%)。然而,我们的研究还揭示了在稳健性方面,在准确性上表现良好的采集功能比随机抽样更糟糕。因此,我们检查了它背后的原因,并设计了一个新的采购功能,这些功能既可定位清洁的性能和鲁棒性。我们的采集功能 - 基于熵(DRE)的基于密度的鲁棒采样 - 优于鲁棒性的其他采集功能(包括随机),最高可达24.40 \%(特别是3.84 \%),同时仍然存在竞争力准确性。此外,我们证明了DRE适用于测试选择度量,用于模型再培训,并从所有比较功能中脱颖而出,高达8.21%的鲁棒性。
translated by 谷歌翻译
主动学习是减少训练深神经网络模型中数据量的流行方法。它的成功取决于选择有效的采集函数,该功能尚未根据其预期的信息进行排名。在不确定性抽样中,当前模型具有关于点类标签的不确定性是这种类型排名的主要标准。本文提出了一种在培训卷积神经网络(CNN)中进行不确定性采样的新方法。主要思想是使用CNN提取提取的特征表示作为培训总产品网络(SPN)的数据。由于SPN通常用于估计数据集的分布,因此它们非常适合估算类概率的任务,这些概率可以直接由标准采集函数(例如最大熵和变异比率)使用。此外,我们通过在SPN模型的帮助下通过权重增强了这些采集函数。这些权重使采集功能对数据点的可疑类标签的多样性更加敏感。我们的方法的有效性在对MNIST,时尚持续和CIFAR-10数据集的实验研究中得到了证明,我们将其与最先进的方法MC辍学和贝叶斯批次进行了比较。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
While deep learning succeeds in a wide range of tasks, it highly depends on the massive collection of annotated data which is expensive and time-consuming. To lower the cost of data annotation, active learning has been proposed to interactively query an oracle to annotate a small proportion of informative samples in an unlabeled dataset. Inspired by the fact that the samples with higher loss are usually more informative to the model than the samples with lower loss, in this paper we present a novel deep active learning approach that queries the oracle for data annotation when the unlabeled sample is believed to incorporate high loss. The core of our approach is a measurement Temporal Output Discrepancy (TOD) that estimates the sample loss by evaluating the discrepancy of outputs given by models at different optimization steps. Our theoretical investigation shows that TOD lower-bounds the accumulated sample loss thus it can be used to select informative unlabeled samples. On basis of TOD, we further develop an effective unlabeled data sampling strategy as well as an unsupervised learning criterion for active learning. Due to the simplicity of TOD, our methods are efficient, flexible, and task-agnostic. Extensive experimental results demonstrate that our approach achieves superior performances than the state-of-the-art active learning methods on image classification and semantic segmentation tasks. In addition, we show that TOD can be utilized to select the best model of potentially the highest testing accuracy from a pool of candidate models.
translated by 谷歌翻译
深度神经网络对物体检测达到了高精度,但它们的成功铰链大量标记数据。为了减少标签依赖性,已经提出了各种主动学习策略,通常基于探测器的置信度。但是,这些方法偏向于高性能类,并且可以导致获取的数据集不是测试集数据的代表不好。在这项工作中,我们提出了一个统一的主动学习框架,这考虑了探测器的不确定性和鲁棒性,确保网络在所有类中表现良好。此外,我们的方法利用自动标记来抑制潜在的分布漂移,同时提高模型的性能。 Pascal VOC07 ​​+ 12和MS-Coco的实验表明,我们的方法始终如一地优于各种活跃的学习方法,在地图中产生高达7.7%,或降低标记成本的82%。代码将在接受纸张时发布。
translated by 谷歌翻译
大型标记数据集的可用性是深度学习成功的关键组成部分。但是,大型数据集上的标签通常很耗时且昂贵。主动学习是一个研究领域,通过选择最重要的标签样本来解决昂贵的标签问题。基于多样性的采样算法被称为基于表示的主动学习方法的组成部分。在本文中,我们介绍了一种新的基于多样性的初始数据集选择算法,以选择有效学习环境中初始标记的最有用的样本集。自我监督的表示学习用于考虑初始数据集选择算法中样品的多样性。此外,我们提出了一种新型的主动学习查询策略,该策略使用基于多样性的基于一致性的嵌入方式采样。通过考虑基于一致性的嵌入方案中多样性的一致性信息,该方法可以在半监督的学习环境中选择更多信息的样本来标记。比较实验表明,通过利用未标记的数据的多样性,与先前的主动学习方法相比,该提出的方法在CIFAR-10和CALTECH-101数据集上取得了令人信服的结果。
translated by 谷歌翻译
随着深入学习更加标签的目标,越来越多的论文已经研究了深度模型的主动学习(AL)。然而,普遍存在的实验设置中存在许多问题,主要源于缺乏统一的实施和基准。当前文献中的问题包括有时对不同AL算法的性能的矛盾观察,意外排除重要的概括方法,如数据增强和SGD进行优化,缺乏对al的标签效率等评价方面的研究,并且很少或没有在Al优于随机采样(RS)的情况下的清晰度。在这项工作中,我们通过我们的新开源AL Toolkit Distil在图像分类的背景下统一重新实现了最先进的AL算法,我们仔细研究了这些问题作为有效评估的方面。在积极的方面,我们表明AL技术为2美元至4倍以上$ 4 \倍。与使用数据增强相比,与卢比相比,高效。令人惊讶的是,当包括数据增强时,在使用徽章,最先进的方法,在简单的不确定性采样中不再存在一致的增益。然后,我们仔细分析现有方法如何具有不同数量的冗余和每个类的示例。最后,我们为AL从业者提供了几次见解,以考虑在将来的工作中考虑,例如Al批量大小的效果,初始化的效果,在每一轮中再培训模型的重要性以及其他见解。
translated by 谷歌翻译
积极的未标记(PU)学习旨在仅从积极和未标记的培训数据中学习二进制分类器。最近的方法通过发展无偏的损失功能通过对成本敏感的学习解决了这一问题,后来通过迭代伪标记解决方案改善了其性能。但是,这样的两步程序容易受到错误估计的伪标签的影响,因为在以后的错误预测训练新模型时,在以后的迭代中传播了错误。为了防止这种确认偏见,我们提出PUUPL是PU学习的新型损失不足的训练程序,该程序将认知不确定性纳入伪标签选择中。通过使用基于低确定性预测的神经网络的合奏并分配伪标记,我们表明PUUPL提高了伪标签的可靠性,提高了我们方法的预测性能,并导致了新的最先进的结果在自我训练中进行PU学习。通过广泛的实验,我们显示了方法对不同数据集,模式和学习任务的有效性,以及改进的校准,对先前拼写错误的稳健性,偏见的正数据和不平衡数据集。
translated by 谷歌翻译
主动学习(AL)算法旨在识别注释的最佳数据子集,使得深神经网络(DNN)在此标记子集上培训时可以实现更好的性能。 AL特别有影响的工业规模设置,其中数据标签成本高,从业者使用各种工具来处理,以提高模型性能。最近自我监督预测(SSP)的成功突出了利用丰富的未标记数据促进模型性能的重要性。通过将AL与SSP结合起来,我们可以使用未标记的数据,同时标记和培训特别是信息样本。在这项工作中,我们研究了Imagenet上的AL和SSP的组合。我们发现小型玩具数据集上的性能 - 文献中的典型基准设置 - 由于活动学习者选择的类不平衡样本,而不是想象中的性能。在我们测试的现有基线中,各种小型和大规​​模设置的流行AL算法未能以随机抽样优于差异。为了解决类别不平衡问题,我们提出了平衡选择(基础),这是一种简单,可伸缩的AL算法,通过选择比现有方法更加平衡样本来始终如一地始终采样。我们的代码可用于:https://github.com/zeyademam/active_learning。
translated by 谷歌翻译
This work tackles the problem of semi-supervised learning of image classifiers. Our main insight is that the field of semi-supervised learning can benefit from the quickly advancing field of self-supervised visual representation learning. Unifying these two approaches, we propose the framework of self-supervised semi-supervised learning (S 4 L) and use it to derive two novel semi-supervised image classification methods. We demonstrate the effectiveness of these methods in comparison to both carefully tuned baselines, and existing semi-supervised learning methods. We then show that S 4 L and existing semi-supervised methods can be jointly trained, yielding a new state-of-the-art result on semi-supervised ILSVRC-2012 with 10% of labels.
translated by 谷歌翻译
标记数据可以是昂贵的任务,因为它通常由域专家手动执行。对于深度学习而言,这是繁琐的,因为它取决于大型标记的数据集。主动学习(AL)是一种范式,旨在通过仅使用二手车型认为最具信息丰富的数据来减少标签努力。在文本分类设置中,在AL上完成了很少的研究,旁边没有涉及最近的最先进的自然语言处理(NLP)模型。在这里,我们介绍了一个实证研究,可以将基于不确定性的基于不确定性的算法与Bert $ _ {base} $相比,作为使用的分类器。我们评估两个NLP分类数据集的算法:斯坦福情绪树木银行和kvk-Front页面。此外,我们探讨了旨在解决不确定性的al的预定问题的启发式;即,它是不可规范的,并且易于选择异常值。此外,我们探讨了查询池大小对al的性能的影响。虽然发现,AL的拟议启发式没有提高AL的表现;我们的结果表明,使用BERT $ _ {Base} $概率使用不确定性的AL。随着查询池大小变大,性能的这种差异可以减少。
translated by 谷歌翻译
主动学习(al)试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习(DL)是贪婪的数据,需要大量的数据电源来优化大量参数,因此模型了解如何提取高质量功能。近年来,由于互联网技术的快速发展,我们处于信息种类的时代,我们有大量的数据。通过这种方式,DL引起了研究人员的强烈兴趣,并已迅速发展。与DL相比,研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前,传统的机器学习需要相对较少的标记样品。因此,早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破,但大多数这一成功都是由于大量现有注释数据集的宣传。然而,收购大量高质量的注释数据集消耗了很多人力,这在某些领域不允许在需要高专业知识,特别是在语音识别,信息提取,医学图像等领域中, al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本,同时保留DL的强大学习能力。因此,已经出现了深度主动学习(DAL)。虽然相关的研究非常丰富,但它缺乏对DAL的综合调查。本文要填补这一差距,我们为现有工作提供了正式的分类方法,以及全面和系统的概述。此外,我们还通过申请的角度分析并总结了DAL的发展。最后,我们讨论了DAL中的混乱和问题,为DAL提供了一些可能的发展方向。
translated by 谷歌翻译
在研究积极的学习时,我们专注于标记的示例数量(预算规模)和合适的查询策略之间的关系。我们的理论分析表明,一种让人联想到相变的行为:预算低时最好查询典型的示例,而预算较大时最好查询无代表性的示例。合并的证据表明,类似的现象发生在共同的分类模型中。因此,我们提出了典型lust,这是一种适合低预算的深度积极学习策略。在对监督学习的比较实证研究中,使用各种架构和图像数据集,TypicLust在低预算制度中的所有其他活跃学习策略都优于所有其他活跃的学习策略。在半监督框架中使用TypicLust,性能得到更加显着的提升。特别是,在CIFAR-10上训练的最新半监督方法,由Typiclust选择的10个标记的示例训练,达到93.2%的精度 - 比随机选择提高了39.4%。代码可在https://github.com/avihu111/typiclust上找到。
translated by 谷歌翻译
我们介绍了有监督的对比度积极学习(SCAL),并根据功能相似性(功能IM)和基于主成分分析的基于特征重建误差(FRE)提出有效的活动学习策略,以选择具有不同特征表示的信息性数据示例。我们证明了我们提出的方法可实现最新的准确性,模型校准并减少在图像分类任务上平衡和不平衡数据集的主动学习设置中的采样偏差。我们还评估了模型的鲁棒性,从主动学习环境中不同查询策略得出的分配转移。使用广泛的实验,我们表明我们提出的方法的表现优于高性能密集型方法,从而使平均损坏误差降低了9.9%,在数据集偏移下的预期校准误差降低了7.2%,而AUROC降低了8.9%的AUROC。检测。
translated by 谷歌翻译
主动学习(AL)是一个有希望的ML范式,有可能解析大型未标记数据并有助于降低标记数据可能令人难以置信的域中的注释成本。最近提出的基于神经网络的AL方法使用不同的启发式方法来实现这一目标。在这项研究中,我们证明,在相同的实验环境下,不同类型的AL算法(基于不确定性,基于多样性和委员会)产生了与随机采样基线相比的不一致增长。通过各种实验,控制了随机性来源,我们表明,AL算法实现的性能指标方差可能会导致与先前报道的结果不符的结果。我们还发现,在强烈的正则化下,AL方法在各种实验条件下显示出比随机采样基线的边缘或没有优势。最后,我们以一系列建议进行结论,以了解如何使用新的AL算法评估结果,以确保在实验条件下的变化下结果可再现和健壮。我们共享我们的代码以促进AL评估。我们认为,我们的发现和建议将有助于使用神经网络在AL中进行可重复的研究。我们通过https://github.com/prateekmunjal/torchal开源代码
translated by 谷歌翻译
The generalisation performance of a convolutional neural networks (CNN) is majorly predisposed by the quantity, quality, and diversity of the training images. All the training data needs to be annotated in-hand before, in many real-world applications data is easy to acquire but expensive and time-consuming to label. The goal of the Active learning for the task is to draw most informative samples from the unlabeled pool which can used for training after annotation. With total different objective, self-supervised learning which have been gaining meteoric popularity by closing the gap in performance with supervised methods on large computer vision benchmarks. self-supervised learning (SSL) these days have shown to produce low-level representations that are invariant to distortions of the input sample and can encode invariance to artificially created distortions, e.g. rotation, solarization, cropping etc. self-supervised learning (SSL) approaches rely on simpler and more scalable frameworks for learning. In this paper, we unify these two families of approaches from the angle of active learning using self-supervised learning mainfold and propose Deep Active Learning using BarlowTwins(DALBT), an active learning method for all the datasets using combination of classifier trained along with self-supervised loss framework of Barlow Twins to a setting where the model can encode the invariance of artificially created distortions, e.g. rotation, solarization, cropping etc.
translated by 谷歌翻译
主动学习在许多领域中展示了数据效率。现有的主动学习算法,特别是在深贝叶斯活动模型的背景下,严重依赖模型的不确定性估计的质量。然而,这种不确定性估计可能会严重偏见,特别是有限和不平衡的培训数据。在本文中,我们建议平衡,贝叶斯深度活跃的学习框架,减轻这种偏差的影响。具体地,平衡采用了一种新的采集功能,该函数利用了等效假设类别捕获的结构,并促进了不同的等价类别之间的分化。直观地,每个等价类包括具有类似预测的深层模型的实例化,并且平衡适应地将等同类的大小调整为学习进展。除了完整顺序设置之外,我们还提出批量平衡 - 顺序算法的泛化算法到批量设置 - 有效地选择批次的培训实施例,这些培训实施例是对模型改进的联合有效的培训实施例。我们展示批量平衡在多个基准数据集上实现了最先进的性能,用于主动学习,并且这两个算法都可以有效地处理通常涉及多级和不平衡数据的逼真挑战。
translated by 谷歌翻译