随着数据集大小的不断增加,子集选择技术对于普遍的任务变得越来越重要。通常需要引导子集选择以实现某些探索,其中包括聚焦或针对某些数据点,同时避免他人。这些问题的示例包括:i)目标学习,目标是找到具有罕见类或稀有属性的子集,其中模型表现不佳,II)引导摘要,其中数据(例如,图像集合,文本,文档或视频) )总结了以更快的人类消费与特定的额外用户意图更快。受此类应用程序的动机,我们呈现棱镜,丰富的参数化子模块信息措施。通过小说函数及其参数化,PRISM提供了各种建模能力,该模型能力使得在子集的所需质量之间具有权衡,例如具有一组数据点的分集或表示和相似性/相似性。我们展示了如何应用于上面提到的两个真实问题的棱镜,这需要引导子集选择。在这样做时,我们表明棱镜有趣地概括了一些过去的工作,在其中加强了其广泛的效用。通过对不同数据集的广泛实验,我们展示了棱镜的优越性,在目标学习和引导的图像收集概述中
translated by 谷歌翻译
通过选择最具信息丰富的样本,已证明主动学习可用于最小化标记成本。但是,现有的主动学习方法在诸如不平衡或稀有类别的现实方案中不适用于未标记集中的分发数据和冗余。在这项工作中,我们提出了类似的(基于子模块信息措施的主动学习),使用最近提出的子模块信息措施(SIM)作为采集函数的统一主动学习框架。我们认为类似的不仅在标准的主动学习中工作,而且还可以轻松扩展到上面考虑的现实设置,并充当活动学习的一站式解决方案,可以扩展到大型真实世界数据集。凭经验,我们表明,在罕见的课程的情况下,在罕见的阶级和〜5% - 10%的情况下,在罕见的几个图像分类任务的情况下,相似显着优异的活动学习算法像CiFar-10,Mnist和Imagenet。类似于Distil Toolkit的一部分:“https://github.com/decile-team/distil”。
translated by 谷歌翻译
主动学习是一个非常常见但功能强大的框架,用于与人类在循环中的人类迭代和适应性采样子集,目的是实现标签效率。大多数现实世界数据集在类和切片中都有不平衡,并且相应地,数据集的一部分很少见。结果,在设计挖掘这些罕见数据实例的主动学习方法方面已经有很多工作。大多数方法都假设访问包含这些罕见数据实例的一组种子实例。但是,如果发生更极端的稀有性,可以合理地假设这些罕见的数据实例(类或切片)甚至可能在标记的种子集合中存在,并且对主动学习范式的关键需求是有效地发现这些罕见的数据实例。在这项工作中,我们提供了一个主动数据发现框架,该框架可以使用子管的条件增益和下管有条件的相互信息功能有效地挖掘未知的数据切片和类。我们提供了一个一般的算法框架,该框架在许多情况下都起作用,包括图像分类和对象检测,并与未标记集合中存在的稀有类和稀有切片一起使用。与现有的最新活跃学习方法相比,我们的方法表现出显着的准确性和标记效率提高,以积极发现这些稀有类别和切片。
translated by 谷歌翻译
基于深度神经网络的物体探测器在各种域中取得了巨大的成功,如自主车辆,生物医学成像等。众所周知,他们的成功取决于来自兴趣领域的大量数据。虽然深层模型在整体准确性方面经常表现良好,但它们通常在稀有但关键的数据切片上的性能斗争。例如,像“夜间摩托车”或“夜间摩托车”的数据切片通常很少见但是自动驾驶应用的非常关键的切片,如这种罕见的切片上的假底片可能导致违法的失败和事故。主动学习(AL)是一个着名的范例,可以逐步逐步地和自适应地构建循环中的人类训练数据集。然而,目前基于AL的采集功能并没有充分配备,以解决具有稀有片的真实数据集,因为它们基于图像的不确定性分数或全局描述符。我们提出了Talisman,一种用于使用子模块互信息的稀有切片的目标主动学习或物体检测的新框架。我们的方法使用利用感兴趣区域(ROI)的特征来实用的子模块互信息功能,以有效地靶向并获得具有稀有片的数据点。我们在标准Pascal Voc07 + 12和BDD100K上评估我们的框架,这是一个真实的自动驾驶数据集。我们观察到Talisman在稀有片的平均精度方面优于其他方法,以及地图。
translated by 谷歌翻译
随着深入学习更加标签的目标,越来越多的论文已经研究了深度模型的主动学习(AL)。然而,普遍存在的实验设置中存在许多问题,主要源于缺乏统一的实施和基准。当前文献中的问题包括有时对不同AL算法的性能的矛盾观察,意外排除重要的概括方法,如数据增强和SGD进行优化,缺乏对al的标签效率等评价方面的研究,并且很少或没有在Al优于随机采样(RS)的情况下的清晰度。在这项工作中,我们通过我们的新开源AL Toolkit Distil在图像分类的背景下统一重新实现了最先进的AL算法,我们仔细研究了这些问题作为有效评估的方面。在积极的方面,我们表明AL技术为2美元至4倍以上$ 4 \倍。与使用数据增强相比,与卢比相比,高效。令人惊讶的是,当包括数据增强时,在使用徽章,最先进的方法,在简单的不确定性采样中不再存在一致的增益。然后,我们仔细分析现有方法如何具有不同数量的冗余和每个类的示例。最后,我们为AL从业者提供了几次见解,以考虑在将来的工作中考虑,例如Al批量大小的效果,初始化的效果,在每一轮中再培训模型的重要性以及其他见解。
translated by 谷歌翻译
几个射击分类(FSC)需要使用几个(通常为1-5个)数据点的培训模型。事实证明,元学习能够通过培训各种其他分类任务来学习FSC的参数化模型。在这项工作中,我们提出了铂金(使用superodular互信息的半监督模型不可思议的元学习),这是一种新型的半监督模型不合理的元学习框架,使用了子模块化信息(SMI)函数来促进FSC的性能。在元训练期间,使用SMI函数在内部和外循环中利用铂金的数据,并获得元测试的更丰富的元学习参数化。我们在两种情况下研究白金的性能 - 1)未标记的数据点属于与某个插曲的标签集相同的类别集,以及2)在存在不属于的分布类别的地方标记的集合。我们在Miniimagenet,Tieredimagenet和几乎没有Shot-CIFAR100数据集的各种设置上评估了我们的方法。我们的实验表明,铂金优于MAML和半监督的方法,例如用于半监视的FSC的pseduo-Labeling,尤其是对于每个类别的标记示例比例很小。
translated by 谷歌翻译
越来越需要与深神经网络兼容的有效主动学习算法。本文激励和重新审视基于经典的Fisher的主动选择目标,并提出了诱饵,实用,易拔和高性能的算法,使其可以与神经模型一起使用。诱饵从参数模型的最大似然估计器(MLE)的理论分析中汲取灵感。它通过在FISHER信息方面优化MLE误差的绑定来选择批次的样本,我们通过利用线性代数结构可以在规模上有效地实现,特别是在现代硬件上执行。我们的实验表明,诱饵始于先前的本领域技术在分类和回归问题上,并且足够灵活,可以与各种模型架构一起使用。
translated by 谷歌翻译
收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率,我们研究了活跃的学习方法,这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架,用于从(与网络相关的)基础内核,内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外,我们建议用草图的有限宽度神经切线核代替常用的最后层特征,并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法,我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法,缩放到大数据集,并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码,包括所有内核,内核转换和选择方法的有效实现,并可用于复制我们的结果。
translated by 谷歌翻译
Deep active learning aims to reduce the annotation cost for the training of deep models, which is notoriously data-hungry. Until recently, deep active learning methods were ineffectual in the low-budget regime, where only a small number of examples are annotated. The situation has been alleviated by recent advances in representation and self-supervised learning, which impart the geometry of the data representation with rich information about the points. Taking advantage of this progress, we study the problem of subset selection for annotation through a "covering" lens, proposing ProbCover - a new active learning algorithm for the low budget regime, which seeks to maximize Probability Coverage. We then describe a dual way to view the proposed formulation, from which one can derive strategies suitable for the high budget regime of active learning, related to existing methods like Coreset. We conclude with extensive experiments, evaluating ProbCover in the low-budget regime. We show that our principled active learning strategy improves the state-of-the-art in the low-budget regime in several image recognition benchmarks. This method is especially beneficial in the semi-supervised setting, allowing state-of-the-art semi-supervised methods to match the performance of fully supervised methods, while using much fewer labels nonetheless. Code is available at https://github.com/avihu111/TypiClust.
translated by 谷歌翻译
在研究积极的学习时,我们专注于标记的示例数量(预算规模)和合适的查询策略之间的关系。我们的理论分析表明,一种让人联想到相变的行为:预算低时最好查询典型的示例,而预算较大时最好查询无代表性的示例。合并的证据表明,类似的现象发生在共同的分类模型中。因此,我们提出了典型lust,这是一种适合低预算的深度积极学习策略。在对监督学习的比较实证研究中,使用各种架构和图像数据集,TypicLust在低预算制度中的所有其他活跃学习策略都优于所有其他活跃的学习策略。在半监督框架中使用TypicLust,性能得到更加显着的提升。特别是,在CIFAR-10上训练的最新半监督方法,由Typiclust选择的10个标记的示例训练,达到93.2%的精度 - 比随机选择提高了39.4%。代码可在https://github.com/avihu111/typiclust上找到。
translated by 谷歌翻译
我们提出了一种新方法,用于近似于基于假设标记的候选数据点进行重新培训的主动学习获取策略。尽管这通常与深层网络不可行,但我们使用神经切线内核来近似重新进行重新培训的结果,并证明该近似值即使在主动学习设置中也无效 - 近似于“ look-aead abead”选择标准,所需的计算要少得多。 。这也使我们能够进行顺序的主动学习,即在流态中更新模型,而无需在添加每个新数据点后使用SGD重新训练模型。此外,我们的查询策略可以更好地理解模型的预测将如何通过与标准(“近视”)标准相比,通过大幅度击败其他查看策略,并获得相等或更好的性能,并取得了相等或更好的性能。基于池的主动学习中的几个基准数据集上的最新方法。
translated by 谷歌翻译
聚集的联合学习(FL)已显示通过将客户分组为群集,从而产生有希望的结果。这在单独的客户群在其本地数据的分布方面有显着差异的情况下特别有效。现有的集群FL算法实质上是在试图将客户群体组合在一起,以便同一集群中的客户可以利用彼此的数据来更好地执行联合学习。但是,先前的群集FL算法试图在培训期间间接学习这些分布相似性,这可能会很耗时,因为可能需要许多回合的联合学习,直到群集的形成稳定为止。在本文中,我们提出了一种新的联合学习方法,该方法直接旨在通过分析客户数据子空间之间的主要角度来有效地识别客户之间的分布相似性。每个客户端都以单一的方式在其本地数据上应用截断的奇异值分解(SVD)步骤,以得出一小部分主向量,该量提供了一个签名,可简洁地捕获基础分布的主要特征。提供了一组主要的主向量,以便服务器可以直接识别客户端之间的分布相似性以形成簇。这是通过比较这些主要向量跨越的客户数据子空间之间主要角度的相似性来实现的。该方法提供了一个简单而有效的集群FL框架,该框架解决了广泛的数据异质性问题,而不是标签偏斜的更简单的非iids形式。我们的聚类FL方法还可以为非凸目标目标提供融合保证。我们的代码可在https://github.com/mmorafah/pacfl上找到。
translated by 谷歌翻译
主动学习(AL)算法旨在识别注释的最佳数据子集,使得深神经网络(DNN)在此标记子集上培训时可以实现更好的性能。 AL特别有影响的工业规模设置,其中数据标签成本高,从业者使用各种工具来处理,以提高模型性能。最近自我监督预测(SSP)的成功突出了利用丰富的未标记数据促进模型性能的重要性。通过将AL与SSP结合起来,我们可以使用未标记的数据,同时标记和培训特别是信息样本。在这项工作中,我们研究了Imagenet上的AL和SSP的组合。我们发现小型玩具数据集上的性能 - 文献中的典型基准设置 - 由于活动学习者选择的类不平衡样本,而不是想象中的性能。在我们测试的现有基线中,各种小型和大规​​模设置的流行AL算法未能以随机抽样优于差异。为了解决类别不平衡问题,我们提出了平衡选择(基础),这是一种简单,可伸缩的AL算法,通过选择比现有方法更加平衡样本来始终如一地始终采样。我们的代码可用于:https://github.com/zeyademam/active_learning。
translated by 谷歌翻译
我们展示了一个联合学习框架,旨在强大地提供具有异构数据的各个客户端的良好预测性能。所提出的方法对基于SuperQualile的学习目标铰接,捕获异构客户端的误差分布的尾统计。我们提出了一种随机训练算法,其与联合平均步骤交织差异私人客户重新重量步骤。该提出的算法支持有限时间收敛保证,保证覆盖凸和非凸面设置。关于联邦学习的基准数据集的实验结果表明,我们的方法在平均误差方面与古典误差竞争,并且在误差的尾统计方面优于它们。
translated by 谷歌翻译
在模型提取攻击中,对手可以通过反复查询并根据获得的预测来窃取通过公共API暴露的机器学习模型。为了防止模型窃取,现有的防御措施专注于检测恶意查询,截断或扭曲输出,因此必然会为合法用户引入鲁棒性和模型实用程序之间的权衡。取而代之的是,我们建议通过要求用户在阅读模型的预测之前完成工作证明来阻碍模型提取。这可以通过大大增加(甚至高达100倍)来阻止攻击者,以利用查询访问模型提取所需的计算工作。由于我们校准完成每个查询的工作证明所需的努力,因此这仅为常规用户(最多2倍)引入一个轻微的开销。为了实现这一目标,我们的校准应用了来自差异隐私的工具来衡量查询揭示的信息。我们的方法不需要对受害者模型进行任何修改,可以通过机器学习从业人员来应用其公开暴露的模型免于轻易被盗。
translated by 谷歌翻译
预测和模型参数之间的相互信息(也称为预期信息获得或机器学习中的秃头)来衡量信息性。这是贝叶斯活跃学习和贝叶斯最佳实验设计中流行的采集功能。在数据子集选择中,即主动学习和主动采样,最近的几项作品使用Fisher信息,Hessians,基于梯度的相似性矩阵,或者仅仅是梯度长度,以计算指导样本选择的采集分数。这些不同的方法是否连接在一起,如果是这样?在本文中,我们重新访问Fisher信息,并使用它来展示如何将几种不同的不同方法连接为信息理论量的近似值。
translated by 谷歌翻译
Acquiring labeled data is challenging in many machine learning applications with limited budgets. Active learning gives a procedure to select the most informative data points and improve data efficiency by reducing the cost of labeling. The info-max learning principle maximizing mutual information such as BALD has been successful and widely adapted in various active learning applications. However, this pool-based specific objective inherently introduces a redundant selection and further requires a high computational cost for batch selection. In this paper, we design and propose a new uncertainty measure, Balanced Entropy Acquisition (BalEntAcq), which captures the information balance between the uncertainty of underlying softmax probability and the label variable. To do this, we approximate each marginal distribution by Beta distribution. Beta approximation enables us to formulate BalEntAcq as a ratio between an augmented entropy and the marginalized joint entropy. The closed-form expression of BalEntAcq facilitates parallelization by estimating two parameters in each marginal Beta distribution. BalEntAcq is a purely standalone measure without requiring any relational computations with other data points. Nevertheless, BalEntAcq captures a well-diversified selection near the decision boundary with a margin, unlike other existing uncertainty measures such as BALD, Entropy, or Mean Standard Deviation (MeanSD). Finally, we demonstrate that our balanced entropy learning principle with BalEntAcq consistently outperforms well-known linearly scalable active learning methods, including a recently proposed PowerBALD, a simple but diversified version of BALD, by showing experimental results obtained from MNIST, CIFAR-100, SVHN, and TinyImageNet datasets.
translated by 谷歌翻译
监督学习通常依赖于真实标签的手动注释。当有许多潜在的类别时,寻找最佳的班级对于人类注释者可能会过时。另一方面,比较两个候选标签通常要容易得多。我们专注于这种成对的监督,并询问如何有效地用于学习,尤其是在积极学习中。在这种情况下,我们获得了一些有见地的结果。原则上,可以使用$ K-1 $ Active查询来找到最好的$ K $标签。我们表明,有一种自然阶级,这种方法是最佳选择的,并且有更具比较的主动学习方案。我们分析中的一个关键要素是真实分布的“标签邻域图”,如果两个类共享决策边界,则在两个类之间具有优势。我们还表明,在PAC设置中,成对比较在最坏情况下不能提供改善的样品复杂性。我们通过实验补充了理论结果,清楚地证明了邻里图对样品复杂性的影响。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
许多数据集被指定:给定任务存在多个同样可行的解决方案。对于学习单个假设的方法,指定的指定可能是有问题的,因为实现低训练损失的不同功能可以集中在不同的预测特征上,从而在分布数据的数据上产生明显变化的预测。我们提出了Divdis,这是一个简单的两阶段框架,首先通过利用测试分布中的未标记数据来学习多种假设,以实现任务。然后,我们通过使用其他标签的形式或检查功能可视化的形式选择最小的其他监督来选择一个发现的假设之一来消除歧义。我们证明了Divdis找到在图像分类中使用强大特征的假设和自然语言处理问题的能力。
translated by 谷歌翻译