如今,对大规模数据的深入学习是主导的。空前的数据规模可以说是深度学习成功的最重要的驱动力之一。但是,仍然存在收集数据或标签可能非常昂贵的场景,例如医学成像和机器人技术。为了填补这一空白,本文考虑了使用少量代表性数据从头开始研究的问题。首先,我们通过在球形歧管的同构管上积极学习来表征这个问题。这自然会产生可行的假设类别。使用同源拓扑特性,我们确定了一个重要的联系 - 发现管歧管等同于最大程度地减少物理几何形状中的超球能(MHE)。受此连接的启发,我们提出了一种基于MHE的主动学习(MHEAL)算法,并为MHEAL提供了全面的理论保证,涵盖了收敛和概括分析。最后,我们证明了MHEAL在数据效率学习的广泛应用中的经验表现,包括深度聚类,分布匹配,版本空间采样和深度积极学习。
translated by 谷歌翻译
大数据学习为人工智能(AI)带来了成功,但是注释和培训成本很昂贵。将来,对小数据的学习是AI的最终目的之一,它要求机器识别依靠小数据作为人类的目标和场景。一系列的机器学习模型正在进行这种方式,例如积极学习,几乎没有学习,深度聚类。但是,其概括性能几乎没有理论保证。此外,它们的大多数设置都是被动的,也就是说,标签分布由一个指定的采样方案明确控制。这项调查遵循PAC(可能是近似正确)框架下的不可知论活动采样,以分析使用有监督和无监督的时尚对小数据学习的概括误差和标签复杂性。通过这些理论分析,我们从两个几何学角度对小数据学习模型进行了分类:欧几里得和非欧几里得(双曲线)平均表示,在此还提供了优化解决方案和讨论。稍后,然后总结了一些可能从小型数据学习中受益的潜在学习方案,还分析了它们的潜在学习方案。最后,还调查了一些具有挑战性的应用程序,例如计算机视觉,自然语言处理可能会受益于小型数据学习。
translated by 谷歌翻译
主动学习最大化假设更新,以找到那些所需的未标记数据。一个固有的假设是,这种学习方式可以将这些更新得出到最佳假设中。但是,如果这些增量更新是负面和无序的,则可能无法很好地保证其收敛性。在本文中,我们介绍了一位机器老师,该教师为主动学习者提供了一个黑盒教学假设,其中教学假设是最佳假设的有效近似。从理论上讲,我们证明,在这一教学假设的指导下,学习者可以比那些没有从老师那里获得任何指导的受过教育的学习者融合到更严格的概括错误和标签复杂性。我们进一步考虑了两种教学方案:教授白盒和黑盒学习者,首先提出了教学的自我完善以改善教学表现。实验验证了这一想法并表现出比基本的积极学习策略(例如Iwal,Iwal-D等)更好的性能。
translated by 谷歌翻译
本文的目的是设计主动学习策略,从而在Lipschitz函数的假设下导致领域适应。以Mansour等人的先前作品为基础。(2009年)我们调整了源和目标分布之间的差异距离的概念,以将假设类别的最大化限制为在源域上执行准确标记的局部函数类别的最大化。我们根据Rademacher平均值和满足规律性条件的一般损失函数的局部差异来得出此类主动学习策略的概括误差界限。可以从理论界限推断出可以解决大数据集情况的实用k-媒体算法。我们的数值实验表明,在域适应性的背景下,所提出的算法与其他最先进的活跃学习技术具有竞争力,尤其是在大约十万张图像的大数据集上。
translated by 谷歌翻译
对抗性的鲁棒性已成为机器学习越来越兴趣的话题,因为观察到神经网络往往会变得脆弱。我们提出了对逆转防御的信息几何表述,并引入Fire,这是一种针对分类跨透明镜损失的新的Fisher-Rao正则化,这基于对应于自然和受扰动输入特征的软磁输出之间的测量距离。基于SoftMax分布类的信息几何特性,我们为二进制和多类案例提供了Fisher-Rao距离(FRD)的明确表征,并绘制了一些有趣的属性以及与标准正则化指标的连接。此外,对于一个简单的线性和高斯模型,我们表明,在精度 - 舒适性区域中的所有帕累托最佳点都可以通过火力达到,而其他最先进的方法则可以通过火灾。从经验上讲,我们评估了经过标准数据集拟议损失的各种分类器的性能,在清洁和健壮的表现方面同时提高了1 \%的改进,同时将培训时间降低了20 \%,而不是表现最好的方法。
translated by 谷歌翻译
由于过度参数化性质,神经网络是一个强大的非线性函数近似的工具。为了在看不见的数据上实现良好的概括,适当的归纳偏差对于神经网络来说是非常重要的。最直接的方式之一是将神经网络与一些额外的目标进行规范化。L2正则化用作神经网络的标准正则化。尽管其受欢迎程度,但它基本上规范了个体神经元的一个维度,这不足以控制高度过度参数化神经网络的能力。由此激励,提出了高度球形的均匀性作为影响神经元之间相互作用的新型关系规则。我们考虑了几种几何鲜明的方式来实现超球均匀性。高度球形均匀性的有效性是由理论洞察力和经验评估的合理性。
translated by 谷歌翻译
近年来,已取得了巨大进展,以通过半监督学习(SSL)来纳入未标记的数据来克服效率低下的监督问题。大多数最先进的模型是基于对未标记的数据追求一致的模型预测的想法,该模型被称为输入噪声,这称为一致性正则化。尽管如此,对其成功的原因缺乏理论上的见解。为了弥合理论和实际结果之间的差距,我们在本文中提出了SSL的最坏情况一致性正则化技术。具体而言,我们首先提出了针对SSL的概括,该概括由分别在标记和未标记的训练数据上观察到的经验损失项组成。在这种界限的激励下,我们得出了一个SSL目标,该目标可最大程度地减少原始未标记的样本与其多重增强变体之间最大的不一致性。然后,我们提供了一种简单但有效的算法来解决提出的最小问题,从理论上证明它会收敛到固定点。五个流行基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
最近,无监督的域适应是一种有效的范例,用于概括深度神经网络到新的目标域。但是,仍有巨大的潜力才能达到完全监督的性能。在本文中,我们提出了一种新颖的主动学习策略,以帮助目标域中的知识转移,有效域适应。我们从观察开始,即当训练(源)和测试(目标)数据来自不同的分布时,基于能量的模型表现出自由能量偏差。灵感来自这种固有的机制,我们经验揭示了一种简单而有效的能源 - 基于能量的采样策略揭示了比需要特定架构或距离计算的现有方法的最有价值的目标样本。我们的算法,基于能量的活动域适应(EADA),查询逻辑数据组,它将域特征和实例不确定性结合到每个选择回合中。同时,通过通过正则化术语对准源域周围的目标数据紧凑的自由能,可以隐含地减少域间隙。通过广泛的实验,我们表明EADA在众所周知的具有挑战性的基准上超越了最先进的方法,具有实质性的改进,使其成为开放世界中的一个有用的选择。代码可在https://github.com/bit-da/eada获得。
translated by 谷歌翻译
The workhorse of machine learning is stochastic gradient descent. To access stochastic gradients, it is common to consider iteratively input/output pairs of a training dataset. Interestingly, it appears that one does not need full supervision to access stochastic gradients, which is the main motivation of this paper. After formalizing the "active labeling" problem, which focuses on active learning with partial supervision, we provide a streaming technique that provably minimizes the ratio of generalization error over the number of samples. We illustrate our technique in depth for robust regression.
translated by 谷歌翻译
Partial label learning (PLL) is an important problem that allows each training example to be labeled with a coarse candidate set, which well suits many real-world data annotation scenarios with label ambiguity. Despite the promise, the performance of PLL often lags behind the supervised counterpart. In this work, we bridge the gap by addressing two key research challenges in PLL -- representation learning and label disambiguation -- in one coherent framework. Specifically, our proposed framework PiCO consists of a contrastive learning module along with a novel class prototype-based label disambiguation algorithm. PiCO produces closely aligned representations for examples from the same classes and facilitates label disambiguation. Theoretically, we show that these two components are mutually beneficial, and can be rigorously justified from an expectation-maximization (EM) algorithm perspective. Moreover, we study a challenging yet practical noisy partial label learning setup, where the ground-truth may not be included in the candidate set. To remedy this problem, we present an extension PiCO+ that performs distance-based clean sample selection and learns robust classifiers by a semi-supervised contrastive learning algorithm. Extensive experiments demonstrate that our proposed methods significantly outperform the current state-of-the-art approaches in standard and noisy PLL tasks and even achieve comparable results to fully supervised learning.
translated by 谷歌翻译
学习算法的目标之一是补充和减轻人类决策者的负担。算法可以自行预测的专家延期设置,也可以将决定推迟到下游专家有助于实现这一目标。这种环境的一个基本方面是需要学习改善人类弱点的互补预测因子,而不是学习预测因素以优化平均错误。在这项工作中,我们提供了对专家延期中学习补充预测指标的好处的第一个理论分析。为了有效地学习此类预测因素,我们考虑了一个始终如一的替代损失功能的家族,以延期专家并分析其理论特性。最后,我们设计的主动学习方案需要最少的人类专家预测数据,以学习准确的延期系统。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
混合是一种数据增强方法,通过混合一对输入数据来生成新数据点。虽然混合通常会改善预测性能,但它有时会降低性能。在本文中,我们首先通过理论上和经验分析混合算法来确定这种现象的主要原因。要解决此问题,我们提出了一种简单但有效的重定标记算法,专为混合而提出了Genlabel。特别是,GenLabel通过使用生成模型学习类条件数据分布,帮助混合算法正确标记混合样本。通过广泛的理论和实证分析,我们表明混合,当与Genlabel一起使用时,可以有效地解决上述现象,从而提高泛化性能和对抗鲁棒性。
translated by 谷歌翻译
机器学习模型通常会遇到与训练分布不同的样本。无法识别分布(OOD)样本,因此将该样本分配给课堂标签会显着损害模​​型的可靠性。由于其对在开放世界中的安全部署模型的重要性,该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性,检测OOD样品是具有挑战性的。迄今为止,一些研究领域解决了检测陌生样本的问题,包括异常检测,新颖性检测,一级学习,开放式识别识别和分布外检测。尽管有相似和共同的概念,但分别分布,开放式检测和异常检测已被独立研究。因此,这些研究途径尚未交叉授粉,创造了研究障碍。尽管某些调查打算概述这些方法,但它们似乎仅关注特定领域,而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时,对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益,并协同发展未来的方法。此外,据我们所知,虽然进行异常检测或单级学习进行了调查,但没有关于分布外检测的全面或最新的调查,我们的调查可广泛涵盖。最后,有了统一的跨域视角,我们讨论并阐明了未来的研究线,打算将这些领域更加紧密地融为一体。
translated by 谷歌翻译
收购用于监督学习的标签可能很昂贵。为了提高神经网络回归的样本效率,我们研究了活跃的学习方法,这些方法可以适应地选择未标记的数据进行标记。我们提出了一个框架,用于从(与网络相关的)基础内核,内核转换和选择方法中构造此类方法。我们的框架涵盖了许多基于神经网络的高斯过程近似以及非乘式方法的现有贝叶斯方法。此外,我们建议用草图的有限宽度神经切线核代替常用的最后层特征,并将它们与一种新型的聚类方法结合在一起。为了评估不同的方法,我们引入了一个由15个大型表格回归数据集组成的开源基准。我们所提出的方法的表现优于我们的基准测试上的最新方法,缩放到大数据集,并在不调整网络体系结构或培训代码的情况下开箱即用。我们提供开源代码,包括所有内核,内核转换和选择方法的有效实现,并可用于复制我们的结果。
translated by 谷歌翻译
产品空间的嵌入方法是用于复杂数据结构的低失真和低维表示的强大技术。在这里,我们解决了Euclidean,球形和双曲线产品的产品空间形式的线性分类新问题。首先,我们描述了使用测地仪和黎曼·歧木的线性分类器的新型制剂,其使用大气和黎曼指标在向量空间中推广直线和内部产品。其次,我们证明了$ D $ -dimential空间形式的线性分类器的任何曲率具有相同的表现力,即,它们可以粉碎恰好$ d + 1 $积分。第三,我们在产品空间形式中正式化线性分类器,描述了第一个已知的Perceptron和支持这些空间的传染媒介机分类器,并为感知者建立严格的融合结果。此外,我们证明了vapnik-chervonenkis尺寸在尺寸的产品空间形式的线性分类器的维度为\ {至少} $ d + 1 $。我们支持我们的理论发现,在多个数据集上模拟,包括合成数据,图像数据和单细胞RNA测序(SCRNA-SEQ)数据。结果表明,与相同维度的欧几里德空间中的欧几里德空间中,SCRNA-SEQ数据的低维产品空间形式的分类为SCRNA-SEQ数据提供了$ \ SIM15 \%$的性能改进。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
非参数两样本测试(TST)判断是否从同一分布中得出两组样本,已广泛用于关键数据的分析中。人们倾向于使用TST作为可信赖的基本工具,并且很少对其可靠性有任何疑问。本文系统地通过对抗攻击系统地揭示了非参数TST的故障模式,然后提出了相应的防御策略。首先,我们从理论上表明,对手可以在分配变化上限制,从而保证了攻击的隐形性。此外,我们从理论上发现,对手也可以降低TST测试能力的下限,这使我们能够迭代地最小化测试标准,以便搜索对抗对。为了启用TST不足的攻击,我们提出了一个合奏攻击(EA)框架,共同将不同类型的测试标准最小化。其次,为了鲁棒性TST,我们提出了一种最大值优化,它可以迭代地生成对抗对来训练深核。对模拟和现实世界数据集进行的广泛实验验证了非参数TST的对抗脆弱性以及我们提出的防御的有效性。源代码可从https://github.com/godxuxilie/robust-tst.git获得。
translated by 谷歌翻译
最近推出的热集成技术已经了解并改善变推理(VI),提供了一个新的框架。在这项工作中,我们提出了热力学变目标(TVO)的仔细分析,弥合现有的变分目标和脱落的新见解,以推动该领域的差距。特别是,我们阐明了如何将TVO自然连接三个关键变方案,即重要性加权VI,仁义-VI,和MCMC-VI,它包含了最VI目标在实践中采用。为了解释理论和实践之间的性能差距,我们揭示热力学曲线的病理几何形状是如何产生负面影响TVO。通过推广加权平均持有人从几何平均值的整合路径,我们扩展TVO的理论和发现提高VI新的机遇。这促使我们的新VI的目标,命名为持有人的边界,这拼合热力学曲线和承诺,以实现精确的边缘数似然的一步逼近。提供对数字估计的选择的全面讨论。我们目前的合成和真实世界的数据集强有力的实证证据来支持我们的要求。
translated by 谷歌翻译
度量启发是最新的框架,用于启发分类性能指标,可以根据任务和上下文最好地反映隐性用户偏好。但是,可用的启发策略仅限于预测率的线性(或准线性)函数,这实际上对包括公平性在内的许多应用可能是限制的。本文制定了一种策略,以引发由二次功能定义的更灵活的多类指标,旨在更好地反映人类的偏好。我们展示了它在启发基于二次违规的集体 - fair量指标中的应用。我们的策略仅需要相对的偏好反馈,对噪声是强大的,并且达到了近乎最佳的查询复杂性。我们将此策略进一步扩展到启发多项式指标,从而扩大了用例以进行度量启发。
translated by 谷歌翻译