标记数据的中心性和多样性对半监督学习(SSL)的性能非常有影响,但是大多数SSL模型随机选择标记的数据。迄今为止,如何保证标记数据的中心性和多样性几乎没有得到研究的关注。已经观察到最佳的领先森林(OLF)具有揭示类别开发SSL模型的类别的差异演变的优势。我们对这项研究的关键直觉是学习一个基于OLF结构识别的少量最稳定和最不同的数据,以学习一个核的大幅度度量。提出了一个优化问题以实现这一目标。同样,对于OLF,多个局部指标学习促进了解决SSL中多模式和混合模式问题的促进。归因于这种新颖的设计,与基线方法相比,基于OLF的SSL模型的准确性和性能稳定性在没有牺牲太多效率的情况下得到了显着改善。实验研究表明,与最先进的图形SSL方法相比,提出的方法可以鼓励精度和运行时间。代码已在https://github.com/alanxuji/delala上提供。
translated by 谷歌翻译
我们研究了用于半监控学习(SSL)的无监督数据选择,其中可以提供大规模的未标记数据集,并且为标签采集预算小额数据子集。现有的SSL方法专注于学习一个有效地集成了来自给定小标记数据和大型未标记数据的信息的模型,而我们专注于选择正确的数据以用于SSL的注释,而无需任何标签或任务信息。直观地,要标记的实例应统称为下游任务的最大多样性和覆盖范围,并且单独具有用于SSL的最大信息传播实用程序。我们以三步数据为中心的SSL方法形式化这些概念,使稳定性和精度的纤维液改善8%的CiFar-10(标记为0.08%)和14%的Imagenet -1k(标记为0.2%)。它也是一种具有各种SSL方法的通用框架,提供一致的性能增益。我们的工作表明,在仔细选择注释数据上花费的小计算带来了大注释效率和模型性能增益,而无需改变学习管道。我们完全无监督的数据选择可以轻松扩展到其他弱监督的学习设置。
translated by 谷歌翻译
在本文中,我们提出了一种与成对约束聚类的主动度量学习方法。该方法主动查询信息性实例对的标签,同时通过结合未标记的实例对估计底层度量,这导致更准确和有效的聚类过程。特别是,我们通过生成更多成对标签来增强查询的约束,以提供学习度量标准以增强聚类性能的附加信息。此外,我们通过顺序更新学习的度量并自适应地惩罚无关的特征来增加度量学习的鲁棒性。此外,我们提出了一种新的主​​动查询策略,通过结合邻域结构来更准确地评估实例对的信息增益,这提高了集群效率而无需额外的标记成本。理论上,我们提供了利用使用现有约束的方法使用增强查询的所提出的度量学习方法的更紧密的错误。此外,我们还使用主动查询策略而不是随机选择来研究改进。仿真设置和实际数据集的数值研究表明,当显着特征和无关的特征之间的信噪比低时,所提出的方法是特别有利的。
translated by 谷歌翻译
半监督学习(SSL)是使用不仅标记的示例,而且是未标记的示例学习预测模型的常见方法。尽管用于分类和回归的简单任务的SSL受到了研究社区的广泛关注,但对于具有结构依赖变量的复杂预测任务,这尚未得到适当的研究。这种情况是多标签分类和分层多标签分类任务,可能需要其他信息,可能来自未标记示例提供的描述性空间中的基础分布,以更好地面对同时预测多个类别标签的挑战性任务。在本文中,我们研究了这一方面,并​​提出了一种基于对预测性聚类树的半监督学习的(分层)多标签分类方法。我们还扩展了整体学习的方法,并提出了一种基于随机森林方法的方法。在23个数据集上进行的广泛实验评估显示了该方法的显着优势及其在其监督对应物方面的扩展。此外,该方法可保留可解释性并降低基于经典树模型的时间复杂性。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
人类每天产生的exabytes数据,导致越来越需要对大数据带来的多标签学习的大挑战的新努力。例如,极端多标签分类是一个有效且快速增长的研究区域,可以处理具有极大数量的类或标签的分类任务;利用具有有限监督的大规模数据构建一个多标签分类模型对实际应用变得有价值。除此之外,如何收获深度学习的强大学习能力,有巨大努力,以更好地捕获多标签的标签依赖性学习,这是深入学习解决现实世界分类任务的关键。然而,有人指出,缺乏缺乏系统性研究,明确关注分析大数据时代的多标签学习的新兴趋势和新挑战。呼吁综合调查旨在满足这项任务和描绘未来的研究方向和新应用。
translated by 谷歌翻译
域适应性是现代机器学习中的一种流行范式,旨在解决培训或验证数据集之间具有用于学习和测试分类器(源域)和潜在的大型未标记数据集的培训或验证数据集之间的分歧问题,其中利用了模型(目标域)(目标域)(目标域) 。任务是找到源数据集的源和目标数据集的这种常见表示,其中源数据集提供了培训的信息,因此可以最大程度地减少来源和目标之间的差异。目前,最流行的领域适应性解决方案是基于训练神经网络,这些神经网络结合了分类和对抗性学习模块,这些模块是饥饿的,通常很难训练。我们提出了一种称为域适应性主成分分析(DAPCA)的方法,该方法发现线性减少的数据表示有助于解决域适应任务。 DAPCA基于数据点对之间引入正权重,并概括了主成分分析的监督扩展。 DAPCA代表一种迭代算法,因此在每次迭代中都解决了一个简单的二次优化问题。保证算法的收敛性,并且在实践中的迭代次数很少。我们验证了先前提出的用于解决域适应任务的基准的建议算法,还显示了在生物医学应用中对单细胞法数据集进行分析中使用DAPCA的好处。总体而言,考虑到源域和目标域之间可能的差异,DAPCA可以作为许多机器学习应用程序中有用的预处理步骤。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
在新颖的类发现(NCD)中,目标是在一个未标记的集合中找到新的类,并给定一组已知但不同的类别。尽管NCD最近引起了社区的关注,但尽管非常普遍的数据表示,但尚未提出异质表格数据的框架。在本文中,我们提出了TabularNCD,这是一种在表格数据中发现新类别的新方法。我们展示了一种从已知类别中提取知识的方法,以指导包含异质变量的表格数据中新型类的发现过程。该过程的一部分是通过定义伪标签的新方法来完成的,我们遵循多任务学习中的最新发现以优化关节目标函数。我们的方法表明,NCD不仅适用于图像,而且适用于异质表格数据。进行了广泛的实验,以评估我们的方法并证明其对7种不同公共分类数据集的3个竞争对手的有效性。
translated by 谷歌翻译
随着信息时代的蓬勃发展,日常生成大量数据。由于这些数据的大规模和高维度,通常很难在实际应用中实现更好的决策。因此,迫切需要一种有效的大数据分析方法。对于功能工程,功能选择似乎是一个重要的研究内容,预计可以从候选人中选择“出色”功能。可以通过特征选择来实现不同的功能,例如降低维度,模型效应改进和模型性能改进。在许多分类任务中,研究人员发现,如果数据来自同一类,通常它们似乎彼此接近。因此,局部紧凑性对于评估功能至关重要。在此手稿中,我们提出了一种快速无监督的特征选择方法,称为紧凑型评分(CSUFS),以选择所需的功能。为了证明效率和准确性,通过进行广泛的实验选择了几个数据集。后来,通过解决聚类任务来揭示我们方法的有效性和优势。在这里,性能由几个众所周知的评估指标表示,而效率则由相应的运行时间反映。正如模拟结果所揭示的那样,与现有算法相比,我们提出的算法似乎更准确和有效。
translated by 谷歌翻译
半监督学习得到了研究人员的关注,因为它允许其中利用未标记数据的结构来实现比监督方法更少的标签来实现竞争分类结果。本地和全局一致性(LGC)算法是最着名的基于图形的半监督(GSSL)分类器之一。值得注意的是,其解决方案可以写成已知标签的线性组合。这种线性组合的系数取决于参数$ \ alpha $,在随机步行中达到标记的顶点时,确定随时间的衰减。在这项工作中,我们讨论如何删除标记实例的自我影响可能是有益的,以及它如何与休留次误差。此外,我们建议尽量减少自动分化的休假。在此框架内,我们提出了估计标签可靠性和扩散速率的方法。优化扩散速率以频谱表示更有效地完成。结果表明,标签可靠性方法与强大的L1-NORM方法竞争,删除对角线条目会降低过度的风险,并导致参数选择的合适标准。
translated by 谷歌翻译
Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
translated by 谷歌翻译
Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data.
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
最近,分布式的半监督学习(DSSL)算法表明,它们在利用未标记的样本优于互连网络方面的有效性,在这些网络上,代理无法彼此共享其原始数据,并且只能与邻居传达非敏感信息。但是,现有的DSSL算法无法应对数据不确定性,并且可能会遭受高度计算和通信开销问题的困扰。为了解决这些问题,我们提出了一个分布式的半监督模糊回归(DSFR)模型,该模型具有模糊的规则和插值一致性正则化(ICR)。 ICR最近是针对半监督问题的,可以迫使决策边界通过稀疏的数据区域,从而增加模型的鲁棒性。但是,尚未考虑其在分布式方案中的应用。在这项工作中,我们提出了分布式模糊C均值(DFCM)方法和分布式插值一致性正则化(DICR)(DICR)构建在众所周知的乘数交替方向方法上,以分别定位DSFR的先行和结果组件中的参数。值得注意的是,DSFR模型的收敛非常快,因为它不涉及后传播过程,并且可扩展到从DFCM和DICR的利用率中受益的大规模数据集。人工和现实世界数据集的实验结果表明,就损失价值和计算成本而言,提出的DSFR模型可以比最新的DSSL算法获得更好的性能。
translated by 谷歌翻译
公制学习旨在学习一个距离度量,以便在将不同的实例推开时将语义上相似的实例放在一起。许多现有方法考虑在特征空间中最大化或至少限制距离距离的距离,以分离相似和不同的实例对以保证其概括能力。在本文中,我们主张在输入空间中施加对抗边缘,以改善公制学习算法的概括和稳健性。我们首先表明,对抗边缘定义为训练实例与其最接近的对手示例之间的距离,它既考虑了特征空间中的距离差距以及指标和三重限制之间的相关性。接下来,为了增强实例扰动的鲁棒性,我们建议通过最大程度地减少称为扰动损失的新型损失函数来扩大对抗缘。提出的损失可以看作是数据依赖性的正规器,并轻松地插入任何现有的度量学习方法中。最后,我们表明扩大边缘通过使用算法鲁棒性的理论技术对概括能力有益。 16个数据集的实验结果证明了所提出的方法比现有的最新方法具有歧视精度和鲁棒性,以抵抗可能的噪声。
translated by 谷歌翻译
Partial label learning (PLL) is an important problem that allows each training example to be labeled with a coarse candidate set, which well suits many real-world data annotation scenarios with label ambiguity. Despite the promise, the performance of PLL often lags behind the supervised counterpart. In this work, we bridge the gap by addressing two key research challenges in PLL -- representation learning and label disambiguation -- in one coherent framework. Specifically, our proposed framework PiCO consists of a contrastive learning module along with a novel class prototype-based label disambiguation algorithm. PiCO produces closely aligned representations for examples from the same classes and facilitates label disambiguation. Theoretically, we show that these two components are mutually beneficial, and can be rigorously justified from an expectation-maximization (EM) algorithm perspective. Moreover, we study a challenging yet practical noisy partial label learning setup, where the ground-truth may not be included in the candidate set. To remedy this problem, we present an extension PiCO+ that performs distance-based clean sample selection and learns robust classifiers by a semi-supervised contrastive learning algorithm. Extensive experiments demonstrate that our proposed methods significantly outperform the current state-of-the-art approaches in standard and noisy PLL tasks and even achieve comparable results to fully supervised learning.
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译
聚类分析是机器学习中的关键任务之一。传统上,聚类一直是一项独立的任务,与异常检测分开。由于离群值可以大大侵蚀聚类的性能,因此,少数算法尝试在聚类过程中掺入离群值检测。但是,大多数这些算法基于基于无监督的分区算法,例如K-均值。鉴于这些算法的性质,它们通常无法处理复杂的非凸形簇。为了应对这一挑战,我们提出了SSDBCODI,这是一种半监督密度的算法。 SSDBCODI结合了基于密度的算法的优势,这些算法能够处理复杂形状的簇,以及半监督元素,该元素具有灵活性,可以根据一些用户标签调整聚类结果。我们还将离群检测组件与聚类过程合并。根据过程中产生的三个分数检测到潜在离群值:(1)达到性得分,该得分衡量了一个点的密度可至关重要是对标记的正常物体的测量值,(2)局部密度得分,该局部密度得分,它测量了相邻密度的密度数据对象和(3)相似性得分,该分数测量了一个点与其最近标记的异常值的接近度。然后,在下一步中,在用于训练分类器以进一步群集和离群值检测之前,基于这三个分数为每个数据实例生成实例权重。为了增强对拟议算法的理解,为了进行评估,我们已经针对多个数据集上的某些最新方法运行了拟议的算法,并分别列出了除聚类外检测的结果。我们的结果表明,我们的算法可以通过少量标签获得优异的结果。
translated by 谷歌翻译