特征选择作为一种重要的尺寸减少技术,通过识别输入特征的基本子集来减少数据维度,这可以促进可解释的洞察学习和推理过程。算法稳定性是关于其对输入样本扰动的敏感性的算法的关键特征。在本文中,我们提出了一种创新的无监督特征选择算法,其具有可提供保证的这种稳定性。我们的算法的体系结构包括一个特征得分手和特征选择器。得分手训练了一个神经网络(NN)来全局评分所有功能,并且选择器采用从属子NN,以在本地评估选择特征的表示能力。此外,我们提供算法稳定性分析,并显示我们的算法通过泛化误差绑定的性能保证。实际数据集的广泛实验结果表明了我们所提出的算法的卓越泛化性能,以强大的基线方法。此外,我们的理论分析和我们算法选择特征的稳定性揭示的属性是经验证实的。
translated by 谷歌翻译
特征选择通过识别最具信息性功能的子集来减少数据的维度。在本文中,我们为无监督的特征选择提出了一种创新的框架,称为分形Automencoders(FAE)。它列举了一个神经网络,以确定全球探索能力和局部挖掘的多样性的信息。架构上,FAE通过添加一对一的评分层和小子神经网络来扩展AutoEncoders,以便以无监督的方式选择特征选择。通过这种简洁的建筑,Fae实现了最先进的表演;在十四个数据集中的广泛实验结果,包括非常高维数据,已经证明了FAE对未经监督特征选择的现有现代方法的优越性。特别是,FAE对基因表达数据探索具有实质性优势,通过广泛使用的L1000地标基因将测量成本降低约15美元。此外,我们表明FAE框架与应用程序很容易扩展。
translated by 谷歌翻译
尺寸还原〜(DR)将高维数据映射到较低的尺寸潜在空间,并最小化定义的优化目标。 DR方法通常属于特征选择〜(FS)和特征投影〜(FP)。 FS专注于选择尺寸的关键子集,但有风险破坏数据分布(结构)。另一方面,FP将所有输入特征结合到较低的维度空间中,旨在维护数据结构。但是缺乏解释性和稀疏性。 FS和FP传统上是不兼容的类别;因此,它们尚未统一为友好的框架。我们建议理想的DR方法将FS和FP同时结合到统一的端到端多种学习框架中,同时执行基本特征发现,同时保持潜在空间中数据样本之间的内在关系。在这项工作中,我们开发了一个统一的框架,统一的尺寸还原神经网络〜(UDRN),该框架以兼容的端到端方式将FS和FP整合在一起。我们通过使用两个堆叠子网络分别实施FS和FP任务来改善神经网络结构。此外,我们设计了DR流程的数据增强,以提高方法处理广泛的功能数据集和设计的损失功能时,可以与数据增强合作。关于四个图像和四个生物数据集的广泛实验结果,包括非常高维数据,证明了DRN的优势比现有方法〜(FS,FP和FS \&FP管道),尤其是在分类和可视化等下游任务中。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
特征选择是数据科学流水线的重要步骤,以减少与大型数据集相关的复杂性。虽然对本主题的研究侧重于优化预测性能,但很少研究在特征选择过程的上下文中调查稳定性。在这项研究中,我们介绍了重复的弹性网技术(租金)进行特色选择。租金使用具有弹性净正常化的广义线性模型的集合,每个训练都培训了训练数据的不同子集。该特征选择基于三个标准评估所有基本模型的重量分布。这一事实导致选择具有高稳定性的特征,从而提高最终模型的稳健性。此外,与已建立的特征选择器不同,租金提供了有关在训练期间难以预测的数据中难以预测的对象的模型解释的有价值信息。在我们的实验中,我们在八个多变量数据集中对六个已建立的特征选择器进行基准测试,用于二进制分类和回归。在实验比较中,租金在预测性能和稳定之间展示了均衡的权衡。最后,我们强调了租金的额外解释价值与医疗保健数据集的探索性后HOC分析。
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
机器学习对图像和视频数据的应用通常会产生高维特征空间。有效的功能选择技术确定了一个判别特征子空间,该子空间可降低计算和建模成本,而绩效很少。提出了一种新颖的监督功能选择方法,用于这项工作中的机器学习决策。所得测试分别称为分类和回归问题的判别功能测试(DFT)和相关特征测试(RFT)。 DFT和RFT程序进行了详细描述。此外,我们将DFT和RFT的有效性与几种经典特征选择方法进行了比较。为此,我们使用LENET-5为MNIST和时尚流行数据集获得的深度功能作为说明性示例。其他具有手工制作和基因表达功能的数据集也包括用于性能评估。实验结果表明,DFT和RFT可以在保持较高的决策绩效的同时明确,稳健地选择较低的尺寸特征子空间。
translated by 谷歌翻译
在过去几十年中,功能选择吸引了很多关注,因为它可以降低数据维度,同时保持功能的原始物理含义,这比功能提取可以更好地解释性。但是,大多数现有的功能选择方法,尤其是基于深度学习的方法,通常集中在仅具有很高分数的功能上,但忽略了那些在训练过程中得分较低的人以及重要的候选功能的顺序。这可能是有风险的,因为不幸的是,在培训过程中可能会忽略一些重要和相关的功能,从而导致次优的解决方案或误导性选择。在我们的工作中,我们通过利用较少重要性分数的功能来处理功能选择,并根据新颖的互补功能掩码提出功能选择框架。我们的方法是通用的,可以轻松地集成到现有的基于深度学习的特征选择方法中,以提高其性能。实验是在基准数据集上进行的,并表明所提出的方法可以选择比艺术状态更具代表性和信息性的特征。
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
监督字典学习(SDL)是一种经典的机器学习方法,同时寻求特征提取和分类任务,不一定是先验的目标。 SDL的目的是学习类歧视性词典,这是一组潜在特征向量,可以很好地解释特征以及观察到的数据的标签。在本文中,我们提供了SDL的系统研究,包括SDL的理论,算法和应用。首先,我们提供了一个新颖的框架,该框架将“提升” SDL作为组合因子空间中的凸问题,并提出了一种低级别的投影梯度下降算法,该算法将指数成倍收敛于目标的全局最小化器。我们还制定了SDL的生成模型,并根据高参数制度提供真实参数的全局估计保证。其次,我们被视为一个非convex约束优化问题,我们为SDL提供了有效的块坐标下降算法,该算法可以保证在$ O(\ varepsilon^{ - 1}(\ log)中找到$ \ varepsilon $ - 定位点(\ varepsilon \ varepsilon^{ - 1})^{2})$ iterations。对于相应的生成模型,我们为受约束和正则化的最大似然估计问题建立了一种新型的非反应局部一致性结果,这可能是独立的。第三,我们将SDL应用于监督主题建模和胸部X射线图像中的肺炎检测中,以进行不平衡的文档分类。我们还提供了模拟研究,以证明当最佳的重建性和最佳判别词典之间存在差异时,SDL变得更加有效。
translated by 谷歌翻译
This paper provides theoretical insights into why and how deep learning can generalize well, despite its large capacity, complexity, possible algorithmic instability, nonrobustness, and sharp minima, responding to an open question in the literature. We also discuss approaches to provide non-vacuous generalization guarantees for deep learning. Based on theoretical observations, we propose new open problems and discuss the limitations of our results.
translated by 谷歌翻译
差异隐私(DP)是保留隐私的基本技术。有发现,用于隐私保留的大型模型比较较小的模型更糟糕(例如,RESET50比RENET18更糟糕)。为了更好地理解这种现象,我们从泛化的观点来看高维DP学习。从理论上讲,对于简单的高斯模型具有甚至小的DP噪声,如果维度足够大,则分类错误可以像随机猜测一样糟糕。然后,我们提出了一个特征选择方法,以减少模型的大小,基于新的指标,它交易分类准确性和隐私保留。实验对真实数据支持我们的理论结果,并证明了所提出的方法的优势。
translated by 谷歌翻译
特征选择是机器学习的重要过程。它通过选择对预测目标贡献最大的功能来构建一个可解释且健壮的模型。但是,大多数成熟的特征选择算法,包括受监督和半监督,无法完全利用特征之间的复杂潜在结构。我们认为,这些结构对于特征选择过程非常重要,尤其是在缺乏标签并且数据嘈杂的情况下。为此,我们创新地向特征选择问题(即基于批量注意的自我划分特征选择(A-SFS))进行了创新的深入的自我监督机制。首先,多任务自我监督的自动编码器旨在在两个借口任务的支持下揭示功能之间的隐藏结构。在来自多自制的学习模型的集成信息的指导下,批处理注意机制旨在根据基于批处理的特征选择模式产生特征权重,以减轻少数嘈杂数据引入的影响。将此方法与14个主要强大基准进行了比较,包括LightGBM和XGBoost。实验结果表明,A-SFS在大多数数据集中达到了最高的精度。此外,这种设计大大降低了对标签的依赖,仅需1/10个标记的数据即可达到与那些先进的基线相同的性能。结果表明,A-SFS对于嘈杂和缺少数据也是最强大的。
translated by 谷歌翻译
We define notions of stability for learning algorithms and show how to use these notions to derive generalization error bounds based on the empirical error and the leave-one-out error. The methods we use can be applied in the regression framework as well as in the classification one when the classifier is obtained by thresholding a real-valued function. We study the stability properties of large classes of learning algorithms such as regularization based algorithms. In particular we focus on Hilbert space regularization and Kullback-Leibler regularization. We demonstrate how to apply the results to SVM for regression and classification.1. For a qualitative discussion about sensitivity analysis with links to other resources see e.g. http://sensitivity-analysis.jrc.cec.eu.int/
translated by 谷歌翻译
Fine-tuning pre-trained models has been ubiquitously proven to be effective in a wide range of NLP tasks. However, fine-tuning the whole model is parameter inefficient as it always yields an entirely new model for each task. Currently, many research works propose to only fine-tune a small portion of the parameters while keeping most of the parameters shared across different tasks. These methods achieve surprisingly good performance and are shown to be more stable than their corresponding fully fine-tuned counterparts. However, such kind of methods is still not well understood. Some natural questions arise: How does the parameter sparsity lead to promising performance? Why is the model more stable than the fully fine-tuned models? How to choose the tunable parameters? In this paper, we first categorize the existing methods into random approaches, rule-based approaches, and projection-based approaches based on how they choose which parameters to tune. Then, we show that all of the methods are actually sparse fine-tuned models and conduct a novel theoretical analysis of them. We indicate that the sparsity is actually imposing a regularization on the original model by controlling the upper bound of the stability. Such stability leads to better generalization capability which has been empirically observed in a lot of recent research works. Despite the effectiveness of sparsity grounded by our theory, it still remains an open problem of how to choose the tunable parameters. To better choose the tunable parameters, we propose a novel Second-order Approximation Method (SAM) which approximates the original problem with an analytically solvable optimization function. The tunable parameters are determined by directly optimizing the approximation function. The experimental results show that our proposed SAM model outperforms many strong baseline models and it also verifies our theoretical analysis.
translated by 谷歌翻译
对比学习在各种自我监督的学习任务中取得了最先进的表现,甚至优于其监督的对应物。尽管其经验成功,但对为什么对比学习作品的理论认识仍然有限。在本文中,(i)我们证明,对比学习胜过AutoEncoder,一种经典无监督的学习方法,适用于特征恢复和下游任务;(ii)我们还说明标记数据在监督对比度学习中的作用。这为最近的发现提供了理论支持,即对标签对比学习的结果提高了域名下游任务中学识表的表现,但它可能会损害转移学习的性能。我们通过数值实验验证了我们的理论。
translated by 谷歌翻译
异常(或异常值)在现实世界的经验观察中普遍存在,并且潜在地掩盖了重要的基础结构。准确识别异常样品对于下游数据分析任务的成功至关重要。为了自动识别异常,我们提出了概率鲁棒性自动编码器(PRAE)。 PRAE的目的是同时删除异常值并确定嵌入式样品的低维表示。我们首先提出了强大的自动编码器(RAE)目标,作为将数据拆分为嵌入式和离群值的最小化问题。我们的目标旨在排除离群值,同时包括可以使用自动编码器(AE)有效重建的样本(Inliers)的子集。 RAE最小化自动编码器的重建误差,同时合并尽可能多的样品。可以通过减去$ \ ell_0 $ norm对重建项中所选样本的数量进行$ \ ell_0 $ norm来制定这一点。不幸的是,这导致了一个棘手的组合问题。因此,我们提出了两种RAE的概率放松,它们是可区分的,可以减轻组合搜索的需求。我们证明,解决PRAE问题的解决方案等效于RAE的解决方案。我们使用合成数据来表明PRAE可以准确地删除广泛污染水平的异常值。最后,我们证明,使用PRAE进行异常检测会导致各种基准数据集中的最新结果。
translated by 谷歌翻译
组选择的最佳子集(BSG)是选择一小部分非重叠组以在响应变量上获得最佳解释性的过程。它吸引了越来越多的关注,并且在实践中具有深远的应用。但是,由于BSG在高维环境中的计算棘手性,开发用于解决BSGS的有效算法仍然是研究热点。在本文中,我们提出了一种划分的算法,该算法迭代地检测相关组并排除了无关的组。此外,再加上新的组信息标准,我们开发了一种自适应算法来确定最佳模型大小。在轻度条件下,我们的算法可以在多项式时间内以高概率确定组的最佳子集是可以证明的。最后,我们通过将它们与合成数据集和现实世界中的几种最新算法进行比较来证明我们的方法的效率和准确性。
translated by 谷歌翻译