多变量分析(MVA)包括用于特征提取的众所周知的方法,该方法提取,其利用表示数据的输入变量之间的相关性。大多数此类方法享有的一个重要属性是提取特征之间的不相关性。最近,MVA方法的正则化版本在文献中出现,主要是为了获得解决方案的解释性。在这些情况下,不再以封闭的方式获得解决方案,并且经常使用更复杂的优化方法,依赖于两个步骤的迭代。本文回到了替代方法来解决这个迭代问题。这种方法的主要新颖性在于保持原始方法的几个属性,最值得注意的是提取特征的不相关性。在此框架下,我们提出了一种新的方法,该方法利用L-21规范在特征提取过程中执行变量选择。不同问题的实验结果证实了与现有化配方的拟议配方的优点。
translated by 谷歌翻译
音频或视觉数据分析任务通常必须处理高维和非负信号。然而,当数据具有多维数减少预处理时,大多数数据分析方法遭受过度拟合和数值问题。此外,关于如何以及为什么滤波器为音频或可视应用的方式工作是所需的属性,特别是当涉及能量或频谱信号时。在这些情况下,由于这些信号的性质,滤波器重量的非承诺是所需的性质,以更好地理解其工作。由于这两个必需品,我们提出了不同的方法来减少数据的维度,而保证溶液的非承诺和可解释性。特别是,我们提出了一种广义方法,以在处理非负数据的应用程序中以监督方式设计过滤器银行,并且我们探讨了解决所提出的目标函数的不同方式,包括非负面的部分最小二乘法的非负图。我们分析了通过拟议的两种不同和广泛研究的应用方法获得的特征的辨别力:纹理和音乐类型分类。此外,我们比较我们的方法实现的滤波器银行,具体设计用于特征提取的其他最先进的方法。
translated by 谷歌翻译
监督主体组件分析(SPCA)的方法旨在将标签信息纳入主成分分析(PCA),以便提取的功能对于预测感兴趣的任务更有用。SPCA的先前工作主要集中在优化预测误差上,并忽略了提取功能解释的最大化方差的价值。我们为SPCA提出了一种新的方法,该方法共同解决了这两个目标,并从经验上证明我们的方法主导了现有方法,即在预测误差和变异方面都超越了它们的表现。我们的方法可容纳任意监督的学习损失,并通过统计重新制定提供了广义线性模型的新型低级扩展。
translated by 谷歌翻译
学习遥感图像的歧管结构对于建模和理解过程是最重要的相关性,以及封装在减少一组信息特征中的高维度,以用于后续分类,回归或解密。歧管学习方法显示出优异的性能来处理高光谱图像(HSI)分析,但除非专门设计,否则它们不能提供明确的嵌入式地图,容易适用于采样超出数据。处理问题的常见假设是高维输入空间和(通常低)潜空间之间的转换是线性的。这是一种特别强烈的假设,特别是当由于数据的众所周知的非线性性质而处理高光谱图像时。为了解决这个问题,提出了一种基于高维模型表示(HDMR)的歧管学习方法,这使得能够将非线性嵌入功能呈现给潜伏空间的采样外部样本。将所提出的方法与其线性对应物一起进行比较,并在代表性齐谱图像的分类精度方面实现了有希望的性能。
translated by 谷歌翻译
在本文中,我们考虑了一种用于主成分分析(PCA)的新变体,旨在同时捕获因子负载的分组和/或稀疏结构。为了实现这些目标,我们采用非凸截面的正则化,具有自然可调的稀疏性和分组效应,并提出了特征分组和稀疏主组件分析(FGSPCA)。所提出的FGSPCA方法鼓励具有相似值的因子负载,以将特征分组或特征零值组分成特征选择的差异均匀组,从而有助于降低模型的复杂性和增加模型解释。通常,现有的结构化PCA方法需要先验知识来构建正则化项。但是,提出的FGSPCA可以同时捕获因子负载的分组和/或稀疏结构,而无需任何事先信息。为了解决所得的非凸优化问题,我们提出了一种交替的算法,该算法结合了Convex编程,增强的Lagrange方法和坐标下降方法。实验结果证明了新方法在合成和现实世界数据集上的有希望的性能和效率。可以在github {https://github.com/higeeks/fgspca}上找到FGSPCA的R实现。
translated by 谷歌翻译
由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
我们考虑在有限数据设置下一般损失函数下线性分类问题。过度装备是这里的常见问题。防止过度装备的标准方法是减少和正则化的维度。但是减少了维度的丢失信息,而正规化要求用户选择规范,或之前或距离度量。我们提出了一种称为Rolin的算法,不需要用户选择并适用于大类丢失功能。 Rolin将顶部主成分的可靠信息与强大的优化组合,以从不可靠的子空间中提取任何有用的信息。它还包括一种新的强大交叉验证,比有限数据设置中的现有交叉验证方法更好。在$ 25 $现实世界数据集和三个标准损失功能的实验表明,Rolin广泛优于维度,减少和正规。与Rolin相比,维数减少有14 \% - 40 \%$较差的测试损失。防止$ L_1 $和$ L_2 $正则化,Rolin可以更好地为3倍,对于平方铰链损耗更好的逻辑损耗和12倍。对于小型样本尺寸,差异最大,其中Rolin实现了比任何竞争方法更多的数据集的2倍至3x的最佳损失。对于某些数据集,Rolin以$ 15 $培训样本比为1500美元的最佳规范正常化更好。
translated by 谷歌翻译
随机特征方法已广泛用于大型机器学习中的内核近似。最近的一些研究已经探索了数据相关的功能,修改随机特征的随机oracle进行采样。虽然该领域的提出技术提高了近似值,但它们通常在单个学习任务上验证它们的适用性。在本文中,我们提出了一种特定于任务的评分规则,用于选择随机特征,该规则可以用于不同的应用程序具有一些调整。我们限制了我们对规范相关性分析(CCA)的注意,我们提供了一种新颖的,原则性指南,用于找到最大化规范相关性的得分函数。我们证明了这种方法,称为ORCCA,可以胜过(期望)具有默认内核的相应内核CCA。数值实验验证ORCCA明显优于CCA任务中的其他近似技术。
translated by 谷歌翻译
主成分分析(PCA)是大数据时代的维度减少的Workhorse工具。虽然经常被忽视,但PCA的目的不仅可以减少数据维度,而且还要产生不相关的功能。此外,现代世界中不断增加的数据量通常需要在多台机器上存储数据样本,这会排除使用集中式PCA算法。本文重点介绍了PCA的双重目标,即功能的维度和特征的脱钩,但在分布式环境中。这需要估计数据协方差矩阵的特征向量,而不是仅估计特征向量跨越的子空间,当数据分布在机器网络上时。尽管最近已经提出了几种分布式PCA问题的分布式解决方案,但这些解决方案的收敛保证和/或通信开销仍然是一个问题。随着通信效率的眼睛,介绍了一种基于前馈神经网络的一种时级分布式PCA算法,其被称为分布式Sanger的算法(DSA),该算法(DSA)估计数据协方差矩阵的特征向量,当数据分布在一个无向连接的网络上时机器。此外,所提出的算法被示出为线性地收敛到真实解决方案的邻域。还提供了数值结果以证明所提出的解决方案的功效。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
约束的张量和矩阵分子化模型允许从多道数据中提取可解释模式。因此,对于受约束的低秩近似度的可识别性特性和有效算法是如此重要的研究主题。这项工作涉及低秩近似的因子矩阵的列,以众所周知的和可能的过度顺序稀疏,该模型包括基于字典的低秩近似(DLRA)。虽然早期的贡献集中在候选列字典内的发现因子列,即一稀疏的近似值,这项工作是第一个以大于1的稀疏性解决DLRA。我建议专注于稀疏编码的子问题,在解决DLRA时出现的混合稀疏编码(MSC)以交替的优化策略在解决DLRA时出现。提供了基于稀疏编码启发式的几种算法(贪婪方法,凸起放松)以解决MSC。在模拟数据上评估这些启发式的性能。然后,我展示了如何基于套索来调整一个有效的MSC求解器,以计算高光谱图像处理和化学测量学的背景下的基于词典的基于矩阵分解和规范的多adic分解。这些实验表明,DLRA扩展了低秩近似的建模能力,有助于降低估计方差并提高估计因子的可识别性和可解释性。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的子空间学习框架,用于一级分类。提出的框架以图形嵌入形式提出了问题。它包括先前提出的子空间一级技术作为特殊情况,并进一步了解这些技术实际优化了什么。该框架允许通过保留图表结合其他有意义的优化目标,并揭示光谱解决方案和基于光谱回归的解决方案作为先前基于梯度的技术的替代方案。我们将子空间学习框架与支持向量数据描述在子空间中应用,以制定图形包含的子空间支持向量数据描述。我们通过实验分析了新提出的不同变体的性能。我们证明了针对基准的性能以及最近提出的单级分类子空间学习方法。
translated by 谷歌翻译
我们介绍了一种确定全局特征解耦的方法,并显示其适用于提高数据分析性能的适用性,并开放了新的场所以进行功能传输。我们提出了一种新的形式主义,该形式主义是基于沿特征梯度遵循轨迹来定义对子曼群的转换的。通过这些转换,我们定义了一个归一化,我们证明,它允许解耦可区分的特征。通过将其应用于采样矩,我们获得了用于正骨的准分析溶液,正尾肌肉是峰度的归一化版本,不仅与平均值和方差相关,而且还与偏度相关。我们将此方法应用于原始数据域和过滤器库的输出中,以基于全局描述符的回归和分类问题,与使用经典(未删除)描述符相比,性能得到一致且显着的改进。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
现代高维方法经常采用“休稀稀物”的原则,而在监督多元学习统计学中可能面临着大量非零系数的“密集”问题。本文提出了一种新的聚类减少秩(CRL)框架,其施加了两个联合矩阵规范化,以自动分组构建预测因素的特征。 CRL比低级别建模更具可解释,并放松变量选择中的严格稀疏假设。在本文中,提出了新的信息 - 理论限制,揭示了寻求集群的内在成本,以及多元学习中的维度的祝福。此外,开发了一种有效的优化算法,其执行子空间学习和具有保证融合的聚类。所获得的定点估计器虽然不一定是全局最佳的,但在某些规则条件下享有超出标准似然设置的所需的统计准确性。此外,提出了一种新的信息标准,以及其无垢形式,用于集群和秩选择,并且具有严格的理论支持,而不假设无限的样本大小。广泛的模拟和实数据实验证明了所提出的方法的统计准确性和可解释性。
translated by 谷歌翻译
多模态数据集的可用性提供了一个独特的机会,可以更全面地使用多个视点来表征相同的兴趣对象。在这项工作中,我们研究了使用规范相关性分析(CCA)和CCA(PCCA)的罚款变种用于两种方式的融合。我们研究了一个简单的图形模型,用于生成双模数据。我们分析表明,通过已知的模型参数,后均估计器共同使用的两种模式优于单个模态后估计在潜在可变预测中的任意线性混合。包含域知识的CCA(PCCA)的惩罚扩展可以发现与高维,低样本数据的相关性,而传统的CCA是不可应用的。为了便于使用PCCA产生多维嵌入,我们提出了两个基质放气计划,该方案强制实施CCA所表现出的理想性质。我们通过组合上述所有具有潜在可变预测的通货卡来提出一种两阶段预测管道。在模拟数据上,我们提出的模型大大降低了潜在可变预测中的平均平均误差。当从癌症基因组地图集(​​TCGA)乳腺癌患者的公开可用的组织病理学数据和RNA测序数据中时,我们的模型可以在生存预测中呈现相同维度的主要成分分析(PCA)嵌入。
translated by 谷歌翻译
Explainable AI transforms opaque decision strategies of ML models into explanations that are interpretable by the user, for example, identifying the contribution of each input feature to the prediction at hand. Such explanations, however, entangle the potentially multiple factors that enter into the overall complex decision strategy. We propose to disentangle explanations by finding relevant subspaces in activation space that can be mapped to more abstract human-understandable concepts and enable a joint attribution on concepts and input features. To automatically extract the desired representation, we propose new subspace analysis formulations that extend the principle of PCA and subspace analysis to explanations. These novel analyses, which we call principal relevant component analysis (PRCA) and disentangled relevant subspace analysis (DRSA), optimize relevance of projected activations rather than the more traditional variance or kurtosis. This enables a much stronger focus on subspaces that are truly relevant for the prediction and the explanation, in particular, ignoring activations or concepts to which the prediction model is invariant. Our approach is general enough to work alongside common attribution techniques such as Shapley Value, Integrated Gradients, or LRP. Our proposed methods show to be practically useful and compare favorably to the state of the art as demonstrated on benchmarks and three use cases.
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
越来越多的多元过程数据驱动了熟练工人从这些数据分析,解释和构建模型的需求。多元数据分析在很大程度上依赖于线性代数,优化和统计数据,并且鉴于大多数课程在后三个主题中没有强大的覆盖范围,学生可能会具有挑战性。本文介绍了用于教学,学习和理解潜在变量方法的交互式软件 - 潜在变量演示器(LAVADE)。在此软件中,用户可以与其他回归方法(例如绝对收缩和选择运算符(LASSO),Ridge Remission(RR)和其他回归方法(RR)和其他回归方法(RR)和其他回归方法进行交互式比较潜在变量方法,例如部分最小二乘(PLS)和主组件回归(PCR)。弹性网(en)。 Lavade有助于建立有关选择适当方法,超参数调整和模型系数解释的直觉,从而促进对算法差异的概念理解。该软件包含数据生成方法和三个化学过程数据集,可以比较具有不同复杂性级别的数据集的结果。 Lavade作为开源软件发布,以便其他人可以应用并推进用于教学或研究的工具。
translated by 谷歌翻译