学习遥感图像的歧管结构对于建模和理解过程是最重要的相关性,以及封装在减少一组信息特征中的高维度,以用于后续分类,回归或解密。歧管学习方法显示出优异的性能来处理高光谱图像(HSI)分析,但除非专门设计,否则它们不能提供明确的嵌入式地图,容易适用于采样超出数据。处理问题的常见假设是高维输入空间和(通常低)潜空间之间的转换是线性的。这是一种特别强烈的假设,特别是当由于数据的众所周知的非线性性质而处理高光谱图像时。为了解决这个问题,提出了一种基于高维模型表示(HDMR)的歧管学习方法,这使得能够将非线性嵌入功能呈现给潜伏空间的采样外部样本。将所提出的方法与其线性对应物一起进行比较,并在代表性齐谱图像的分类精度方面实现了有希望的性能。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
子空间聚类是将大约位于几个低维子空间的数据样本集合集合的经典问题。此问题的当前最新方法基于自我表达模型,该模型表示样品是其他样品的线性组合。但是,这些方法需要足够广泛的样品才能准确表示,这在许多应用中可能不一定是可以访问的。在本文中,我们阐明了这个常见的问题,并认为每个子空间中的数据分布在自我表达模型的成功中起着至关重要的作用。我们提出的解决此问题的解决方案是由数据扩展在深神经网络的概括力中的核心作用引起的。我们为无监督和半监督的设置提出了两个子空间聚类框架,这些框架使用增强样品作为扩大词典来提高自我表达表示的质量。我们提出了一种使用一些标记的样品进行半监督问题的自动增强策略,该问题取决于数据样本位于多个线性子空间的联合以下事实。实验结果证实了数据增强的有效性,因为它显着提高了一般自我表达模型的性能。
translated by 谷歌翻译
张量分解是学习多通道结构和来自高维数据的异质特征的有效工具,例如多视图图像和多通道脑电图(EEG)信号,通常由张量表示。但是,大多数张量分解方法是线性特征提取技术,它们无法在高维数据中揭示非线性结构。为了解决此类问题,已经提出了许多算法,以同时执行线性和非线性特征提取。代表性算法是用于图像群集的图形正则非负矩阵分解(GNMF)。但是,正常的2阶图只能模拟对象的成对相似性,该对象无法充分利用样品的复杂结构。因此,我们提出了一种新型方法,称为HyperGraph Narodarized非负张量分解(HyperNTF),该方法利用超图来编码样品之间的复杂连接,并采用了与最终的典型多形(CP)分解模式相对应的因子矩阵,为低维度表示。关于合成歧管,现实世界图像数据集和脑电图信号的广泛实验,表明HyperNTF在降低,聚类和分类方面优于最先进的方法。
translated by 谷歌翻译
在本文中,我们提出了一种用于几个样本监督功能选择(FS)的新方法。我们的方法首先使用捕获多功能关联的内核来了解每个类的特征空间的歧视。然后,基于Riemannian几何形状,计算复合内核,从而提取了学习的特征关联之间的差异。最后,提出了基于光谱分析的FS分数。考虑多功能关联使我们的方法逐个设计。反过来,这允许提取特征基础的隐藏歧管,并避免过度拟合,从而促进少量样本FS。我们展示了我们方法在说明性示例和几个基准测试方面的功效,在其中我们的方法在选择与竞争方法相比选择信息性特征的准确性更高。此外,我们表明,当应用于测试数据时,我们的FS会导致改进的分类和更好的概括。
translated by 谷歌翻译
多变量分析(MVA)包括用于特征提取的众所周知的方法,该方法提取,其利用表示数据的输入变量之间的相关性。大多数此类方法享有的一个重要属性是提取特征之间的不相关性。最近,MVA方法的正则化版本在文献中出现,主要是为了获得解决方案的解释性。在这些情况下,不再以封闭的方式获得解决方案,并且经常使用更复杂的优化方法,依赖于两个步骤的迭代。本文回到了替代方法来解决这个迭代问题。这种方法的主要新颖性在于保持原始方法的几个属性,最值得注意的是提取特征的不相关性。在此框架下,我们提出了一种新的方法,该方法利用L-21规范在特征提取过程中执行变量选择。不同问题的实验结果证实了与现有化配方的拟议配方的优点。
translated by 谷歌翻译
这是一份有关降低光谱维度降低方法统一的教程和调查论文,通过半决赛编程(SDP)学习内核学习,最大方差展开(MVU)或半芬特嵌入(SDE)及其变体。我们首先解释了如何将频谱降低方法降低方法统一为具有不同内核的内核主成分分析(PCA)。在距离矩阵方面,该统一可以解释为内核的本本函数学习或表示。然后,由于光谱方法被统一为内核PCA,因此我们说,让我们学习将数据的歧管展开至最大方差的最佳内核。我们首先简要介绍了SDP的内核学习来进行转导任务。然后,我们详细解释MVU。解释了使用最近的邻居图,通过课堂展开,Fisher Criterion和通过彩色MVU进行的各种监督MVU。我们还使用本征函数和内核映射解释了MVU的样本外扩展。最后,我们介绍了MVU的其他变体,包括尊重嵌入,放松的MVU和Landmark MVU的动作,以获取大数据。
translated by 谷歌翻译
Data-driven neighborhood definitions and graph constructions are often used in machine learning and signal processing applications. k-nearest neighbor~(kNN) and $\epsilon$-neighborhood methods are among the most common methods used for neighborhood selection, due to their computational simplicity. However, the choice of parameters associated with these methods, such as k and $\epsilon$, is still ad hoc. We make two main contributions in this paper. First, we present an alternative view of neighborhood selection, where we show that neighborhood construction is equivalent to a sparse signal approximation problem. Second, we propose an algorithm, non-negative kernel regression~(NNK), for obtaining neighborhoods that lead to better sparse representation. NNK draws similarities to the orthogonal matching pursuit approach to signal representation and possesses desirable geometric and theoretical properties. Experiments demonstrate (i) the robustness of the NNK algorithm for neighborhood and graph construction, (ii) its ability to adapt the number of neighbors to the data properties, and (iii) its superior performance in local neighborhood and graph-based machine learning tasks.
translated by 谷歌翻译
本文中描述的模型属于专为数据表示和降低尺寸而设计的非负矩阵分解方法的家族。除了保留数据阳性属性外,它还旨在在矩阵分解过程中保留数据结构。这个想法是在NMF成本函数中添加一个惩罚术语,以在原始数据点和转换数据点的成对相似性矩阵之间实现比例关系。新模型的解决方案涉及为系数矩阵得出新的参数化更新方案,这使得在用于群集和分类时可以提高还原数据的质量。将所提出的聚类算法与某些现有的基于NMF的算法以及应用于某些现实生活数据集时的某些基于多种学习的算法进行了比较。获得的结果显示了所提出的算法的有效性。
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
监督主体组件分析(SPCA)的方法旨在将标签信息纳入主成分分析(PCA),以便提取的功能对于预测感兴趣的任务更有用。SPCA的先前工作主要集中在优化预测误差上,并忽略了提取功能解释的最大化方差的价值。我们为SPCA提出了一种新的方法,该方法共同解决了这两个目标,并从经验上证明我们的方法主导了现有方法,即在预测误差和变异方面都超越了它们的表现。我们的方法可容纳任意监督的学习损失,并通过统计重新制定提供了广义线性模型的新型低级扩展。
translated by 谷歌翻译
We propose a family of learning algorithms based on a new form of regularization that allows us to exploit the geometry of the marginal distribution. We focus on a semi-supervised framework that incorporates labeled and unlabeled data in a general-purpose learner. Some transductive graph learning algorithms and standard methods including support vector machines and regularized least squares can be obtained as special cases. We use properties of reproducing kernel Hilbert spaces to prove new Representer theorems that provide theoretical basis for the algorithms. As a result (in contrast to purely graph-based approaches) we obtain a natural out-of-sample extension to novel examples and so are able to handle both transductive and truly semi-supervised settings. We present experimental evidence suggesting that our semi-supervised algorithms are able to use unlabeled data effectively. Finally we have a brief discussion of unsupervised and fully supervised learning within our general framework.
translated by 谷歌翻译
多模式数据通过将来自来自各个域的数据与具有非常不同的统计特性的数据集成来提供自然现象的互补信息。捕获多模式数据的模态和跨换体信息是多模式学习方法的基本能力。几何感知数据分析方法通过基于其几何底层结构隐式表示各种方式的数据来提供这些能力。此外,在许多应用中,在固有的几何结构上明确地定义数据。对非欧几里德域的深度学习方法是一个新兴的研究领域,最近在许多研究中被调查。大多数流行方法都是为单峰数据开发的。本文提出了一种多模式多缩放图小波卷积网络(M-GWCN)作为端到端网络。 M-GWCN同时通过应用多尺度图小波变换来找到模态表示,以在每个模态的图形域中提供有用的本地化属性,以及通过学习各种方式之间的相关性的学习置换的跨模式表示。 M-GWCN不限于具有相同数量的数据的均匀模式,或任何指示模式之间的对应关系的现有知识。已经在三个流行的单峰显式图形数据集和五个多模式隐式界面进行了几个半监督节点分类实验。实验结果表明,与光谱图域卷积神经网络和最先进的多模式方法相比,所提出的方法的优越性和有效性。
translated by 谷歌翻译
降低降低技术旨在代表低维空间中的高维数据,以提取隐藏和有用的信息,或者促进对数据的视觉理解和解释。但是,很少有人考虑高维数据中隐含的潜在群集信息。在本文中,我们提出了基于T-SNE的新的图形非线性降低方法Laptsne,这是将高维数据视为2D散点图的最佳技术之一。具体而言,Laptsne在学习保留从高维空间到低维空间的局部和全球结构时,利用图形laplacian的特征值信息缩小了低维嵌入中的潜在簇。解决提出的模型是不平凡的,因为归一化对称拉普拉斯的特征值是决策变量的函数。我们提供了一种具有收敛保证的大型最小化算法,以解决LAPTSNE的优化问题,并显示如何分析梯度,当考虑使用Laplacian兼容的目标进行优化时,这可能引起人们的广泛关注。我们通过与最先进的方法进行正式比较,在视觉和既定的定量测量中评估我们的方法。结果证明了我们方法比T-SNE和UMAP等基线的优越性。我们还将方法扩展到光谱聚类并建立一种准确且无参数的聚类算法,该算法为我们提供了实际应用中的高可靠性和便利性。
translated by 谷歌翻译
本文提出了FLGC,这是一个简单但有效的全线性图形卷积网络,用于半监督和无人监督的学习。基于计算具有解耦步骤的全局最优闭合液解决方案而不是使用梯度下降,而不是使用梯度下降。我们展示(1)FLGC强大的是处理图形结构化数据和常规数据,(2)具有闭合形式解决方案的训练图卷积模型提高了计算效率而不会降低性能,而(3)FLGC作为自然概括非欧几里德域的经典线性模型,例如Ridge回归和子空间聚类。此外,我们通过引入初始剩余策略来实现半监督的FLGC和无监督的FLGC,使FLGC能够聚集长距离邻域并减轻过平滑。我们将我们的半监督和无人监督的FLGC与各种分类和聚类基准的许多最先进的方法进行比较,表明建议的FLGC模型在准确性,鲁棒性和学习效率方面始终如一地优于先前的方法。我们的FLGC的核心代码在https://github.com/angrycai/flgc下发布。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的子空间学习框架,用于一级分类。提出的框架以图形嵌入形式提出了问题。它包括先前提出的子空间一级技术作为特殊情况,并进一步了解这些技术实际优化了什么。该框架允许通过保留图表结合其他有意义的优化目标,并揭示光谱解决方案和基于光谱回归的解决方案作为先前基于梯度的技术的替代方案。我们将子空间学习框架与支持向量数据描述在子空间中应用,以制定图形包含的子空间支持向量数据描述。我们通过实验分析了新提出的不同变体的性能。我们证明了针对基准的性能以及最近提出的单级分类子空间学习方法。
translated by 谷歌翻译
Graph is a highly generic and diverse representation, suitable for almost any data processing problem. Spectral graph theory has been shown to provide powerful algorithms, backed by solid linear algebra theory. It thus can be extremely instrumental to design deep network building blocks with spectral graph characteristics. For instance, such a network allows the design of optimal graphs for certain tasks or obtaining a canonical orthogonal low-dimensional embedding of the data. Recent attempts to solve this problem were based on minimizing Rayleigh-quotient type losses. We propose a different approach of directly learning the eigensapce. A severe problem of the direct approach, applied in batch-learning, is the inconsistent mapping of features to eigenspace coordinates in different batches. We analyze the degrees of freedom of learning this task using batches and propose a stable alignment mechanism that can work both with batch changes and with graph-metric changes. We show that our learnt spectral embedding is better in terms of NMI, ACC, Grassman distance, orthogonality and classification accuracy, compared to SOTA. In addition, the learning is more stable.
translated by 谷歌翻译