数据集复杂性评估旨在在训练分类器之前先预测具有复杂性计算的数据集上的分类性能,该分类器也可以用于分类器选择和减少数据集。深卷积神经网络(DCNN)的训练过程是迭代的且耗时的,这是由于高参数的不确定性和不同数据集引入的域移位。因此,通过在培训DCNN模型之前有效评估数据集的复杂性来预测分类性能是有意义的。本文提出了一种新的方法,称为Laplacian Spectrum(CMSAUL)下的累积最大缩放区域,该方法可以在六个数据集上实现最新的复杂性评估性能。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
降低降低技术旨在代表低维空间中的高维数据,以提取隐藏和有用的信息,或者促进对数据的视觉理解和解释。但是,很少有人考虑高维数据中隐含的潜在群集信息。在本文中,我们提出了基于T-SNE的新的图形非线性降低方法Laptsne,这是将高维数据视为2D散点图的最佳技术之一。具体而言,Laptsne在学习保留从高维空间到低维空间的局部和全球结构时,利用图形laplacian的特征值信息缩小了低维嵌入中的潜在簇。解决提出的模型是不平凡的,因为归一化对称拉普拉斯的特征值是决策变量的函数。我们提供了一种具有收敛保证的大型最小化算法,以解决LAPTSNE的优化问题,并显示如何分析梯度,当考虑使用Laplacian兼容的目标进行优化时,这可能引起人们的广泛关注。我们通过与最先进的方法进行正式比较,在视觉和既定的定量测量中评估我们的方法。结果证明了我们方法比T-SNE和UMAP等基线的优越性。我们还将方法扩展到光谱聚类并建立一种准确且无参数的聚类算法,该算法为我们提供了实际应用中的高可靠性和便利性。
translated by 谷歌翻译
特征提取是图分析中的重要任务。这些特征向量(称为图形描述符)用于基于下游矢量空间的图形分析模型。过去证明了这个想法,基于光谱的图形描述符提供了最新的分类准确性。但是,要计算有意义的描述符的已知算法不会扩展到大图,因为:(1)它们需要将整个图存储在内存中,并且(2)最终用户无法控制算法的运行时。在本文中,我们提出流算法以大约计算三个不同的图形描述符,以捕获图的基本结构。在边缘流上操作使我们避免将整个图存储在内存中,并控制样本大小使我们能够将算法的运行时间保持在所需的范围内。我们通过分析近似误差和分类精度来证明所提出的描述符的功效。我们的可扩展算法计算图形的描述符,并在几分钟之内具有数百万个边缘。此外,这些描述符得出的预测精度可与最新方法相当,但只能使用25%的记忆来计算。
translated by 谷歌翻译
光谱群集是最流行的聚类方法之一。然而,由于涉及的特征分解过程的高计算成本可以立即阻碍其在大规模任务中的应用。在本文中,我们使用频谱保存节点减少来加速EIGEN分解并生成数据集的简明表示。具体地,我们基于光谱相似性创建少量的伪编辑。然后,在较小的节点集上执行标准光谱聚类算法。最后,原始数据集中的每个数据点被分配给群集作为其代表性伪节点。所提出的框架在几乎线性的时间内运行。同时,通过采矿简洁表示,可以显着提高聚类准确性。与最先进的方法相比,实验结果显示出大幅提高的聚类性能。
translated by 谷歌翻译
学习遥感图像的歧管结构对于建模和理解过程是最重要的相关性,以及封装在减少一组信息特征中的高维度,以用于后续分类,回归或解密。歧管学习方法显示出优异的性能来处理高光谱图像(HSI)分析,但除非专门设计,否则它们不能提供明确的嵌入式地图,容易适用于采样超出数据。处理问题的常见假设是高维输入空间和(通常低)潜空间之间的转换是线性的。这是一种特别强烈的假设,特别是当由于数据的众所周知的非线性性质而处理高光谱图像时。为了解决这个问题,提出了一种基于高维模型表示(HDMR)的歧管学习方法,这使得能够将非线性嵌入功能呈现给潜伏空间的采样外部样本。将所提出的方法与其线性对应物一起进行比较,并在代表性齐谱图像的分类精度方面实现了有希望的性能。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
图表神经网络(GNNS)在各种机器学习任务中获得了表示学习的提高。然而,应用邻域聚合的大多数现有GNN通常在图中的图表上执行不良,其中相邻的节点属于不同的类。在本文中,我们示出了在典型的异界图中,边缘可以被引导,以及是否像是处理边缘,也可以使它们过度地影响到GNN模型的性能。此外,由于异常的限制,节点对来自本地邻域之外的类似节点的消息非常有益。这些激励我们开发一个自适应地学习图表的方向性的模型,并利用潜在的长距离相关性节点之间。我们首先将图拉普拉斯概括为基于所提出的特征感知PageRank算法向数字化,该算法同时考虑节点之间的图形方向性和长距离特征相似性。然后,Digraph Laplacian定义了一个图形传播矩阵,导致一个名为{\ em diglaciangcn}的模型。基于此,我们进一步利用节点之间的通勤时间测量的节点接近度,以便在拓扑级别上保留节点的远距离相关性。具有不同级别的10个数据集的广泛实验,同意级别展示了我们在节点分类任务任务中对现有解决方案的有效性。
translated by 谷歌翻译
由于更高的维度和困难的班级,机器学习应用中的可用数据变得越来越复杂。根据类重叠,可分离或边界形状,以及组形态,存在各种各样的方法来测量标记数据的复杂性。许多技术可以转换数据才能找到更好的功能,但很少专注于具体降低数据复杂性。大多数数据转换方法主要是治疗维度方面,撇开类标签中的可用信息,当类别在某种方式复杂时,可以有用。本文提出了一种基于AutoEncoder的复杂性减少方法,使用类标签来告知损耗函数关于所生成的变量的充分性。这导致了三个不同的新功能学习者,得分手,斯卡尔和切片机。它们基于Fisher的判别比率,Kullback-Leibler发散和最小二乘支持向量机。它们可以作为二进制分类问题应用作为预处理阶段。跨越27个数据集和一系列复杂性和分类指标的彻底实验表明,课堂上通知的AutoEncoders执行优于4个其他流行的无监督功能提取技术,特别是当最终目标使用数据进行分类任务时。
translated by 谷歌翻译
分类问题的复杂性评估是监督学习领域许多主题的重要因素。它在元学习中起着重要的作用 - 成为确定元属性或多准则优化的基础 - 允许评估训练集进行重新采样而无需重建识别模型。目前可用于学术界可用的工具,该工具将可以计算问题复杂性度量,仅作为C ++和R语言的库可用。本文介绍了软件模块,该模块允许估算Python语言的22种复杂性度量 - 与Scikit-Learn编程界面兼容 - 允许在机器学习社区最受欢迎的编程环境中使用它们实施研究。
translated by 谷歌翻译
Graph is a highly generic and diverse representation, suitable for almost any data processing problem. Spectral graph theory has been shown to provide powerful algorithms, backed by solid linear algebra theory. It thus can be extremely instrumental to design deep network building blocks with spectral graph characteristics. For instance, such a network allows the design of optimal graphs for certain tasks or obtaining a canonical orthogonal low-dimensional embedding of the data. Recent attempts to solve this problem were based on minimizing Rayleigh-quotient type losses. We propose a different approach of directly learning the eigensapce. A severe problem of the direct approach, applied in batch-learning, is the inconsistent mapping of features to eigenspace coordinates in different batches. We analyze the degrees of freedom of learning this task using batches and propose a stable alignment mechanism that can work both with batch changes and with graph-metric changes. We show that our learnt spectral embedding is better in terms of NMI, ACC, Grassman distance, orthogonality and classification accuracy, compared to SOTA. In addition, the learning is more stable.
translated by 谷歌翻译
通过图形结构表示数据标识在多个数据分析应用中提取信息的最有效方法之一。当调查多模式数据集时,这尤其如此,因为通过各种传感策略收集的记录被考虑并探索。然而,经典曲线图信号处理基于根据热扩散机构配置的信息传播的模型。该系统提供了对多模式数据分析不适用于多模式数据分析的数据属性的若干约束和假设,特别是当考虑从异构源收集的大规模数据集,因此结果的准确性和稳健性可能会受到严重危害。在本文中,我们介绍了一种基于流体扩散的图表定义模型。该方法提高了基于图形的数据分析的能力,以考虑运行方案中现代数据分析的几个问题,从而为对考试记录的记录底层的现象提供了一种精确,多才多艺的,有效地理解平台,以及完全利用记录的多样性提供的潜力,以获得数据的彻底表征及其意义。在这项工作中,我们专注于使用这种流体扩散模型来驱动社区检测方案,即根据节点中的节点中的相似性将多模式数据集分为多个组中。在不同应用场景中测试真正的多模式数据集实现的实验结果表明,我们的方法能够强烈优先于多媒体数据分析中的社区检测的最先进方案。
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译
基于Web的交互可以经常由归因图表示,并且在这些图中的节点聚类最近受到了很多关注。多次努力已成功应用图形卷积网络(GCN),但由于GCNS已被显示出遭受过平滑问题的GCNS的精度一些限制。虽然其他方法(特别是基于拉普拉斯平滑的方法)已经报告了更好的准确性,但所有工作的基本限制都是缺乏可扩展性。本文通过将LAPLACIAN平滑与广义的PageRank相同,并将随机步行基于算法应用为可伸缩图滤波器来解决这一打开问题。这构成了我们可扩展的深度聚类算法RWSL的基础,其中通过自我监督的迷你批量培训机制,我们同时优化了一个深度神经网络,用于采样集群分配分配和AutoEncoder,用于群集导向的嵌入。使用6个现实世界数据集和6个聚类指标,我们表明RWSL实现了几个最近基线的结果。最值得注意的是,我们显示与所有其他深度聚类框架不同的RWSL可以继续以超过一百万个节点的图形扩展,即句柄。我们还演示了RWSL如何在仅使用单个GPU的18亿边缘的图表上执行节点聚类。
translated by 谷歌翻译
T分布式随机邻居嵌入(T-SNE)是复杂高维数据的良好的可视化方法。然而,原始T-SNE方法是非参数,随机的,并且通常不能很好地预测数据的全局结构,因为它强调当地社区。通过T-SNE作为参考,我们建议将深度神经网络(DNN)与数学接地的嵌入规则相结合,以进行高维数据嵌入的规则。我们首先介绍一个深嵌入的网络(DEN)框架,它可以从高维空间到低维嵌入的参数映射。 DEN具有灵活的架构,可容纳不同的输入数据(矢量,图像或张量)和损耗功能。为提高嵌入性能,建议递归培训策略利用书房提取的潜在陈述。最后,我们提出了一种两级损耗功能,将两个流行的嵌入方法的优点相结合,即T-SNE和均匀的歧管近似和投影(UMAP),以获得最佳可视化效果。我们将建议的方法命名为深度递归嵌入(DRE),其优化了递归培训策略和两级吊袜带的DEN。我们的实验表明,在各种公共数据库中,所提出的DRE方法对高维数据嵌入的优异性能。值得注意的是,我们的比较结果表明,我们拟议的DRE可能导致全球结构改善。
translated by 谷歌翻译
近年来,多视图学习迅速发展。尽管许多先前的研究都认为每个实例都出现在所有视图中,但在现实世界应用程序中很常见,从某些视图中丢失实例,从而导致多视图数据不完整。为了解决这个问题,我们提出了一个新型潜在的异质图网络(LHGN),以实现不完整的多视图学习,该学习旨在以灵活的方式尽可能充分地使用多个不完整的视图。通过学习统一的潜在代表,隐含地实现了不同观点之间一致性和互补性之间的权衡。为了探索样本与潜在表示之间的复杂关系,首次提出了邻域约束和视图约束,以构建异质图。最后,为了避免训练和测试阶段之间的任何不一致之处,基于图形学习的分类任务应用了转导学习技术。对现实世界数据集的广泛实验结果证明了我们模型对现有最新方法的有效性。
translated by 谷歌翻译
超图允许使用多向高阶关系建模问题。然而,大多数现有超图的算法的计算成本可能严重取决于输入的超图尺寸。为了解决不断增加的计算挑战,可以通过积极聚合其顶点(节点)来预先处理给定的超图来促进图表粗化。然而,未经纳入启发式图粗化技术的最先进的超图分区(聚类)方法未得到优化,以保留超图的结构(全局)属性。在这项工作中,我们提出了一种有效的光谱超图粗化方案(HypersF),以保持超图的原始光谱(结构)特性。我们的方法利用了最近的强烈局部最大流量的聚类算法,用于检测最小化比例的超图形顶点集。为了进一步提高算法效率,我们通过利用与原始超图对应的二分形图的光谱聚类来提出分频和征服方案。我们从现实世界VLSI设计基准提取的各种超图的实验结果表明,与现有最先进的现有技术相比,所提出的超图粗略化算法可以显着提高超图和运行时效率的多线电导算法。
translated by 谷歌翻译
在过去十年中,图形内核引起了很多关注,并在结构化数据上发展成为一种快速发展的学习分支。在过去的20年中,该领域发生的相当大的研究活动导致开发数十个图形内核,每个图形内核都对焦于图形的特定结构性质。图形内核已成功地成功地在广泛的域中,从社交网络到生物信息学。本调查的目标是提供图形内核的文献的统一视图。特别是,我们概述了各种图形内核。此外,我们对公共数据集的几个内核进行了实验评估,并提供了比较研究。最后,我们讨论图形内核的关键应用,并概述了一些仍有待解决的挑战。
translated by 谷歌翻译
Graph AutoCododers(GAE)和变分图自动编码器(VGAE)作为链接预测的强大方法出现。他们的表现对社区探测问题的印象不那么令人印象深刻,根据最近和同意的实验评估,它们的表现通常超过了诸如louvain方法之类的简单替代方案。目前尚不清楚可以通过GAE和VGAE改善社区检测的程度,尤其是在没有节点功能的情况下。此外,不确定是否可以在链接预测上同时保留良好的性能。在本文中,我们表明,可以高精度地共同解决这两个任务。为此,我们介绍和理论上研究了一个社区保留的消息传递方案,通过在计算嵌入空间时考虑初始图形结构和基于模块化的先验社区来掺杂我们的GAE和VGAE编码器。我们还提出了新颖的培训和优化策略,包括引入一个模块化的正规器,以补充联合链路预测和社区检测的现有重建损失。我们通过对各种现实世界图的深入实验验证,证明了方法的经验有效性,称为模块化感知的GAE和VGAE。
translated by 谷歌翻译
How do we know when the predictions made by a classifier can be trusted? This is a fundamental problem that also has immense practical applicability, especially in safety-critical areas such as medicine and autonomous driving. The de facto approach of using the classifier's softmax outputs as a proxy for trustworthiness suffers from the over-confidence issue; while the most recent works incur problems such as additional retraining cost and accuracy versus trustworthiness trade-off. In this work, we argue that the trustworthiness of a classifier's prediction for a sample is highly associated with two factors: the sample's neighborhood information and the classifier's output. To combine the best of both worlds, we design a model-agnostic post-hoc approach NeighborAgg to leverage the two essential information via an adaptive neighborhood aggregation. Theoretically, we show that NeighborAgg is a generalized version of a one-hop graph convolutional network, inheriting the powerful modeling ability to capture the varying similarity between samples within each class. We also extend our approach to the closely related task of mislabel detection and provide a theoretical coverage guarantee to bound the false negative. Empirically, extensive experiments on image and tabular benchmarks verify our theory and suggest that NeighborAgg outperforms other methods, achieving state-of-the-art trustworthiness performance.
translated by 谷歌翻译