将高维数据嵌入到低维歧管上具有理论和实用的值。在本文中,我们建议将深神经网络(DNN)与数学引导的嵌入规则相结合,以进行高维数据嵌入的规则。我们介绍了一个通用的深度嵌入网络(DEN)框架,它能够从高维空间到低维空间的参数映射,由诸如Kullback-Leibler(KL)发散最小化的良好的目标引导。我们进一步提出了一种递归策略,称为深度递归嵌入(DRE),以利用潜在的数据表示来提升嵌入性能。我们举例说明DRE通过不同的架构和丢失功能的灵活性,并对我们的方法进行基准测试,以及针对两个最受欢迎的嵌入方法,即T分布式随机邻居嵌入(T-SNE)和均匀歧管近似和投影(UMAP)。所提出的DRE方法可以将样品超出数据和缩放到极大的数据集。与其他最先进的嵌入方法相比,一系列公共数据集的实验表明,在本地和全球结构保护方面提高了嵌入性能。
translated by 谷歌翻译
T分布式随机邻居嵌入(T-SNE)是复杂高维数据的良好的可视化方法。然而,原始T-SNE方法是非参数,随机的,并且通常不能很好地预测数据的全局结构,因为它强调当地社区。通过T-SNE作为参考,我们建议将深度神经网络(DNN)与数学接地的嵌入规则相结合,以进行高维数据嵌入的规则。我们首先介绍一个深嵌入的网络(DEN)框架,它可以从高维空间到低维嵌入的参数映射。 DEN具有灵活的架构,可容纳不同的输入数据(矢量,图像或张量)和损耗功能。为提高嵌入性能,建议递归培训策略利用书房提取的潜在陈述。最后,我们提出了一种两级损耗功能,将两个流行的嵌入方法的优点相结合,即T-SNE和均匀的歧管近似和投影(UMAP),以获得最佳可视化效果。我们将建议的方法命名为深度递归嵌入(DRE),其优化了递归培训策略和两级吊袜带的DEN。我们的实验表明,在各种公共数据库中,所提出的DRE方法对高维数据嵌入的优异性能。值得注意的是,我们的比较结果表明,我们拟议的DRE可能导致全球结构改善。
translated by 谷歌翻译
ParaDime is a framework for parametric dimensionality reduction (DR). In parametric DR, neural networks are trained to embed high-dimensional data items in a low-dimensional space while minimizing an objective function. ParaDime builds on the idea that the objective functions of several modern DR techniques result from transformed inter-item relationships. It provides a common interface to specify these relations and transformations and to define how they are used within the losses that govern the training process. Through this interface, ParaDime unifies parametric versions of DR techniques such as metric MDS, t-SNE, and UMAP. Furthermore, it allows users to fully customize each aspect of the DR process. We show how this ease of customization makes ParaDime suitable for experimenting with interesting techniques, such as hybrid classification/embedding models or supervised DR, which opens up new possibilities for visualizing high-dimensional data.
translated by 谷歌翻译
降低降低技术旨在代表低维空间中的高维数据,以提取隐藏和有用的信息,或者促进对数据的视觉理解和解释。但是,很少有人考虑高维数据中隐含的潜在群集信息。在本文中,我们提出了基于T-SNE的新的图形非线性降低方法Laptsne,这是将高维数据视为2D散点图的最佳技术之一。具体而言,Laptsne在学习保留从高维空间到低维空间的局部和全球结构时,利用图形laplacian的特征值信息缩小了低维嵌入中的潜在簇。解决提出的模型是不平凡的,因为归一化对称拉普拉斯的特征值是决策变量的函数。我们提供了一种具有收敛保证的大型最小化算法,以解决LAPTSNE的优化问题,并显示如何分析梯度,当考虑使用Laplacian兼容的目标进行优化时,这可能引起人们的广泛关注。我们通过与最先进的方法进行正式比较,在视觉和既定的定量测量中评估我们的方法。结果证明了我们方法比T-SNE和UMAP等基线的优越性。我们还将方法扩展到光谱聚类并建立一种准确且无参数的聚类算法,该算法为我们提供了实际应用中的高可靠性和便利性。
translated by 谷歌翻译
维数减少(DR)技术有助于分析师理解高维空间的模式。这些技术通常由散点图表示,在不同的科学域中使用,并促进集群和数据样本之间的相似性分析。对于包含许多粒度的数据集或者当分析遵循信息可视化Mantra时,分层DR技术是最合适的方法,因为它们预先呈现了主要结构和需求的详细信息。然而,当前的分层DR技术并不完全能够解决文献问题,因为它们不保留跨分层级别的投影心理映射,或者不适合大多数数据类型。这项工作提出了Humap,一种新颖的等级维度减少技术,旨在灵活地保护本地和全球结构,并在整个分层勘探中保留心理贴图。我们提供了与现有的等级方法相比我们技术优势的经验证据,并显示了两种案例研究以证明其优势。
translated by 谷歌翻译
尺寸数据减少方法是探索和可视化大数据集的基础。无监督数据探索的基本要求是简单,灵活性和可扩展性。但是,当前方法显示复杂的参数化和强大的计算限制,在跨尺度探索大型数据结构时。在这里,我们专注于T-SNE算法,并显示具有单个控制参数的简化参数设置,即困惑,可以有效地平衡本地和全局数据结构可视化。我们还设计了一个Chunk \&Mix协议,以有效地并行化T-SNE,并探索比目前可用的多种尺度范围的数据结构。我们的BH-TSNE的并行版本,即PT-SNE,融合到良好的全球嵌入,尽管块\和混合协议增加了很少的噪声并降低了当地规模的准确性。尽管如此,我们表明简单的后处理可以有效地恢复本地尺度可视化,而不会在全球范围内损失精度。我们预计相同的方法可以应用于更快的嵌入算法,而不是BH-TSNE,如Fit-Sne或UMAP,因此扩展了最先进的,并导致更全面的数据结构可视化和分析。
translated by 谷歌翻译
投影技术经常用于可视化高维数据,使用户能够更好地理解在2D屏幕上的多维空间的总体结构。尽管存在着许多这样的方法,相当小的工作已经逆投影的普及方法来完成 - 绘制投影点,或者更一般的过程中,投影空间回到原来的高维空间。在本文中我们提出NNInv,用近似的任何突起或映射的逆的能力的深学习技术。 NNInv学会重建上的二维投影空间从任意点高维数据,给用户在视觉分析系统所学习的高维表示的能力进行交互。我们提供NNInv的参数空间的分析,并在选择这些参数提供指导。我们通过一系列定量和定性分析的延长NNInv的有效性验证。交互式实例中插值,分级协议,梯度可视化:然后,我们把它应用到三个可视化任务,验证了该方法的效用。
translated by 谷歌翻译
我们引入了统一的歧管近似值,具有两相优化(UMATO),这是一种降低尺寸(DR)技术,可改善UMAP,以更准确地捕获高维数据的全局结构。在Umato中,优化分为两个阶段,因此所得的嵌入可以可靠地描绘出全球结构,同时以足够的精度保留局部结构。在第一阶段,识别并预测集线器点以构建全局结构的骨骼布局。在第二阶段,剩余点添加到保存地方区域特征的嵌入中。通过定量实验,我们发现Umato(1)在保留全局结构方面优于广泛使用的DR技术,而(2)在代表局部结构方面产生了竞争精度。我们还验证了Umato在鲁棒性方面比各种初始化方法,时期数量和亚采样技术优选。
translated by 谷歌翻译
邻居Embeddings是一种使用$ k $ nn图来可视化复杂的高维数据集的方法。为了找到低维嵌入,这些算法将相邻对点之间的吸引力与所有点之间的排斥力相结合。这种算法的最受欢迎的例子之一是T-SNE。在这里,我们经验证明使用夸张参数改变T-SNE中的吸引力和排斥力之间的平衡产生了一种嵌入式,其特点是简单的折衷:更强的吸引力可以更好地代表连续的歧管结构,而更强排斥可以更好地代表离散的集群结构,并收益率较高$ K $ NN召回。我们发现Umap Embeddings对应于涉及吸引力的T-SNE;数学分析表明,这是因为UMAP采用的负采样优化策略强烈降低了有效的排斥。同样,Forceatlas2通常用于可视化发育​​单细胞转录组数据,产生与T-SNE相对应的嵌入,吸引力增加更多。在这个频谱的极端Lieglacian eigenmaps。我们的结果表明,许多突出的邻居嵌入算法可以放置在吸引力频谱上,并突出显示它们之间的固有折衷。
translated by 谷歌翻译
由于几个原因,很难聚集艺术品。一方面,识别基于领域知识和视觉感知的有意义的模式非常困难。另一方面,将传统的聚类和功能还原技术应用于高度尺寸的像素空间可能是无效的。为了解决这些问题,在本文中,我们提出了Delius:一种深入学习视觉艺术的深度学习方法。该方法使用预训练的卷积网络提取功能,然后将这些功能馈送到深层嵌入聚类模型中,在此,将输入数据映射到潜在空间的任务是通过在找到一组集群质心的任务,以在此任务进行优化。这个潜在空间。定量和定性实验结果表明了该方法的有效性。Delius对于与艺术分析有关的多个任务很有用,特别是在绘画数据集中发现的视觉链接检索和历史知识发现。
translated by 谷歌翻译
被动射频(RF)感测和对老年护理房屋的人类日常活动监测是一个新兴的话题。微多普勒雷达是一种吸引人的解决方案,考虑到它们的非侵入性,深渗透和高距离范围。尽管在真实情景中未标记或较差的活动的情况下,但是使用多普勒雷达数据的无监督活动识别尚未得到注意。本研究提出了使用多普勒流的人类活动监测的两个无监督特征提取方法。这些包括基于局部离散余弦变换(DCT)的特征提取方法和基于局部熵的特征提取方法。此外,对于多普勒雷达数据,首次采用了卷积变分性自动化器(CVAE)特征提取的新应用。将三种特征提取架构与先前使用的卷积AutoEncoder(CAE)和基于主成分分析(PCA)和2DPCA的线性特征提取进行比较。使用K-Means和K-METOIDS进行无监督的聚类。结果表明,与CAE,PCA和2DPCA相比,基于DCT的方法,基于熵的方法和CVAE特征的优越性,具有超过5 \%-20 \%的平均精度。关于计算时间,两个提出的方法明显比现有的CVAE快得多。此外,对于高维数据可视化,考虑了三种歧管学习技术。比较方法,以对原始数据的投影以及编码的CVAE特征进行比较。当应用于编码的CVAE特征时,所有三种方法都显示出改善的可视化能力。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
尺寸还原〜(DR)将高维数据映射到较低的尺寸潜在空间,并最小化定义的优化目标。 DR方法通常属于特征选择〜(FS)和特征投影〜(FP)。 FS专注于选择尺寸的关键子集,但有风险破坏数据分布(结构)。另一方面,FP将所有输入特征结合到较低的维度空间中,旨在维护数据结构。但是缺乏解释性和稀疏性。 FS和FP传统上是不兼容的类别;因此,它们尚未统一为友好的框架。我们建议理想的DR方法将FS和FP同时结合到统一的端到端多种学习框架中,同时执行基本特征发现,同时保持潜在空间中数据样本之间的内在关系。在这项工作中,我们开发了一个统一的框架,统一的尺寸还原神经网络〜(UDRN),该框架以兼容的端到端方式将FS和FP整合在一起。我们通过使用两个堆叠子网络分别实施FS和FP任务来改善神经网络结构。此外,我们设计了DR流程的数据增强,以提高方法处理广泛的功能数据集和设计的损失功能时,可以与数据增强合作。关于四个图像和四个生物数据集的广泛实验结果,包括非常高维数据,证明了DRN的优势比现有方法〜(FS,FP和FS \&FP管道),尤其是在分类和可视化等下游任务中。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
重建和分类误差的关节优化是一个难题的问题,尤其是当使用非线性映射时。为了克服这一障碍,提出了一种新颖的优化策略,其中将降低维度的卷积自动编码器和由完全连接的网络组成的分类器组合在一起,以同时产生监督的维度降低和预测。事实证明,这种方法也可以极大地有益于深度学习体系结构的解释性。此外,可以利用针对分类任务进行优化的最终潜在空间来改善传统的,可解释的分类算法。实验结果表明,所提出的方法对最先进的深度学习方法实现了竞争结果,同时在参数计数方面更有效。最后,从经验上证明,所提出的方法论介绍了关于通过产生的潜在空间的数据结构,还涉及分类行为的高级解释性。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
这项工作为聚类提供了无监督的深入判别分析。该方法基于深层神经网络,旨在最大程度地减少群集内差异,并以无监督的方式最大化集群间差异。该方法能够将数据投射到具有紧凑和不同分布模式的非线性低维潜在空间中,以便可以有效地识别数据簇。我们进一步提供了该方法的扩展,以便可以有效利用可用的图形信息来提高聚类性能。带有或没有图形信息的图像和非图像数据的广泛数值结果证明了所提出的方法的有效性。
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
基于自动编码器的深度子空间聚类(DSC)广泛用于计算机视觉,运动分割和图像处理。但是,它在自我表达的矩阵学习过程中遇到了以下三个问题:由于简单的重建损失,第一个对于学习自我表达权重的信息较小;第二个是与样本量相关的自我表达层的构建需要高计算成本。最后一个是现有正规化条款的有限连接性。为了解决这些问题,在本文中,我们提出了一个新颖的模型,名为“自我监督的深度”子空间聚类(S $^{3} $ CE)。具体而言,S $^{3} $ CE利用了自我监督的对比网络,以获得更加繁荣的特征向量。原始数据的局部结构和密集的连接受益于自我表达层和附加熵 - 标准约束。此外,具有数据增强的新模块旨在帮助S $^{3} $ CE专注于数据的关键信息,并通过光谱聚类来提高正面和负面实例的聚类性能。广泛的实验结果表明,与最先进的方法相比,S $^{3} $ CE的出色性能。
translated by 谷歌翻译