随机邻居嵌入(SNE)是一种具有概率方法的多种学习和降低方法。在SNE中,每个点都被认为是所有其他点的邻居,并试图将这种概率保存在嵌入空间中。SNE认为在输入空间和嵌入空间中的概率都认为高斯分布。但是,T-SNE分别在这些空间中使用了Student-T和高斯分布。在本教程和调查论文中,我们解释了SNE,对称SNE,T-SNE(或Cauchy-Sne)和T-SNE具有一般自由度。我们还涵盖了这些方法的样本外扩展和加速度。
translated by 谷歌翻译
We present a new technique called "t-SNE" that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map. The technique is a variation of Stochastic Neighbor Embedding (Hinton and Roweis, 2002) that is much easier to optimize, and produces significantly better visualizations by reducing the tendency to crowd points together in the center of the map. t-SNE is better than existing techniques at creating a single map that reveals structure at many different scales. This is particularly important for high-dimensional data that lie on several different, but related, low-dimensional manifolds, such as images of objects from multiple classes seen from multiple viewpoints. For visualizing the structure of very large data sets, we show how t-SNE can use random walks on neighborhood graphs to allow the implicit structure of all of the data to influence the way in which a subset of the data is displayed. We illustrate the performance of t-SNE on a wide variety of data sets and compare it with many other non-parametric visualization techniques, including Sammon mapping, Isomap, and Locally Linear Embedding. The visualizations produced by t-SNE are significantly better than those produced by the other techniques on almost all of the data sets.
translated by 谷歌翻译
这是一份有关降低光谱维度降低方法统一的教程和调查论文,通过半决赛编程(SDP)学习内核学习,最大方差展开(MVU)或半芬特嵌入(SDE)及其变体。我们首先解释了如何将频谱降低方法降低方法统一为具有不同内核的内核主成分分析(PCA)。在距离矩阵方面,该统一可以解释为内核的本本函数学习或表示。然后,由于光谱方法被统一为内核PCA,因此我们说,让我们学习将数据的歧管展开至最大方差的最佳内核。我们首先简要介绍了SDP的内核学习来进行转导任务。然后,我们详细解释MVU。解释了使用最近的邻居图,通过课堂展开,Fisher Criterion和通过彩色MVU进行的各种监督MVU。我们还使用本征函数和内核映射解释了MVU的样本外扩展。最后,我们介绍了MVU的其他变体,包括尊重嵌入,放松的MVU和Landmark MVU的动作,以获取大数据。
translated by 谷歌翻译
这是针对非线性维度和特征提取方法的教程和调查论文,该方法基于数据图的拉普拉斯语。我们首先介绍邻接矩阵,拉普拉斯矩阵的定义和拉普拉斯主义的解释。然后,我们涵盖图形和光谱聚类的切割,该谱图应用于数据子空间。解释了Laplacian征收及其样本外扩展的不同优化变体。此后,我们将保留投影的局部性及其内核变体作为拉普拉斯征本征的线性特殊案例。然后解释了图嵌入的版本,这些版本是Laplacian eigenmap和局部保留投影的广义版本。最后,引入了扩散图,这是基于数据图和随机步行的方法。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
尺寸数据减少方法是探索和可视化大数据集的基础。无监督数据探索的基本要求是简单,灵活性和可扩展性。但是,当前方法显示复杂的参数化和强大的计算限制,在跨尺度探索大型数据结构时。在这里,我们专注于T-SNE算法,并显示具有单个控制参数的简化参数设置,即困惑,可以有效地平衡本地和全局数据结构可视化。我们还设计了一个Chunk \&Mix协议,以有效地并行化T-SNE,并探索比目前可用的多种尺度范围的数据结构。我们的BH-TSNE的并行版本,即PT-SNE,融合到良好的全球嵌入,尽管块\和混合协议增加了很少的噪声并降低了当地规模的准确性。尽管如此,我们表明简单的后处理可以有效地恢复本地尺度可视化,而不会在全球范围内损失精度。我们预计相同的方法可以应用于更快的嵌入算法,而不是BH-TSNE,如Fit-Sne或UMAP,因此扩展了最先进的,并导致更全面的数据结构可视化和分析。
translated by 谷歌翻译
邻居Embeddings是一种使用$ k $ nn图来可视化复杂的高维数据集的方法。为了找到低维嵌入,这些算法将相邻对点之间的吸引力与所有点之间的排斥力相结合。这种算法的最受欢迎的例子之一是T-SNE。在这里,我们经验证明使用夸张参数改变T-SNE中的吸引力和排斥力之间的平衡产生了一种嵌入式,其特点是简单的折衷:更强的吸引力可以更好地代表连续的歧管结构,而更强排斥可以更好地代表离散的集群结构,并收益率较高$ K $ NN召回。我们发现Umap Embeddings对应于涉及吸引力的T-SNE;数学分析表明,这是因为UMAP采用的负采样优化策略强烈降低了有效的排斥。同样,Forceatlas2通常用于可视化发育​​单细胞转录组数据,产生与T-SNE相对应的嵌入,吸引力增加更多。在这个频谱的极端Lieglacian eigenmaps。我们的结果表明,许多突出的邻居嵌入算法可以放置在吸引力频谱上,并突出显示它们之间的固有折衷。
translated by 谷歌翻译
将高维数据嵌入到低维歧管上具有理论和实用的值。在本文中,我们建议将深神经网络(DNN)与数学引导的嵌入规则相结合,以进行高维数据嵌入的规则。我们介绍了一个通用的深度嵌入网络(DEN)框架,它能够从高维空间到低维空间的参数映射,由诸如Kullback-Leibler(KL)发散最小化的良好的目标引导。我们进一步提出了一种递归策略,称为深度递归嵌入(DRE),以利用潜在的数据表示来提升嵌入性能。我们举例说明DRE通过不同的架构和丢失功能的灵活性,并对我们的方法进行基准测试,以及针对两个最受欢迎的嵌入方法,即T分布式随机邻居嵌入(T-SNE)和均匀歧管近似和投影(UMAP)。所提出的DRE方法可以将样品超出数据和缩放到极大的数据集。与其他最先进的嵌入方法相比,一系列公共数据集的实验表明,在本地和全球结构保护方面提高了嵌入性能。
translated by 谷歌翻译
降低降低技术旨在代表低维空间中的高维数据,以提取隐藏和有用的信息,或者促进对数据的视觉理解和解释。但是,很少有人考虑高维数据中隐含的潜在群集信息。在本文中,我们提出了基于T-SNE的新的图形非线性降低方法Laptsne,这是将高维数据视为2D散点图的最佳技术之一。具体而言,Laptsne在学习保留从高维空间到低维空间的局部和全球结构时,利用图形laplacian的特征值信息缩小了低维嵌入中的潜在簇。解决提出的模型是不平凡的,因为归一化对称拉普拉斯的特征值是决策变量的函数。我们提供了一种具有收敛保证的大型最小化算法,以解决LAPTSNE的优化问题,并显示如何分析梯度,当考虑使用Laplacian兼容的目标进行优化时,这可能引起人们的广泛关注。我们通过与最先进的方法进行正式比较,在视觉和既定的定量测量中评估我们的方法。结果证明了我们方法比T-SNE和UMAP等基线的优越性。我们还将方法扩展到光谱聚类并建立一种准确且无参数的聚类算法,该算法为我们提供了实际应用中的高可靠性和便利性。
translated by 谷歌翻译
双曲线空间可以嵌入树度量,其失真几乎没有失真,是用于建模实际数据和语义的层次结构的理想性质。虽然高维嵌入式通常会导致更好的表示,但由于非琐碎的优化以及高维双曲数据缺乏可视化,大多数双曲模型利用低维嵌入式。我们提出了CO-SNE,将欧几里德空间可视化工具T-SNE延伸到双曲线空间。像T-SNE一样,它将数据点之间的距离转换为联合概率,并尝试最小化高维数据的联合概率之间的kullback-leibler分歧$ x $和低维嵌入$ y $。然而,与欧几里德空间不同,双曲线空间不均匀:体积可能在远离原点的位置包含更多点。因此,CO-SNE为$ x $和hyberbolic \ Underline {c} auchy而不是t-sne的学生的t分布,而不是$ y $,它还试图将$ x $的单个距离保存到\下划线{o} RIGIN $ Y $。我们将Co-SNE施加到高维双曲生物数据以及无监督的双曲线表现。我们的结果表明,CO-SNE将高维色双曲数据降低到低维空间,而不会失去双曲线特性,显着优于PCA,T-SNE,UMAP和HOROPCA等流行可视化工具,其最后一个专门设计用于双曲数据。
translated by 谷歌翻译
机器学习中的一个基本问题是从低维潜在空间$ \ MATHCAL {y} $找到映射$ f $到高维观察空间$ \ MATHCAL {x} $。深层神经网络等现代工具能够代表一般的非线性映射。学习者可以轻松找到完美适合所有观察结果的映射。但是,这样的映射通常不被认为是好的,因为它不够简单并且可以过度合适。如何定义简单性?我们试图对非线性映射$ f $施加的信息量进行正式定义。直观地,我们测量了回溯几何形状和潜在空间的内在几何形状之间的局部差异。我们的定义基于信息几何形状,并且独立于经验观察,也不是特定的参数化。我们证明其基本属性,并与相关的机器学习方法讨论关系。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
与高维数据集的探索性分析(例如主成分分析(PCA))相反,邻居嵌入(NE)技术倾向于更好地保留高维数据的局部结构/拓扑。然而,保留局部结构的能力是以解释性为代价的:诸如T-分布的随机邻居嵌入(T-SNE)或统一的歧管近似和投影(UMAP)等技术没有提供拓扑结构的介绍(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)(UMAP)。在相应的嵌入中看到的群集)结构。在这里,我们提出了基于PCA,Q-残基和Hotelling的T2贡献的化学计量学领域的不同“技巧”,并结合了新型可视化方法,从而得出了邻居嵌入的局部和全局解释。我们展示了我们的方法如何使用标准的单变量或多变量方法来识别数据点组之间的歧视性特征。
translated by 谷歌翻译
这是关于Boltzmann机器(BM),受限玻尔兹曼机器(RBM)和Deep信念网络(DBN)的教程和调查论文。我们从概率图形模型,Markov随机字段,Gibbs采样,统计物理学,ISING模型和Hopfield网络的必需背景开始。然后,我们介绍BM和RBM的结构。解释了可见变量和隐藏变量的条件分布,RBM中的GIBBS采样以生成变量,通过最大似然估计训练BM和RBM以及对比度差异。然后,我们讨论变量的不同可能的离散和连续分布。我们介绍有条件的RBM及其训练方式。最后,我们将深度信念网络解释为RBM模型的一堆。本文有关玻尔兹曼机器的论文在包括数据科学,统计,神经计算和统计物理学在内的各个领域都有用。
translated by 谷歌翻译
结构化参数空间的自然梯度下降(NGD)(例如,低级CovariRces)是由于困难的Fisher矩阵计算而在计算上具有挑战性。我们通过使用\ emph {local-parameter坐标}来解决此问题,以获取灵活且高效的NGD方法,适用于各种结构化参数化。我们显示了四个应用程序,我们的方法(1)概括指数自然进化策略,(2)恢复现有的牛顿样算法,(3)通过矩阵组产生新的结构化二阶算法,(4)给出了新的算法高斯和基于Wishart的分布的协方差。我们展示了深度学习,变分推论和进化策略的一系列问题。我们的工作为可扩展结构化几何方法开辟了新的方向。
translated by 谷歌翻译
期望 - 最大化(EM)算法是一种简单的元叠加,当观察到的数据中缺少测量值或数据由可观察到的数据组成时,它已多年来用作统计推断的方法。它的一般属性进行了充分的研究,而且还有无数方法将其应用于个人问题。在本文中,我们介绍了$ em $ $ and算法,EM算法的信息几何公式及其扩展和应用程序以及各种问题。具体而言,我们将看到,可以制定一个异常稳定推理算法,用于计算通道容量的算法,概率单纯性的参数估计方法,特定的多变量分析方法,例如概率模型中的主要组件分析和模态回归中的主成分分析,基质分解和学习生成模型,这些模型最近从几何学角度引起了深度学习的关注。
translated by 谷歌翻译
Clustering is central to many data-driven application domains and has been studied extensively in terms of distance functions and grouping algorithms. Relatively little work has focused on learning representations for clustering. In this paper, we propose Deep Embedded Clustering (DEC), a method that simultaneously learns feature representations and cluster assignments using deep neural networks. DEC learns a mapping from the data space to a lower-dimensional feature space in which it iteratively optimizes a clustering objective. Our experimental evaluations on image and text corpora show significant improvement over state-of-the-art methods.
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
与许多机器学习模型类似,群集加权模型(CWM)的准确性和速度都可以受到高维数据的阻碍,从而导致以前的作品对一种简约的技术,以减少“尺寸诅咒”对混合模型的影响。在这项工作中,我们回顾了集群加权模型(CWM)的背景研究。我们进一步表明,在庞大的高维数据的情况下,简约的技术不足以使混合模型蓬勃发展。我们通过使用“ FlexCWM” R软件包中的默认值选择位置参数的初始值来讨论一种用于检测隐藏组件的启发式。我们引入了一种称为T-分布的随机邻居嵌入(TSNE)的维度降低技术,以增强高维空间中的简约CWM。最初,CWM适用于回归,但出于分类目的,所有多级变量都会用一些噪声进行对数转换。模型的参数是通过预期最大化算法获得的。使用来自不同字段的实际数据集证明了讨论技术的有效性。
translated by 谷歌翻译
T分布式随机邻居嵌入(T-SNE)是复杂高维数据的良好的可视化方法。然而,原始T-SNE方法是非参数,随机的,并且通常不能很好地预测数据的全局结构,因为它强调当地社区。通过T-SNE作为参考,我们建议将深度神经网络(DNN)与数学接地的嵌入规则相结合,以进行高维数据嵌入的规则。我们首先介绍一个深嵌入的网络(DEN)框架,它可以从高维空间到低维嵌入的参数映射。 DEN具有灵活的架构,可容纳不同的输入数据(矢量,图像或张量)和损耗功能。为提高嵌入性能,建议递归培训策略利用书房提取的潜在陈述。最后,我们提出了一种两级损耗功能,将两个流行的嵌入方法的优点相结合,即T-SNE和均匀的歧管近似和投影(UMAP),以获得最佳可视化效果。我们将建议的方法命名为深度递归嵌入(DRE),其优化了递归培训策略和两级吊袜带的DEN。我们的实验表明,在各种公共数据库中,所提出的DRE方法对高维数据嵌入的优异性能。值得注意的是,我们的比较结果表明,我们拟议的DRE可能导致全球结构改善。
translated by 谷歌翻译