科学数据集通常具有层次结构:例如,在调查中,个人参与者(样本)可能会分为更高级别(单位),例如其地理区域。在这些设置中,兴趣通常是在探索单位级别而不是样本级别上的结构。可以根据其平均值之间的距离进行比较,但是这忽略了样本的单位内分布。在这里,我们使用Wasserstein距离度量标准开发了一种对层次数据集进行探索性分析的方法,该指标考虑了单位内分布的形状。我们使用T-SNE构建单元的2D嵌入,基于它们之间的成对瓦斯汀距离的矩阵。距离矩阵可以通过使用高斯分布近似于每个单元来有效计算,但是我们还提供了一种可扩展的方法来计算精确的Wasserstein距离。我们使用合成数据来证明我们的Wasserstein T-SNE的有效性,并将其应用于2017年德国议会选举的数据,将投票站视为样本和投票区。结果嵌入发现数据中有意义的结构。
translated by 谷歌翻译
本文提出了一种聚类技术,该技术通过学习和聚类数据分布,然后将数据分配给其分布的群集,并在此过程中降低噪声对群集结果的影响,从而降低了数据噪声的易感性。此方法涉及在分布之间引入新的距离,即期望距离(表示,编辑),它超出了最佳质量运输的最新分配距离(表示为$ W_2 $,价格为$ 2 $ -WASSERSTEIN):后者本质上仅取决于边际分布,而前者还采用了有关联合分布的信息。使用ED,该论文将经典的$ K $ -MEANS和$ K $ -MEDOIDS聚集到数据分布(而不是原始数据),并使用$ W_2 $引入$ K $ -MEDOIDS。本文还介绍了不确定性为高斯时的情况的ED距离度量的闭合表达式。还提出了拟议的ED的实现结果以及$ W_2 $距离的距离量度,用于集群现实世界中的天气数据,其中涉及以均值和方差的形式有效提取和使用潜在的不确定性信息(例如,这足以满足表征高斯分布)。结果表明,与原始数据的经典聚类相对于经典聚类的表现有惊人的性能,并且ED实现了更高的精度。这是因为虽然$ w_2 $仅采用边际分布忽略了相关性,但拟议的ED还使用将相关性考虑到距离度量的联合分布。
translated by 谷歌翻译
邻居Embeddings是一种使用$ k $ nn图来可视化复杂的高维数据集的方法。为了找到低维嵌入,这些算法将相邻对点之间的吸引力与所有点之间的排斥力相结合。这种算法的最受欢迎的例子之一是T-SNE。在这里,我们经验证明使用夸张参数改变T-SNE中的吸引力和排斥力之间的平衡产生了一种嵌入式,其特点是简单的折衷:更强的吸引力可以更好地代表连续的歧管结构,而更强排斥可以更好地代表离散的集群结构,并收益率较高$ K $ NN召回。我们发现Umap Embeddings对应于涉及吸引力的T-SNE;数学分析表明,这是因为UMAP采用的负采样优化策略强烈降低了有效的排斥。同样,Forceatlas2通常用于可视化发育​​单细胞转录组数据,产生与T-SNE相对应的嵌入,吸引力增加更多。在这个频谱的极端Lieglacian eigenmaps。我们的结果表明,许多突出的邻居嵌入算法可以放置在吸引力频谱上,并突出显示它们之间的固有折衷。
translated by 谷歌翻译
大多数维度降低方法采用频域表示,从基质对角线化获得,并且对于具有较高固有维度的大型数据集可能不会有效。为了应对这一挑战,相关的聚类和投影(CCP)提供了一种新的数据域策略,不需要解决任何矩阵。CCP将高维特征分配到相关的群集中,然后根据样本相关性将每个集群中的特征分为一个一维表示。引入了残留相似性(R-S)分数和索引,Riemannian歧管中的数据形状以及基于代数拓扑的持久性Laplacian进行可视化和分析。建议的方法通过与各种机器学习算法相关的基准数据集验证。
translated by 谷歌翻译
聚类是基于它们的相似性对组对象的重要探索性数据分析技术。广泛使用的$ k $ -MEANS聚类方法依赖于一些距离的概念将数据划分为较少数量的组。在欧几里得空间中,$ k $ -Means的基于质心和基于距离的公式相同。在现代机器学习应用中,数据通常是作为概率分布而出现的,并且可以使用最佳运输指标来处理测量值数据。由于瓦斯坦斯坦空间的非负亚历山德罗夫曲率,巴里中心遭受了规律性和非舒适性问题。 Wasserstein Barycenters的特殊行为可能使基于质心的配方无法代表集群内的数据点,而基于距离的$ K $ -MEANS方法及其半决赛计划(SDP)可以恢复真实的方法集群标签。在聚集高斯分布的特殊情况下,我们表明SDP放松的Wasserstein $ k $ - 金钱可以实现精确的恢复,因为这些集群按照$ 2 $ - WASSERSTEIN MERTRIC进行了良好的分离。我们的仿真和真实数据示例还表明,基于距离的$ K $ -Means可以比基于标准的基于质心的$ k $ -Means获得更好的分类性能,用于聚类概率分布和图像。
translated by 谷歌翻译
In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global and local techniques.
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
在各种机器学习问题中,包括转移,多任务,连续和元学习在内,衡量不同任务之间的相似性至关重要。最新的测量任务相似性的方法依赖于体系结构:1)依靠预训练的模型,或2)在任务上进行培训网络,并将正向转移用作任务相似性的代理。在本文中,我们利用了最佳运输理论,并定义了一个新颖的任务嵌入监督分类,该分类是模型的,无训练的,并且能够处理(部分)脱节标签集。简而言之,给定带有地面标签的数据集,我们通过多维缩放和串联数据集样品进行嵌入标签,并具有相应的标签嵌入。然后,我们将两个数据集之间的距离定义为其更新样品之间的2-Wasserstein距离。最后,我们利用2-wasserstein嵌入框架将任务嵌入到矢量空间中,在该空间中,嵌入点之间的欧几里得距离近似于任务之间提出的2-wasserstein距离。我们表明,与最佳传输数据集距离(OTDD)等相关方法相比,所提出的嵌入导致任务的比较显着更快。此外,我们通过各种数值实验证明了我们提出的嵌入的有效性,并显示了我们所提出的距离与任务之间的前进和向后转移之间的统计学意义相关性。
translated by 谷歌翻译
We present a new technique called "t-SNE" that visualizes high-dimensional data by giving each datapoint a location in a two or three-dimensional map. The technique is a variation of Stochastic Neighbor Embedding (Hinton and Roweis, 2002) that is much easier to optimize, and produces significantly better visualizations by reducing the tendency to crowd points together in the center of the map. t-SNE is better than existing techniques at creating a single map that reveals structure at many different scales. This is particularly important for high-dimensional data that lie on several different, but related, low-dimensional manifolds, such as images of objects from multiple classes seen from multiple viewpoints. For visualizing the structure of very large data sets, we show how t-SNE can use random walks on neighborhood graphs to allow the implicit structure of all of the data to influence the way in which a subset of the data is displayed. We illustrate the performance of t-SNE on a wide variety of data sets and compare it with many other non-parametric visualization techniques, including Sammon mapping, Isomap, and Locally Linear Embedding. The visualizations produced by t-SNE are significantly better than those produced by the other techniques on almost all of the data sets.
translated by 谷歌翻译
信息技术的进步导致了非常大的数据集,通常保存在不同的存储中心。必须适于现有的统计方法来克服所产生的计算障碍,同时保持统计有效性和效率。分裂和征服方法已应用于许多领域,包括分位式流程,回归分析,主偶数和指数家庭。我们研究了有限高斯混合的分布式学习的分裂和征服方法。我们建议减少策略并开发一种有效的MM算法。新估计器显示在某些一般条件下保持一致并保留根 - N一致性。基于模拟和现实世界数据的实验表明,如果后者是可行的,所提出的分离和征管方法具有基于完整数据集的全球估计的统计性能。如果模型假设与真实数据不匹配,甚至可以略高于全局估算器。它还具有比某些现有方法更好的统计和计算性能。
translated by 谷歌翻译
与许多机器学习模型类似,群集加权模型(CWM)的准确性和速度都可以受到高维数据的阻碍,从而导致以前的作品对一种简约的技术,以减少“尺寸诅咒”对混合模型的影响。在这项工作中,我们回顾了集群加权模型(CWM)的背景研究。我们进一步表明,在庞大的高维数据的情况下,简约的技术不足以使混合模型蓬勃发展。我们通过使用“ FlexCWM” R软件包中的默认值选择位置参数的初始值来讨论一种用于检测隐藏组件的启发式。我们引入了一种称为T-分布的随机邻居嵌入(TSNE)的维度降低技术,以增强高维空间中的简约CWM。最初,CWM适用于回归,但出于分类目的,所有多级变量都会用一些噪声进行对数转换。模型的参数是通过预期最大化算法获得的。使用来自不同字段的实际数据集证明了讨论技术的有效性。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
分发比较在许多机器学习任务中起着核心作用,例如数据分类和生成建模。在这项研究中,我们提出了一种称为希尔伯特曲线投影(HCP)距离的新型度量,以测量具有高鲁棒性和低复杂性的两个概率分布之间的距离。特别是,我们首先使用希尔伯特曲线投射两个高维概率密度,以获得它们之间的耦合,然后根据耦合在原始空间中这两个密度之间的传输距离进行计算。我们表明,HCP距离是一个适当的度量标准,对于绝对连续的概率度量,定义明确。此外,我们证明,经验HCP距离在规律性条件下以不超过$ O(n^{ - 1/2d})$的速度收敛到其人口。为了抑制差异性的诅咒,我们还使用(可学习的)子空间投影开发了HCP距离的两个变体。合成数据和现实世界数据的实验表明,我们的HCP距离是瓦斯汀距离的有效替代,其复杂性低并克服了切成薄片的瓦斯坦距离的缺点。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
非线性维度降低可以通过\纺织{歧管学习}方法来执行,例如随机邻居嵌入(SNE),局部线性嵌入(LLE)和等距特征映射(ISOMAP)。这些方法旨在产生两个或三个潜在嵌入的嵌入,主要用于可视化可理解的表示数据。此稿件提出了学生的T分布式SNE(T-SNE),LLE和ISOMAP的扩展,以实现多维数量和多视图数据的可视化。多视图数据是指从相同样本生成的多种类型的数据。与通过单独可视化所获得的数据,所提出的多视图方法提供了比较通过可视化所获得的多个数据的更可理解的预测。通常可视化用于识别样本内的底层模式。通过将获得的低维嵌入从多视图歧管中的方法结合到K-Means聚类算法中,示出了准确地识别出样品的簇。通过对实际和合成数据的分析,发现所提出的多SNE方法具有最佳性能。我们进一步说明了多SNE方法对分析多OMICS单细胞数据的适用性,目的是在与健康和疾病相关的生物组织中可视化和识别细胞异质性和细胞类型。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
尺寸数据减少方法是探索和可视化大数据集的基础。无监督数据探索的基本要求是简单,灵活性和可扩展性。但是,当前方法显示复杂的参数化和强大的计算限制,在跨尺度探索大型数据结构时。在这里,我们专注于T-SNE算法,并显示具有单个控制参数的简化参数设置,即困惑,可以有效地平衡本地和全局数据结构可视化。我们还设计了一个Chunk \&Mix协议,以有效地并行化T-SNE,并探索比目前可用的多种尺度范围的数据结构。我们的BH-TSNE的并行版本,即PT-SNE,融合到良好的全球嵌入,尽管块\和混合协议增加了很少的噪声并降低了当地规模的准确性。尽管如此,我们表明简单的后处理可以有效地恢复本地尺度可视化,而不会在全球范围内损失精度。我们预计相同的方法可以应用于更快的嵌入算法,而不是BH-TSNE,如Fit-Sne或UMAP,因此扩展了最先进的,并导致更全面的数据结构可视化和分析。
translated by 谷歌翻译
域适应性是现代机器学习中的一种流行范式,旨在解决培训或验证数据集之间具有用于学习和测试分类器(源域)和潜在的大型未标记数据集的培训或验证数据集之间的分歧问题,其中利用了模型(目标域)(目标域)(目标域) 。任务是找到源数据集的源和目标数据集的这种常见表示,其中源数据集提供了培训的信息,因此可以最大程度地减少来源和目标之间的差异。目前,最流行的领域适应性解决方案是基于训练神经网络,这些神经网络结合了分类和对抗性学习模块,这些模块是饥饿的,通常很难训练。我们提出了一种称为域适应性主成分分析(DAPCA)的方法,该方法发现线性减少的数据表示有助于解决域适应任务。 DAPCA基于数据点对之间引入正权重,并概括了主成分分析的监督扩展。 DAPCA代表一种迭代算法,因此在每次迭代中都解决了一个简单的二次优化问题。保证算法的收敛性,并且在实践中的迭代次数很少。我们验证了先前提出的用于解决域适应任务的基准的建议算法,还显示了在生物医学应用中对单细胞法数据集进行分析中使用DAPCA的好处。总体而言,考虑到源域和目标域之间可能的差异,DAPCA可以作为许多机器学习应用程序中有用的预处理步骤。
translated by 谷歌翻译
The accuracy of k-nearest neighbor (kNN) classification depends significantly on the metric used to compute distances between different examples. In this paper, we show how to learn a Mahalanobis distance metric for kNN classification from labeled examples. The Mahalanobis metric can equivalently be viewed as a global linear transformation of the input space that precedes kNN classification using Euclidean distances. In our approach, the metric is trained with the goal that the k-nearest neighbors always belong to the same class while examples from different classes are separated by a large margin. As in support vector machines (SVMs), the margin criterion leads to a convex optimization based on the hinge loss. Unlike learning in SVMs, however, our approach requires no modification or extension for problems in multiway (as opposed to binary) classification. In our framework, the Mahalanobis distance metric is obtained as the solution to a semidefinite program. On several data sets of varying size and difficulty, we find that metrics trained in this way lead to significant improvements in kNN classification. Sometimes these results can be further improved by clustering the training examples and learning an individual metric within each cluster. We show how to learn and combine these local metrics in a globally integrated manner.
translated by 谷歌翻译
高斯混合模型将其作为一个强大的工具,主要是在聚类问题中,但在特征提取,模式识别,图像分割和一般机器学习中也具有适当的准备。当面对模式匹配的问题时,在不同数据上计算的不同混合模型可以维持关于数据集的结构的重要信息。为了测量或比较混合模型的结果,Wassersein距离可以非常有用,但是计算混合分布并不容易。在本文中,我们从高斯混合模型之间的Wasserstein距离获得了一个可能的近似,并将其降低到线性问题。此外,显示了关于真实世界数据的应用示例。
translated by 谷歌翻译