We present a conceptually simple and intuitive method to calculate and to measure the dissimilarities among 2D shapes. Several methods to interpret and to visualize the resulting dissimilarity matrix are presented and compared.
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
可视化非常大的矩阵涉及许多强大的问题。这些问题的各种流行的解决方案涉及采样,群集,投影或特征选择,以降低原始任务的大小和复杂性。这些方法的一个重要方面是如何在减少行和列以便在较低尺寸空间中保持高维空间中的点之间的相对距离。这方面很重要,因为基于错误的视觉推理的结论可能是有害的。在可视化的基础上判断与相似或类似的点相似或类似的点可以导致错误的结论。为了改善这种偏差并使非常大的数据集的可视化可行,我们介绍了两个新的算法,分别选择矩形矩阵的行和列的子集。这种选择旨在尽可能地保持相对距离。我们将矩阵素描与各种人工和真实数据集的更传统的替代品进行比较。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
本文涉及相对于2D轮廓的形状和尺寸的聚类,这是旋转3D对象的横截面的边界。我们提出了许多基于组合的不同促销分析(PA)和动态时间翘曲(DTW)距离的相似性措施。该研究的动机和主要应用来自考古学。执行的计算实验是指考古陶器的聚类。
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
图像架构是一个反复的推理模式,其中一个实体被映射到另一个实体。图像模式类似于概念上的隐喻,也与隐喻性手势有关。我们的主要目标是为体现的对话代理产生隐喻性手势。我们提出了一种学习图像模式的矢量表示的技术。据我们所知,这是解决该问题的第一项工作。我们的技术使用Ravenet等人的算法来计算文本输入中的图像模式,以及Bert和Sensebert,我们将其用作基本单词嵌入技术来计算图像架构的最终矢量表示。我们的表示学习技术通过聚类来起作用:属于同一图像架构的单词嵌入向量应相对彼此相对近,从而形成一个群集。使用图像模式可表示为向量,也有可能有一个观念,即某些图像模式比彼此更接近或更相似,因为向量之间的距离是相应图像模式之间的相似性的代理。因此,在获得图像模式的矢量表示后,我们计算了这些向量之间的距离。基于这些,我们创建可视化以说明不同图像模式之间的相对距离。
translated by 谷歌翻译
目前的论文研究了最小化损失$ f(\ boldsymbol {x})$的问题,而在s $ \ boldsymbol {d} \ boldsymbol {x} \的约束,其中$ s $是一个关闭的集合,凸面或非,$ \ boldsymbol {d} $是熔化参数的矩阵。融合约束可以捕获平滑度,稀疏或更一般的约束模式。为了解决这个通用的问题,我们将Beltrami-Courant罚球方法与近距离原则相结合。后者是通过最小化惩罚目标的推动$ f(\ boldsymbol {x})+ \ frac {\ rho} {2} \ text {dist}(\ boldsymbol {d} \ boldsymbol {x},s)^ 2 $涉及大型调整常量$ \ rho $和$ \ boldsymbol {d} \ boldsymbol {x} $的平方欧几里德距离$ s $。通过最小化大多数代理函数$ f(\ boldsymbol {x},从当前迭代$ \ boldsymbol {x} _n $构建相应的近距离算法的下一个迭代$ \ boldsymbol {x} _ {n + 1} $。 )+ \ frac {\ rho} {2} \ | \ boldsymbol {d} \ boldsymbol {x} - \ mathcal {p} _ {s}(\ boldsymbol {d} \ boldsymbol {x} _n)\ | ^ 2 $。对于固定$ \ rho $和subanalytic损失$ f(\ boldsymbol {x})$和子质约束设置$ s $,我们证明了汇聚点。在更强大的假设下,我们提供了收敛速率并展示线性本地收敛性。我们还构造了一个最陡的下降(SD)变型,以避免昂贵的线性系统解决。为了基准我们的算法,我们比较乘法器(ADMM)的交替方向方法。我们广泛的数值测试包括在度量投影,凸回归,凸聚类,总变化图像去噪和矩阵的投影到良好状态数的问题。这些实验表明了我们在高维问题上最陡的速度和可接受的准确性。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
了解生物和人造网络的运作仍然是一个艰难而重要的挑战。为了确定一般原则,研究人员越来越有兴趣测量培训的大量网络,或者在培训或生物学地适应类似的任务。现在需要一种标准化的分析工具来确定网络级协变量 - 例如架构,解剖脑区和模型生物 - 影响神经表示(隐藏层激活)。在这里,我们通过定义量化代表性异化的广泛的公制空间,为这些分析提供严格的基础。使用本框架,我们根据规范相关分析修改现有的代表性相似度量,以满足三角形不等式,制定致扫描层中的感应偏差的新型度量,并识别使网络表示能够结合到基本上的近似的欧几里德嵌入物。货架机学习方法。我们展示了来自生物学(Allen Institute脑观测所)和深度学习(NAS-BENCH-101)的大规模数据集的这些方法。在这样做时,我们识别在解剖特征和模型性能方面可解释的神经表现之间的关系。
translated by 谷歌翻译
We investigate the properties of a metric between two distributions, the Earth Mover's Distance (EMD), for content-based image retrieval. The EMD is based on the minimal cost that must be paid to transform one distribution into the other, in a precise sense, and was first proposed for certain vision problems by Peleg, Werman, and Rom. For image retrieval, we combine this idea with a representation scheme for distributions that is based on vector quantization. This combination leads to an image comparison framework that often accounts for perceptual similarity better than other previously proposed methods. The EMD is based on a solution to the transportation problem from linear optimization, for which efficient algorithms are available, and also allows naturally for partial matching. It is more robust than histogram matching techniques, in that it can operate on variable-length representations of the distributions that avoid quantization and other binning problems typical of histograms. When used to compare distributions with the same overall mass, the EMD is a true metric. In this paper we focus on applications to color and texture, and we compare the retrieval performance of the EMD with that of other distances.
translated by 谷歌翻译
本文报告了在应用多维缩放(MDS)技术中以创建语言研究中的语义地图的最先进。 MDS指的是一种统计技术,其表示对象(词汇项,语言上下文,语言等)作为空间中的点,使得对象之间的密切相似性对应于表示表示中的对应点之间的距离。我们专注于使用MDS与在跨语言变异研究中使用的并行语料库数据相结合。我们首先介绍了MD的数学基础,然后略微概述过去的研究,采用MDS技术与并行语料库数据结合使用。我们提出了一组术语,以简便地描述特定MDS应用程序的关键参数。然后,我们表明,这种计算方法是理论中立的,即它可以用来在各种语言理论框架中回答研究问题。最后,我们展示了这在语言学中的MDS研究中的两条发展程度的发展。
translated by 谷歌翻译
有限维概率单纯x中的聚类分类分布是处理归一化直方图的许多应用中的基本任务。传统上,概率单位的差分几何结构已经通过(i)将Riemannian公制矩阵设定为分类分布的Fisher信息矩阵,或(ii)定义由平滑异化性引起的二元信息 - 几何结构衡量标准,kullback-leibler发散。在这项工作中,我们介绍了群集任务一种新颖的计算型友好框架,用于在几何上建模概率单纯x:{\ em hilbert simplex几何}。在Hilbert Simplex几何形状中,距离是不可分离的Hilbert公制距离,其满足与多光镜边界描述的距离水平集功能的信息单调性的特性。我们表明,Aitchison和Hilbert Simplex的距离分别是关于$ \ ell_2 $和变化规范的标准化对数表示的距离。我们讨论了这些不同的统计建模的利弊,并通过基于基于中心的$ k $ -means和$ k $ -center聚类的基准这些不同的几何形状。此外,由于可以在欧几里德空间的任何有界凸形子集上定义规范希尔伯特距离,因此我们还考虑了与FR \“Obenius和Log-Det分歧相比的相关矩阵的椭圆形的几何形状并研究其聚类性能。
translated by 谷歌翻译
我们讨论集群分析的拓扑方面,并表明在聚类之前推断数据集的拓扑结构可以大大增强群集检测:理论论证和经验证据表明,聚类嵌入向量,代表数据歧管的结构,而不是观察到的特征矢量他们自己是非常有益的。为了证明,我们将流形学习方法与基于密度的聚类方法DBSCAN结合了歧管学习方法UMAP。合成和真实数据结果表明,这既简化和改善了多种低维问题,包括密度变化和/或纠缠形状的群集。我们的方法简化了聚类,因为拓扑预处理始终降低DBSCAN的参数灵敏度。然后,用dbscan聚类所得的嵌入可以超过诸如spectacl和clustergan之类的复杂方法。最后,我们的调查表明,聚类中的关键问题似乎不是数据的标称维度或其中包含多少不相关的功能,而是\ textIt {可分离}群集在环境观察空间中的\ textit {可分离},它们嵌入了它们中。 ,通常是数据特征定义的(高维)欧几里得空间。我们的方法之所以成功,是因为我们将数据投影到更合适的空间后,从某种意义上说,我们执行了群集分析。
translated by 谷歌翻译
潜在的语义分析(LSA)和对应分析(CA)是两种使用单数值分解(SVD)来降低维度的技术。 LSA已广泛用于获得低维表示,以捕获文档和术语之间的关系。在本文中,我们介绍了文档矩阵中两种技术的理论分析和比较。我们表明,与LSA相比,CA具有一些吸引人的特性,例如,有效消除了由于文档长度和期限频率而产生的边距的影响,因此CA解决方案非常适合于文档和条款之间的关系。提出了一个统一的框架,其中包括CA和LSA作为特殊情况。我们从经验上将CA与荷兰历史文本中的英语和作者身份归因的文本分类进行了与CA进行比较,并发现CA的性能明显更好。我们还将CA应用于一个关于荷兰国歌威廉斯(Wilhelmus)的作者身份的长期问题,并提供了进一步的支持,可以将其归因于作者,在几位竞争者中。
translated by 谷歌翻译
The affine rank minimization problem consists of finding a matrix of minimum rank that satisfies a given system of linear equality constraints. Such problems have appeared in the literature of a diverse set of fields including system identification and control, Euclidean embedding, and collaborative filtering. Although specific instances can often be solved with specialized algorithms, the general affine rank minimization problem is NP-hard, because it contains vector cardinality minimization as a special case.In this paper, we show that if a certain restricted isometry property holds for the linear transformation defining the constraints, the minimum rank solution can be recovered by solving a convex optimization problem, namely the minimization of the nuclear norm over the given affine space. We present several random ensembles of equations where the restricted isometry property holds with overwhelming probability, provided the codimension of the subspace is Ω(r(m + n) log mn), where m, n are the dimensions of the matrix, and r is its rank.The techniques used in our analysis have strong parallels in the compressed sensing framework. We discuss how affine rank minimization generalizes this pre-existing concept and outline a dictionary relating concepts from cardinality minimization to those of rank minimization. We also discuss several algorithmic approaches to solving the norm minimization relaxations, and illustrate our results with numerical examples.
translated by 谷歌翻译
In recent years, spectral clustering has become one of the most popular modern clustering algorithms. It is simple to implement, can be solved efficiently by standard linear algebra software, and very often outperforms traditional clustering algorithms such as the k-means algorithm. On the first glance spectral clustering appears slightly mysterious, and it is not obvious to see why it works at all and what it really does. The goal of this tutorial is to give some intuition on those questions. We describe different graph Laplacians and their basic properties, present the most common spectral clustering algorithms, and derive those algorithms from scratch by several different approaches. Advantages and disadvantages of the different spectral clustering algorithms are discussed.
translated by 谷歌翻译
我们提出了一种针对非等级地标的非刚性形状匹配的原则方法。我们的方法基于功能地图框架,但我们没有促进异构体,而是集中在近乎符号的地图上,这些图可准确地保留地标。首先,我们通过使用固有的Dirichlet-Steklov本本特征来引入新颖的地标适应性基础来实现这一目标。其次,我们建立了在此基础上表达的保形图的功能分解。最后,我们制定了一种构成形式不变的能量,该能量促进了高质量的具有里程碑式的保留地图,并展示了如何通过我们扩展到设置的最近提出的Zoomout方法的变体来求解它。我们的方法是无描述符,有效且可靠的,可显着网格变异性。我们在一系列基准数据集上评估了我们的方法,并在非等法基准测试和等距范围内的最新性能上展示了最先进的性能。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译