A clustering termination procedure which is locally adaptive (with respect to the hierarchical tree of sets representative of the agglomerative merging) is proposed, for agglomerative hierarchical clustering on a set equipped with a distance function. It represents a multi-scale alternative to conventional scale dependent threshold based termination criteria.
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
拼图解决问题,从一组非重叠的无序视觉碎片构建一个连贯的整体,是许多应用的基础,然而,过去二十年的大部分文献都集中在较不太现实的谜题上正方形。在这里,我们正规化一种新型的拼图拼图,其中碎片是通过用任意数量的直切割的全局多边形/图像切割而产生的一般凸多边形,这是由庆祝的懒人辅助er序列的产生模型。我们分析了这种难题的理论特性,包括在碎片被几何噪声被污染时解决它们的固有挑战。为了应对此类困难并获得易行的解决方案,我们摘要作为一种具有分层循环约束和分层重建过程的多体弹簧质量动态系统的问题。我们定义了评估指标,并在普通植物和图案谜题上呈现实验结果,以表明它们是完全自动溶解的。
translated by 谷歌翻译
This paper addresses the problem of segmenting an image into regions. We define a predicate for measuring the evidence for a boundary between two regions using a graph-based representation of the image. We then develop an efficient segmentation algorithm based on this predicate, and show that although this algorithm makes greedy decisions it produces segmentations that satisfy global properties. We apply the algorithm to image segmentation using two different kinds of local neighborhoods in constructing the graph, and illustrate the results with both real and synthetic images. The algorithm runs in time nearly linear in the number of graph edges and is also fast in practice. An important characteristic of the method is its ability to preserve detail in low-variability image regions while ignoring detail in high-variability regions.
translated by 谷歌翻译
选择功能是向量图形的基础,因为它是栅格数据的。但是矢量选择是完全不同的:而不是像素级标签,我们做出二进制决定包括或排除每个矢量原语。在没有可理解的元数据的情况下,这成为一个感知分组问题。这些以前依赖于类似于Gestall理论的经验原则的启发式,但由于这些都是不合定的和主观的,他们经常导致歧义。在这里,我们对问题采取了以数据为中心的方法。通过利用感知分组的递归性质,我们将任务解释为构建矢量图形的基元构建层次结构,这可以与额外的人类注释一起学习递归神经网络。我们通过构建这些层次结构的数据集来验证我们培训分层分组网络的数据集。然后,我们演示了如何在原型选择工具支撑。
translated by 谷歌翻译
在代表学习中,近来,近来在开发算法中兴趣解除数据集背后的地面真理生成因子,以及量度来量化这发生的情况。然而,这些算法和度量通常假设表示既有陈述和地面事实因素都是平坦的,连续和分解的,而许多真实的生成过程涉及丰富的层次结构,离散和连续变量的混合物,依赖于它们,甚至变化内在的维度。在这项工作中,我们开发用于学习此类分层表示的基准,算法和度量标准。
translated by 谷歌翻译
This paper introduces the subgraph nomination inference task, in which example subgraphs of interest are used to query a network for similarly interesting subgraphs. This type of problem appears time and again in real world problems connected to, for example, user recommendation systems and structural retrieval tasks in social and biological/connectomic networks. We formally define the subgraph nomination framework with an emphasis on the notion of a user-in-the-loop in the subgraph nomination pipeline. In this setting, a user can provide additional post-nomination light supervision that can be incorporated into the retrieval task. After introducing and formalizing the retrieval task, we examine the nuanced effect that user-supervision can have on performance, both analytically and across real and simulated data examples.
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
本文提出了一种基于图形的正则化回归估计器 - 分层特征回归(HFR) - 从机器学习和图论域名的洞察力调动洞察力,以估算线性回归的鲁棒参数。估计器构造一个监督的特征图,该监督特征图沿其边缘分解参数,首先调整常见变化并连续地将特殊性模式结合到拟合过程中。图形结构具有对组靶标的参数收缩的影响,其中收缩程度由肝异常的控制,并且基团组合物以及收缩靶数是内源性的。该方法提供了丰富的资源,以便在数据中的潜在效果结构的视觉探索,并与一系列经验和模拟回归任务的常用正则化技术面板相比,展示了良好的预测精度和多功能性。
translated by 谷歌翻译
通过潜在树形图形模型建模高维数据的分布是多个科学域中的一种普遍存在的方法。常见的任务是推断底层树结构,仅给出其终端节点的观察。树恢复的许多算法是计算密集型的,这将其适用于中等大小的树木。对于大树,一种共同的方法,被称为剥夺和征服,是以两步恢复树结构。首先,将结构分别恢复终端节点的多个可能随机子集。其次,合并生成的子树以形成一棵树。在这里,我们开发频谱自上而下的恢复(STDR),确定性分割和征服方法来推断出大潜在树模型。与以前的方法不同,STDR基于与观察到的节点相关的合适的LAPLACIAN矩阵的FIEDLER向量,以非随机方式分配终端节点。我们证明,在某些条件下,这种分区与树结构一致。反过来,这导致了小远子的显着更简单的合并程序。我们证明了STDR在统计上是一致的,并绑定了以高概率准确恢复树所需的样本数量。使用来自近几种常见树模型的模拟数据在系统发育中,我们证明STDR在运行时具有显着的优势,具有改善或类似的准确性。
translated by 谷歌翻译
分层群集的主要挑战之一是如何适当地识别群集树较低级别的代表点,这些点将被用作群集树的较高级别的根源以进行进一步的聚合。然而,传统的分层聚类方法采用了一些简单的技巧来选择可能不像代表的“代表”点。因此,构造的簇树在其稳健性和可靠性较弱的方面不太吸引。针对这个问题,我们提出了一种新的分层聚类算法,其中,在构建聚类树形图的同时,我们可以有效地检测基于对每个子最小跨越树中的互易读数的互动最近数据点进行评分的代表点。 UCI数据集的广泛实验表明,所提出的算法比其他基准更准确。同时,在我们的分析下,所提出的算法具有O(nlogn)时间复杂度和O(logn)空间复杂度,表明它具有在处理具有更少时间和存储消​​耗的大规模数据方面具有可扩展性。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
在本文中,我们提出了一种从3D点云生成分层的体积拓扑图的方法。我们的地图中有三个基本的分层级别:$ Storey - Region - 卷$。我们的方法的优点在输入和输出中反映。在输入方面,我们接受多层点云和建筑结构,倾斜的屋顶或天花板。在输出方面,我们可以使用不同维度的度量信息来生成结果,适用于不同的机器人应用。算法通过从3D Voxel占用映射生成$卷$来生成体积表示。然后,我们加入$段落$ s($卷$之间的连接),将小$卷$组合成一个大多数$地区$,并使用2D分段方法进行更好的拓扑表示。我们在几个可自由的数据集中评估我们的方法。实验突出了我们的方法的优势。
translated by 谷歌翻译
我们为保留部分顺序的部分有序数据的基于相似性的分层群集提供了一个目标函数。也就是说,如果$ x \ le y $,如果$ [x] $和$ [y] $是$ x $和$ y $的相应群集,那么有一个订单关系$ \ LE' $群集$ [x] \ Le'| Y] $。该理论将本身与现有的理论区分开了用于统称有序数据的理论,因为顺序关系和相似性被组合成双目标优化问题,以获得寻求满足两者的分层聚类。特别地,顺序关系在$ [0,1] $的范围内加权,如果相似性和顺序关系未对齐,则订单保存可能必须屈服于群集。找到最佳解决方案是NP-HARD,因此我们提供多项式时间近似算法,具有$ O \左的相对性能保证(\ log ^ {3/2} \!\!\,n \右)$ ,基于定向稀疏性切割的连续应用。我们在基准数据集中提供了演示,显示我们的方法优于具有重要边距的顺序保留分层聚类的现有方法。该理论是划分分层聚类的Dasgupta成本函数的扩展。
translated by 谷歌翻译
这项工作提出了一种基于形态重建和启发式方法的聚集算法,称为K-Morphological集合(K-MS)。在最坏情况下,K-MS比CPU并行K-均值快,并且可以增强数据集的可视化以及非常不同的聚类。它也比对密度和形状(例如有丝分裂和三升)敏感的类似聚类方法更快。另外,K-MS是确定性的,具有最大簇的内在含义,可以为给定的输入样本和输入参数创建,与K-均值和其他聚类算法不同。换句话说,给定恒定的k,一个结构元素和数据集,k-ms会在不使用随机/伪随机函数的情况下产生K或更少的簇。最后,所提出的算法还提供了一种简单的手段,可以从图像或数据集中删除噪声。
translated by 谷歌翻译
当今现实生活系统中图的普遍性很明显,该系统要么明确地以图形为单位,要么可以很容易地将其建模为一个。因此,这种图形结构是商店丰富的信息。这具有各种含义,具体取决于我们对节点还是整个图表感兴趣。在本文中,我们主要关注的是稍后的,即图表的结构会影响其代表的现实生活系统的属性。这种结构影响的模型将有助于通过其结构特性来推断复杂和大型系统(例如VLSI电路)的有用特性。但是,在我们可以将基于机器学习(ML)技术应用于建模这种关系之前,必须有效地表示图。在本文中,我们提出了一个图表表示,该图表是无损的,在顶点数量方面是线性大小的,并给出图形的1-D表示。我们的表示是基于对树木编码的Prufer编码。此外,我们的方法基于一种新颖的技术,称为$ \ Mathcal {gt} $ - 增强功能,我们首先转换图形,使其可以由单数树表示。编码还提供了包括附加图形属性并改善代码的解释性的范围。
translated by 谷歌翻译
在本文中,我们提出了一个自然的单个偏好(IP)稳定性的概念,该概念要求每个数据点平均更接近其自身集群中的点,而不是其他群集中的点。我们的概念可以从几个角度的动机,包括游戏理论和算法公平。我们研究了与我们提出的概念有关的几个问题。我们首先表明,确定给定数据集通常允许进行IP稳定的聚类通常是NP-HARD。结果,我们探索了在某些受限度量空间中查找IP稳定聚类的有效算法的设计。我们提出了一种poly Time算法,以在实际线路上找到满足精确IP稳定性的聚类,并有效地算法来找到针对树度量的IP稳定2聚类。我们还考虑放松稳定性约束,即,与其他任何集群相比,每个数据点都不应太远。在这种情况下,我们提供具有不同保证的多时间算法。我们在实际数据集上评估了一些算法和几种标准聚类方法。
translated by 谷歌翻译
原子学模拟现在已经成为理解原子尺度材料变形机制的不可或缺的工具。定期使用大规模模拟来研究纳米级的多晶材料的行为。在这项工作中,我们提出了一种使用无监督机器学习算法的原子配置的晶粒分割方法,该算法基于其取向基于各个颗粒将原子簇簇簇。所提出的方法,称为oriSodata算法,基于迭代自组织数据分析技术,并被修改为在方向空间中工作。在两个未变形和变形状态下,在122粒纳米晶薄膜样品上证明了算法的工作。 ORISODATA算法也与开源可视化工具OVITO中可用的另外两种颗粒分段算法进行比较。结果表明,Orisodata算法能够正确地识别变形双胞胎以及由低角度晶界分开的区域。模型参数具有直观的物理含义,并与实验中使用的类似阈值相关,这不仅有助于获得最佳值,而且还有助于轻松解释和验证结果。
translated by 谷歌翻译