区域化是将数据集分解为彼此异质的连续均匀区域的行为。存在许多不同的算法用于进行区域化;但是,在大型现实世界数据集上使用这些算法仅在近年来的计算功率方面变得可行。比较了不同的区域化方法,并且确实缺乏分析记忆,可扩展性,地理指标和大规模现实世界应用的研究。这项研究使用现实世界的健康决定因素(SDOH)数据比较了最新的区域化方法,即集聚聚类,滑冰者,REDCAP,AZP和MAX-P区域。在本研究中,现实世界中SDOH数据的规模最多100万个数据点,不仅比较了不同数据集的算法,而且为每种单独的区域化算法提供了应力测试,其中大多数以前从未在此类尺度上运行。我们使用几个新的地理指标来比较算法并执行比较记忆分析。然后,将普遍的区域化方法与无限制的K-均值聚类进行比较,它们在弗吉尼亚州和华盛顿特区分离实际健康数据的能力。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
在存在空间异质性的情况下,应用于地理数据的模型面临着产生一般结果和捕获局部变化之间的权衡。在区域尺度上进行建模可以识别优化准确性和通用性的解决方案。但是,大多数当前的区域化算法在划分区域的属性中都假定同质性,而无需考虑生成属性的过程。在本文中,我们提出了一个基于两项目标函数的广义区域化框架,该框架有利于最高的总体精度解决方案,同时最大程度地减少区域数量。我们介绍了三种区域化算法,该算法扩展了以前的方法来解释空间约束的聚类。在模拟和真实数据的回归实验中检查了提出的框架的有效性。结果表明,使用自动后处理过程扩展的空间隐式算法优于空间显式方法。我们建议的框架有助于更好地捕获与空间异质性相关的过程,并在广泛的地理模型中使用潜在的应用。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
由于昂贵的挖掘程序,光纤到-UTH(FTTH)网络的扩展会产生高成本。因此,优化规划过程,最大限度地减少地球挖掘工作的成本导致大量节省。在数学上,FTTH网络问题可以被描述为最小的Steiner树问题。尽管在过去的几十年中已经在集中进行了密集地进行了强烈调查了施泰纳的问题,但可以在新的计算范例和新兴方法的帮助下进一步优化。这项工作研究即将到来的技术,例如Quantum退火,模拟退火和自然启发方法,如进化算法或基于粘液模具的优化。此外,我们还调查分区和简化方法。在几个现实生活中评估,我们可以在大多数域上表达传统的广泛使用的基线(NetworkX近似求解器)。先前分区初始图和所呈现的基于粘液模具的方法对于成本有效的近似特别有价值。 Quantum退火似乎很有希望,但受到可用Qubits的数量的限制。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
图聚类是将顶点分组为称为簇的密集连接的集合的过程。我们量身定制了从文献到这个问题的两个数学编程公式。在此过程中,我们获得了群体内密度最大化问题的启发式近似。我们使用两种变体的玻尔兹曼机器启发式方法来获得数值解决方案。为了进行基准测试,我们将解决方案质量和计算性能与使用商业求解器Gurobi获得的溶液质量和计算性能进行比较。我们还将聚类质量与使用流行的Louvain模块化最大化方法获得的聚类质量进行了比较。我们的最初结果清楚地表明了我们的问题配方的优势。他们还建立了Boltzmann机器比传统精确求解器的优越性。在较小的图形较小的情况下,Boltzmann机器提供与Gurobi相同的解决方案,但解决方案时间较低。在较大且更复杂的图表的情况下,Gurobi无法在合理的时间范围内返回有意义的结果。最后,我们还注意到,我们的聚类配方,距离最小化和$ k $ - 麦德体的产量簇的质量均优于使用Louvain算法获得的簇。
translated by 谷歌翻译
群集分析需要许多决定:聚类方法和隐含的参考模型,群集数,通常,几个超参数和算法调整。在实践中,一个分区产生多个分区,基于验证或选择标准选择最终的分区。存在丰富的验证方法,即隐式或明确地假设某个聚类概念。此外,它们通常仅限于从特定方法获得的分区上操作。在本文中,我们专注于可以通过二次或线性边界分开的群体。参考集群概念通过二次判别符号函数和描述集群大小,中心和分散的参数定义。我们开发了两个名为二次分数的群集质量标准。我们表明这些标准与从一般类椭圆对称分布产生的组一致。对这种类型的组追求在应用程序中是常见的。研究了与混合模型和模型的聚类的似然理论的连接。基于Bootstrap重新采样的二次分数,我们提出了一个选择规则,允许在许多聚类解决方案中选择。所提出的方法具有独特的优点,即它可以比较不能与其他最先进的方法进行比较的分区。广泛的数值实验和实际数据的分析表明,即使某些竞争方法在某些设置中出现优越,所提出的方法也实现了更好的整体性能。
translated by 谷歌翻译
在过去二十年中,识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员,我们总结了文献关于纵向聚类的指导。此外,我们提供了一种纵向聚类方法,包括基于基团的轨迹建模(GBTM),生长混合模拟(GMM)和纵向K平均值(KML)。该方法在基本级别引入,并列出了强度,限制和模型扩展。在最近数据收集的发展之后,将注意这些方法的适用性赋予密集的纵向数据(ILD)。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。
translated by 谷歌翻译
空间优化问题(SOP)的特征是管理决策变量,目标和/或约束功能的空间关系。在本文中,我们关注一种称为空间分区的特定类型的SOP,这是一个组合问题,这是由于存在离散空间单元。精确的优化方法不会随着问题的大小而扩展,尤其是在可行的时间限制内。这促使我们开发基于人群的元启发式学来解决此类SOP。但是,这些基于人群的方法采用的搜索操作员主要是为实参与者连续优化问题而设计的。为了使这些方法适应SOP,我们将域知识应用于设计空间感知的搜索操作员,以在保留空间约束的同时有效地通过离散搜索空间进行有效搜索。为此,我们提出了一种简单而有效的算法,称为基于群的空间模因算法(空间),并在学校(RE)区域问题上进行测试。对现实世界数据集进行了详细的实验研究,以评估空间的性能。此外,进行消融研究以了解空间各个组成部分的作用。此外,我们讨论空间〜如何在现实生活计划过程及其对不同方案的适用性并激发未来的研究方向有帮助。
translated by 谷歌翻译
社区检测是网络科学中最重要的方法领域之一,在过去的几十年里引起了大量关注的方法之一。该区域处理网络的自动部门到基础构建块中,目的是提供其大规模结构的概要。尽管它的重要性和广泛的采用普及,所谓的最先进和实际在各种领域实际使用的方法之间存在明显的差距。在这里,我们试图通过根据是否具有“描述性”或“推论”目标来划分现有方法来解决这种差异。虽然描述性方法在基于社区结构的直观概念的网络中找到模式的模式,但是推理方法阐述了精确的生成模型,并尝试将其符合数据。通过这种方式,他们能够为网络形成机制提供见解,并以统计证据支持的方式与随机性的单独结构。我们审查如何使用推论目标采用描述性方法被陷入困境和误导性答案,因此应该一般而言。我们认为推理方法更通常与更清晰的科学问题一致,产生更强大的结果,并且应该是一般的首选。我们试图消除一些神话和半真半假在实践中使用社区检测时,努力改善这些方法的使用以及对结果的解释。
translated by 谷歌翻译
在本文中,我们提出了一种方法,用于预测社交媒体对等体之间的信任链接,其中一个是在多识别信任建模的人工智能面积。特别是,我们提出了一种数据驱动的多面信任信任建模,该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能:支持更个性化的,从而为用户提供更准确的预测。在信任感知项目推荐任务中说明,我们在大yelp数据集的上下文中评估所提出的框架。然后,我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础,老年人的反思,以说明关于用户组的推理价值,期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。
translated by 谷歌翻译
Originally, tangles were invented as an abstract tool in mathematical graph theory to prove the famous graph minor theorem. In this paper, we showcase the practical potential of tangles in machine learning applications. Given a collection of cuts of any dataset, tangles aggregate these cuts to point in the direction of a dense structure. As a result, a cluster is softly characterized by a set of consistent pointers. This highly flexible approach can solve clustering problems in various setups, ranging from questionnaires over community detection in graphs to clustering points in metric spaces. The output of our proposed framework is hierarchical and induces the notion of a soft dendrogram, which can help explore the cluster structure of a dataset. The computational complexity of aggregating the cuts is linear in the number of data points. Thus the bottleneck of the tangle approach is to generate the cuts, for which simple and fast algorithms form a sufficient basis. In our paper we construct the algorithmic framework for clustering with tangles, prove theoretical guarantees in various settings, and provide extensive simulations and use cases. Python code is available on github.
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
聚类是一种无监督的机器学习方法,其中未标记的元素/对象被分组在一起,旨在构建成熟的群集,以根据其相似性对其元素进行分类。该过程的目的是向研究人员提供有用的帮助,以帮助她/他确定数据中的模式。在处理大型数据库时,如果没有聚类算法的贡献,这种模式可能无法轻易检测到。本文对最广泛使用的聚类方法进行了深入的描述,并伴随着有关合适的参数选择和初始化的有用演示。同时,本文不仅代表了一篇评论,该评论突出了所检查的聚类技术的主要要素,而且强调了这些算法基于3个数据集的聚类效率的比较,从而在对抗性和复杂性中揭示了其现有的弱点和能力,在持续的离散和持续的离散和离散和持续的差异。观察。产生的结果有助于我们根据数据集的大小提取有关检查聚类技术的适当性的宝贵结论。
translated by 谷歌翻译
Both clustering and outlier detection play an important role for meteorological measurements. We present the AWT algorithm, a clustering algorithm for time series data that also performs implicit outlier detection during the clustering. AWT integrates ideas of several well-known K-Means clustering algorithms. It chooses the number of clusters automatically based on a user-defined threshold parameter, and it can be used for heterogeneous meteorological input data as well as for data sets that exceed the available memory size. We apply AWT to crowd sourced 2-m temperature data with an hourly resolution from the city of Vienna to detect outliers and to investigate if the final clusters show general similarities and similarities with urban land-use characteristics. It is shown that both the outlier detection and the implicit mapping to land-use characteristic is possible with AWT which opens new possible fields of application, specifically in the rapidly evolving field of urban climate and urban weather.
translated by 谷歌翻译
在进化多目标聚类方法(EMOC)中,已将各种聚类标准应用于目标函数。但是,大多数EMOC并未提供有关目标功能的选择和使用的详细分析。旨在支持eMOC中目标的更好的选择和定义,本文提出了通过检查搜索方向及其在寻找最佳结果的潜力来分析进化优化中聚类标准的可采性的分析。结果,我们证明了目标函数的可接受性如何影响优化。此外,我们还提供有关eMOC中聚类标准的组合和使用的见解。
translated by 谷歌翻译
最小的平方和群集(MSSC)或K-Means型聚类,传统上被认为是无监督的学习任务。近年来,使用背景知识来提高集群质量,促进聚类过程的可解释性已成为数学优化和机器学习研究的热门研究课题。利用数据群集中的背景信息的问题称为半监督或约束群集。在本文中,我们为半监控MSSC提供了一种新的分支和绑定算法,其中背景知识被包含为成对必须 - 链接和无法链接约束。对于较低的界限,我们解决了MSSC离散优化模型的Semidefinite编程宽松,并使用了用于加强界限的纤维平面程序。相反,通过使用整数编程工具,我们提出了将K-Means算法适应受约束的情况。这是第一次,所提出的全局优化算法有效地管理,以解决现实世界的情况,最高可达800个数据点,具有必要的必须 - 链接和无法链接约束以及通用数量的功能。这个问题大小大约比最先进的精确算法解决的实例大约四倍。
translated by 谷歌翻译