The local optima network model has proved useful in the past in connection with combinatorial optimization problems. Here we examine its extension to the real continuous function domain. Through a sampling process, the model builds a weighted directed graph which captures the function's minima basin structure and its interconnection and which can be easily manipulated with the help of complex networks metrics. We show that the model provides a complementary view of function spaces that is easier to analyze and visualize, especially at higher dimension. In particular, we show that function hardness as represented by algorithm performance, is strongly related to several graph properties of the corresponding local optima network, opening the way for a classification of problem difficulty according to the corresponding graph structure and with possible extensions in the design of better metaheuristic approaches.
translated by 谷歌翻译
许多复杂网络的结构包括其拓扑顶部的边缘方向性和权重。可以无缝考虑这些属性组合的网络分析是可取的。在本文中,我们研究了两个重要的这样的网络分析技术,即中心和聚类。采用信息流基于集群的模型,该模型本身就是在计算中心的信息定理措施时构建。我们的主要捐款包括马尔可夫熵中心的广义模型,灵活地调整节点度,边缘权重和方向的重要性,具有闭合形式的渐近分析。它导致一种新颖的两级图形聚类算法。中心分析有助于推理我们对给定图形的方法的适用性,并确定探索当地社区结构的“查询”节点,从而导致群集聚类机制。熵中心计算由我们的聚类算法摊销,使其计算得高效:与使用马尔可夫熵中心为聚类的先前方法相比,我们的实验表明了多个速度的速度。我们的聚类算法自然地继承了适应边缘方向性的灵活性,以及​​边缘权重和节点度之间的不同解释和相互作用。总的来说,本文不仅具有显着的理论和概念贡献,还转化为实际相关性的文物,产生新的,有效和可扩展的中心计算和图形聚类算法,其有效通过广泛的基准测试进行了验证。
translated by 谷歌翻译
在机器学习中调用多种假设需要了解歧管的几何形状和维度,理论决定了需要多少样本。但是,在应用程序数据中,采样可能不均匀,歧管属性是未知的,并且(可能)非纯化;这意味着社区必须适应本地结构。我们介绍了一种用于推断相似性内核提供数据的自适应邻域的算法。从本地保守的邻域(Gabriel)图开始,我们根据加权对应物进行迭代率稀疏。在每个步骤中,线性程序在全球范围内产生最小的社区,并且体积统计数据揭示了邻居离群值可能违反了歧管几何形状。我们将自适应邻域应用于非线性维度降低,地球计算和维度估计。与标准算法的比较,例如使用K-Nearest邻居,证明了它们的实用性。
translated by 谷歌翻译
优化在离散变量上的高度复杂的成本/能源功能是不同科学学科和行业的许多公开问题的核心。一个主要障碍是在硬实例中的某些变量子集之间的出现,导致临界减慢或集体冻结了已知的随机本地搜索策略。通常需要指数计算工作来解冻这种变量,并探索配置空间的其他看不见的区域。在这里,我们通过开发自适应梯度的策略来介绍一个量子启发的非本球非识别蒙特卡罗(NMC)算法,可以有效地学习成本函数的关键实例的几何特征。该信息随行使用,以构造空间不均匀的热波动,用于以各种长度尺度集体未填充变量,规避昂贵的勘探与开发权衡。我们将算法应用于两个最具挑战性的组合优化问题:随机k可满足(K-SAT)附近计算阶段转换和二次分配问题(QAP)。我们在专业的确定性求解器和通用随机求解器上观察到显着的加速和鲁棒性。特别是,对于90%的随机4-SAT实例,我们发现了最佳专用确定性算法无法访问的解决方案,该算法(SP)具有最强的10%实例的解决方案质量的大小提高。我们还通过最先进的通用随机求解器(APT)显示出在最先进的通用随机求解器(APT)上的时间到溶液的两个数量级改善。
translated by 谷歌翻译
随机块模型(SBM)是一个随机图模型,其连接不同的顶点组不同。它被广泛用作研究聚类和社区检测的规范模型,并提供了肥沃的基础来研究组合统计和更普遍的数据科学中出现的信息理论和计算权衡。该专着调查了最近在SBM中建立社区检测的基本限制的最新发展,无论是在信息理论和计算方案方面,以及各种恢复要求,例如精确,部分和弱恢复。讨论的主要结果是在Chernoff-Hellinger阈值中进行精确恢复的相转换,Kesten-Stigum阈值弱恢复的相变,最佳的SNR - 单位信息折衷的部分恢复以及信息理论和信息理论之间的差距计算阈值。该专着给出了在寻求限制时开发的主要算法的原则推导,特别是通过绘制绘制,半定义编程,(线性化)信念传播,经典/非背带频谱和图形供电。还讨论了其他块模型的扩展,例如几何模型和一些开放问题。
translated by 谷歌翻译
大多数情况下,如果不是全部,现代软件系统都是高度可配置的,以对各种利益相关者定制其功能和非功能性质。由于黑盒性质,很难分析和理解其行为,例如关于性能方面的配置选项组合之间的相互作用,特别是推进可控性是非常重要的底层软件系统。本文提出了一种工具,称为Lonviz,这是第一家,促进了对黑匣子可配置软件系统的探索性分析。它从底层系统的配置空间中的系统采样开始。然后LONVIZ通过合成多个采样结果的重复来构建结构稳定的LON。最后,可以从定性和定量观点来到稳定的Lon上进行探索性分析。在实验中,我们选择了四种广泛使用的真实可配置的软件系统,以开发42个不同的运行环境下的基准平台。从我们的实证研究中,我们发现LONVIZ能够进行定性和定量分析,并披露各种有趣的隐藏模式和不同软件系统的属性。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
神经结构搜索是一个有前途的研究领域,致力于自动化神经网络模型的设计。该领域正在迅速增长,具有从贝叶斯优化,神经间偏离的方法的浪涌,以及各种情况下的应用程序。然而,尽管存在巨大的进展,但很少有研究对问题本身的难度提出了见解,因此这些方法的成功(或失败)仍未解释。从这个意义上讲,优化领域已经开发了突出显示关键方面来描述优化问题的方法。适应性景观分析突出了可靠和定量搜索算法的特征时。在本文中,我们建议使用健身景观分析来研究神经结构搜索问题。特别是,我们介绍了健身景观足迹,八(8)个通用指标的聚合来综合架构搜索问题的景观。我们研究了两个问题,古典图像分类基准CiFar-10和遥感问题SO2SAT LCZ42。结果表现了对问题的定量评估,允许表征相对难度和其他特征,例如坚固性或持久性,有助于定制对问题的搜索策略。此外,足迹是一种能够比较多次问题的工具。
translated by 谷歌翻译
我们通过定义节点的某些局部特征和矢量表示,然后使用它们来通过深层神经网络来学习全球定义的指标和属性,从而提出了用于图形机器学习和网络分析的局部到全球策略。通过通过呼吸优先搜索扩展节点的程度的概念,定义了{\ bf参数中心函数}的一般家族,可以揭示节点的重要性。我们将{\ bf邻居学位频率(NDF)}引入,作为无向图的节点的局部定义嵌入到欧几里得空间中。这引起了节点的矢量标记,该标记编码了节点局部邻域的结构,可用于图同构测试。我们为构造增加了灵活性,以便它也可以处理动态图。之后,广度优先搜索用于将NDF矢量表示形式扩展到两个不同的节点的矩阵表示,其中包含有关节点社区的高阶信息。我们的节点的矩阵表示为我们提供了一种新的方式,可视化节点的形状。此外,我们使用这些矩阵表示来获取特征向量,该特征向量适用于典型的深度学习算法。为了证明这些节点嵌入实际上包含有关节点的一些信息,在一系列示例中,我们表明可以通过将深度学习应用于这些本地特征来学习Pagerank和紧密的中心性。我们的构造足够灵活,可以处理不断发展的图。最后,我们解释了如何适应有向图的构造。
translated by 谷歌翻译
The stochastic block model (SBM) is a random graph model with planted clusters. It is widely employed as a canonical model to study clustering and community detection, and provides generally a fertile ground to study the statistical and computational tradeoffs that arise in network and data sciences.This note surveys the recent developments that establish the fundamental limits for community detection in the SBM, both with respect to information-theoretic and computational thresholds, and for various recovery requirements such as exact, partial and weak recovery (a.k.a., detection). The main results discussed are the phase transitions for exact recovery at the Chernoff-Hellinger threshold, the phase transition for weak recovery at the Kesten-Stigum threshold, the optimal distortion-SNR tradeoff for partial recovery, the learning of the SBM parameters and the gap between information-theoretic and computational thresholds.The note also covers some of the algorithms developed in the quest of achieving the limits, in particular two-round algorithms via graph-splitting, semi-definite programming, linearized belief propagation, classical and nonbacktracking spectral methods. A few open problems are also discussed.
translated by 谷歌翻译
The theory of magnitude provides a mathematical framework for quantifying and maximizing diversity. We apply this framework to formulate quality-diversity algorithms in generic dissimilarity spaces. In particular, we instantiate and demonstrate a very general version of Go-Explore with promising performance.
translated by 谷歌翻译
Models for the processes by which ideas and influence propagate through a social network have been studied in a number of domains, including the diffusion of medical and technological innovations, the sudden and widespread adoption of various strategies in game-theoretic settings, and the effects of "word of mouth" in the promotion of new products. Motivated by the design of viral marketing strategies, Domingos and Richardson posed a fundamental algorithmic problem for such social network processes: if we can try to convince a subset of individuals to adopt a new product or innovation, and the goal is to trigger a large cascade of further adoptions, which set of individuals should we target?We consider this problem in several of the most widely studied models in social network analysis. The optimization problem of selecting the most influential nodes is NP-hard here. The two conference papers upon which this article is based (KDD 2003 and ICALP 2005) provide the first provable approximation guarantees for efficient algorithms. Using an The present article is an expanded version of two conference papers [51,52], which appeared in KDD 2003 and ICALP 2005, respectively.
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
拼图解决问题,从一组非重叠的无序视觉碎片构建一个连贯的整体,是许多应用的基础,然而,过去二十年的大部分文献都集中在较不太现实的谜题上正方形。在这里,我们正规化一种新型的拼图拼图,其中碎片是通过用任意数量的直切割的全局多边形/图像切割而产生的一般凸多边形,这是由庆祝的懒人辅助er序列的产生模型。我们分析了这种难题的理论特性,包括在碎片被几何噪声被污染时解决它们的固有挑战。为了应对此类困难并获得易行的解决方案,我们摘要作为一种具有分层循环约束和分层重建过程的多体弹簧质量动态系统的问题。我们定义了评估指标,并在普通植物和图案谜题上呈现实验结果,以表明它们是完全自动溶解的。
translated by 谷歌翻译
分布算法(EDA)是优化算法,在搜索空间上学习分布,可以轻松地采样良好的解决方案。大多数EDA的关键参数是样本量(人口尺寸)。如果人口规模太小,则概率模型的更新基于很少的样本,从而导致遗传漂移的不期望效应。人口太大避免了遗传漂移,但减慢了这一过程。基于对种群规模如何导致遗传漂移的最新定量分析,我们为EDA设计了一种智能的正式机制。通过停止运行,当遗传漂移的风险很高时,它会自动以良好的参数状态运行EDA。通过数学运行时分析,我们证明了此智能总结方案的一般性能保证。这特别表明,在许多情况下,已知最佳(特定问题)参数值,重新启动方案会自动找到这些,从而导致渐近最佳性能。我们还进行了广泛的实验分析。在四个经典的基准问题上,我们清楚地观察了人口规模对性能的关键影响,并且我们发现智能重点方案会导致具有最佳参数值可获得的性能。我们的结果还表明,先前基于理论的最佳人口规模的建议远非最佳群体,从而导致表现明显不如通过智能重点方案获得的表现。我们还对文献,最大切割问题和两部分问题的两个组合优化问题进行了PBIL(跨熵算法)进行实验。同样,我们观察到,智能设施的机制比文献中建议的人口规模更高,从而导致表现更好。
translated by 谷歌翻译
这篇综述的目的是将读者介绍到图表内,以将其应用于化学信息学中的分类问题。图内核是使我们能够推断分子的化学特性的功能,可以帮助您完成诸如寻找适合药物设计的化合物等任务。内核方法的使用只是一种特殊的两种方式量化了图之间的相似性。我们将讨论限制在这种方法上,尽管近年来已经出现了流行的替代方法,但最著名的是图形神经网络。
translated by 谷歌翻译
过去已经表明,与解决多模式问题生成器的解决实例相比,多座丘陵策略与标准遗传算法相比有利。我们扩展了这项工作,并验证遗传算法中多样性保存技术的利用是否改变了比较结果。在两种情况下,我们这样做:(1)​​目标是找到全局最佳距离时,(2)当目标是找到所有Optima时。进行了数学分析,用于多设山丘算法,并通过实证研究进行了经验研究,以求解多模式问题生成器的实例,其中包括山丘策略以及遗传算法的数量,并使用遗传算法进行了元素。尽管小甲基元素改善了遗传算法的性能,但它仍然不如这类问题上的多尽山关闭策略。还提出了一种理想化的细分策略,并认为它的性能应接近任何进化算法在此类问题上可以做到的。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
The cross-entropy (CE) method is a new generic approach to combinatorial and multi-extremal optimization and rare event simulation. The purpose of this tutorial is to give a gentle introduction to the CE method. We present the CE methodology, the basic algorithm and its modifications, and discuss applications in combinatorial optimization and machine learning.
translated by 谷歌翻译