The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.
translated by 谷歌翻译
图形上的组合优化问题(COP)是优化的基本挑战。强化学习(RL)最近成为解决这些问题的新框架,并证明了令人鼓舞的结果。但是,大多数RL解决方案都采用贪婪的方式来逐步构建解决方案,因此不可避免地对动作序列构成不必要的依赖性,并且需要许多特定于问题的设计。我们提出了一个通用的RL框架,该框架不仅表现出最先进的经验表现,而且还推广到各种各样的警察。具体而言,我们将状态定义为解决问题实例的解决方案,并将操作作为对该解决方案的扰动。我们利用图形神经网络(GNN)为给定的问题实例提取潜在表示,然后应用深Q学习以获得通过翻转或交换顶点标签逐渐完善解决方案的策略。实验是在最大$ k $ cut和旅行推销员问题上进行的,并且针对一系列基于学习的启发式基线实现了绩效改善。
translated by 谷歌翻译
Steiner树问题(STP)在图中旨在在连接给定的顶点集的图表中找到一个最小权重的树。它是一种经典的NP - 硬组合优化问题,具有许多现实世界应用(例如,VLSI芯片设计,运输网络规划和无线传感器网络)。为STP开发了许多精确和近似算法,但它们分别遭受高计算复杂性和弱案例解决方案保证。还开发了启发式算法。但是,它们中的每一个都需要应用域知识来设计,并且仅适用于特定方案。最近报道的观察结果,同一NP-COLLECLIAL问题的情况可能保持相同或相似的组合结构,但主要在其数据中不同,我们调查将机器学习技术应用于STP的可行性和益处。为此,我们基于新型图形神经网络和深增强学习设计了一种新型模型瓦坎。 Vulcan的核心是一种新颖的紧凑型图形嵌入,将高瞻度图形结构数据(即路径改变信息)转换为低维矢量表示。鉴于STP实例,Vulcan使用此嵌入来对其路径相关的信息进行编码,并基于双层Q网络(DDQN)将编码的图形发送到深度加强学习组件,以找到解决方案。除了STP之外,Vulcan还可以通过将解决方案(例如,SAT,MVC和X3C)来减少到STP来找到解决方案。我们使用现实世界和合成数据集进行广泛的实验,展示了vulcan的原型,并展示了它的功效和效率。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译
我们提出了一个通用图形神经网络体系结构,可以作为任何约束满意度问题(CSP)作为末端2端搜索启发式训练。我们的体系结构可以通过政策梯度下降进行无监督的培训,以纯粹的数据驱动方式为任何CSP生成问题的特定启发式方法。该方法基于CSP的新型图表,既是通用又紧凑的,并且使我们能够使用一个GNN处理所有可能的CSP实例,而不管有限的Arity,关系或域大小。与以前的基于RL的方法不同,我们在全局搜索动作空间上运行,并允许我们的GNN在随机搜索的每个步骤中修改任何数量的变量。这使我们的方法能够正确利用GNN的固有并行性。我们进行了彻底的经验评估,从随机数据(包括图形着色,Maxcut,3-SAT和Max-K-Sat)中学习启发式和重要的CSP。我们的方法表现优于先验的神经组合优化的方法。它可以在测试实例上与常规搜索启发式竞争,甚至可以改善几个数量级,结构上比训练中看到的数量级更为复杂。
translated by 谷歌翻译
广泛研究和使用旅行推销员问题等图形问题,如旅行推销员问题,或发现最小的施泰纳树在数据工程和计算机科学中使用。通常,在现实世界应用中,图表的特征往往会随着时间的推移而变化,因此,找到问题的解决方案变得具有挑战性。许多图表问题的动态版本是运输,电信和社交网络中普遍世界问题的关键。近年来,利用深度学习技术来寻找NP-Hard图组合问题的启发式解决方案,因为这些学习的启发式可以有效地找到近最佳解决方案。但是,大多数现有的学习启发式方法都关注静态图问题。动态性质使NP-Hard图表问题更具挑战性,并且现有方法无法找到合理的解决方案。在本文中,我们提出了一种名为Cabl时间关注的新型建筑,并利用加固学习(GTA-RL)来学习基于图形的动态组合优化问题的启发式解决方案。 GTA-RL架构包括能够嵌入组合问题实例的时间特征的编码器和能够动态地关注嵌入功能的解码器,以找到给定组合问题实例的解决方案。然后,我们将架构扩展到学习HeuRistics的组合优化问题的实时版本,其中问题的所有输入特征是未知的,而是实时学习。我们针对几种最先进的基于学习的算法和最佳求解器的实验结果表明,我们的方法在动态和效率方面,在有效性和最佳求解器方面优于基于最先进的学习方法。实时图组合优化。
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
广泛适用的在线匹配问题中的挑战在于在未来输入不确定性时进行不可撤销的作业。大多数理论上的政策本质上都是近视或贪婪。在定期重复匹配过程的实际应用程序中,可以利用基础数据分布来更好地决策。我们提出了一个端到端的强化学习框架,用于根据历史数据的反复试验得出更好的匹配政策。我们设计了一组神经网络体系结构,设计功能表示,并在两个在线匹配问题中对它们进行经验评估:边缘加权的在线双方匹配和在线次级两部分匹配。我们表明,大多数学习方法在四个合成和现实世界数据集上的经典基线算法始终如一地表现更好。平均而言,我们提出的模型在各种合成和现实世界数据集上提高了3-10%的匹配质量。我们的代码可在https://github.com/lyeskhalil/corl上公开获取。
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译
回溯搜索算法通常用于解决约束满足问题(CSP)。回溯搜索的效率在很大程度上取决于可变排序启发式。目前,最常用的启发式是根据专家知识进行手工制作的。在本文中,我们提出了一种基于深度的加强学习方法,可以自动发现新的变量订购启发式,更好地适用于给定类CSP实例。我们显示,直接优化搜索成本很难用于自动启动,并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系,我们设计基于图形神经网络的表示方案,可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明,学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式,并且可以有效地推广到比训练中使用的实例。
translated by 谷歌翻译
在社交网络中找到有影响力的用户是一个基本问题,具有许多可能的应用程序。将社交网络视为图形,可以通过位于网络中给定数量的跳数内的邻居的数量来测量一组用户的影响,其中每个跳标标记了影响扩散的步骤。在本文中,我们将IM的问题减少到预算受限的D-Hop主导集合问题(KDDSP)。我们提出了一个统一的机器学习(ML)框架,FastCover,通过以无人监督的方式学习高效的贪婪策略来解决KDDSP。作为框架的一个关键组成部分,我们设计了一种新颖的图形神经网络(GNN)架构,图反转关注网络(GRAT),其捕获邻居之间的扩散过程。与用于组合优化问题的大多数启发式算法和并发ML框架不同,FastCover确定从GNN的一个正向传播的节点的分数确定整个种子集,并且在图形大小中具有时间复杂性准线性。综合图和现实世界社交网络的实验表明,FastCover通过并发算法呈现的更好或相当的质量来找到解决方案,同时实现超过1000x的加速。
translated by 谷歌翻译
最近,增强学习方法(RL)在NP-HARD组合优化问题上的应用已成为一个流行的话题。这本质上是由于传统组合算法的性质,通常是基于试验过程。 RL旨在自动化此过程。在这方面,本文着重于RL在车辆路由问题(VRP)中的应用,这是属于NP-HARD问题的著名组合问题。首先,在这项工作中,该问题被建模为马尔可夫决策过程(MDP),然后应用PPO方法(属于Actor-Critic-Critic cornforcion学习方法类别)。在第二阶段,已经建立了演员和评论家背后的神经建筑,选择采用基于卷积神经网络的神经建筑,包括演员和评论家。这种选择有效地解决了不同大小的问题。在各种实例上进行的实验表明该算法具有良好的概括能力,并且可以在短时间内达到良好的解决方案。提出的算法与最先进的求解器或最先进的求解器之间的比较表明,后者仍然优于强化学习算法。但是,有一些未来的研究观点,旨在升级提出的算法的当前性能。
translated by 谷歌翻译
在各种现实世界应用中,组合优化问题作为混合整数线性程序(MILP)无处不在。规范的分支和结合算法通过构建越来越约束的子问题的搜索树来寻求精确解决MILP。实际上,其解决时间性能取决于启发式方法,例如选择下一个变量来约束(“分支”)。最近,机器学习(ML)已成为分支的有希望的范式。但是,先前的工作一直在努力应用强化学习(RL),理由是稀疏的奖励,艰难的探索和部分可观察性是重大挑战。取而代之的是,领先的ML方法论通过模仿学习(IL)近似高质量的手工启发式方法,这排除了新型政策的发现并需要昂贵的数据标签。在这项工作中,我们提出了复古分支。一种简单而有效的分支RL方法。通过回顾性将搜索树解构为子树中包含的多个路径,我们使代理能够从更短的轨迹中学习具有更可预测的下一步状态。在对四个组合任务的实验中,我们的方法可以在没有任何专家指导或预培训的情况下学习分支。我们的表现优于当前最新的RL分支算法,比最佳IL方法在MILPS上具有500个约束和1000个变量的最佳性能的20%以内,并验证了我们的回顾性构建轨迹对于实现的必要这些结果。
translated by 谷歌翻译
用于图形组合优化问题的神经网络溶剂的端到端培训,例如旅行销售人员问题(TSP)最近看到了感兴趣的激增,但在几百节节点的图表中保持棘手和效率低下。虽然最先进的学习驱动的方法对于TSP在培训的古典索引时与古典求解器密切相关,但它们无法通过实际尺度的实际情况概括到更大的情况。这项工作提出了一个端到端的神经组合优化流水线,统一几个卷纸,以确定促进比在训练中看到的实例的概括的归纳偏差,模型架构和学习算法。我们的受控实验提供了第一个原则上调查这种零拍摄的概括,揭示了超越训练数据的推断需要重新思考从网络层和学习范例到评估协议的神经组合优化流水线。此外,我们分析了深入学习的最近进步,通过管道的镜头路由问题,并提供新的方向,以刺激未来的研究。
translated by 谷歌翻译
路由问题是许多实际应用的一类组合问题。最近,已经提出了端到端的深度学习方法,以了解这些问题的近似解决方案启发式。相比之下,经典动态编程(DP)算法保证最佳解决方案,但与问题大小严重规模。我们提出了深入的政策动态规划(DPDP),旨在将学习神经启发式的优势与DP算法结合起来。 DPDP优先确定并限制DP状态空间,使用来自深度神经网络的策略进行培训,以预测示例解决方案的边缘。我们在旅行推销员问题(TSP)上评估我们的框架,车辆路由问题(VRP)和TSP与时间窗口(TSPTW),并表明神经政策提高了(限制性)DP算法的性能,使其对强有力的替代品具有竞争力如LKH,同时也优于求解TSP,VRP和TSPTWS的大多数其他“神经方法”,其中包含100个节点。
translated by 谷歌翻译
组合优化的神经方法(CO)配备了一种学习机制,以发现解决复杂现实世界问题的强大启发式方法。尽管出现了能够在单一镜头中使用高质量解决方案的神经方法,但最先进的方法通常无法充分利用他们可用的解决时间。相比之下,手工制作的启发式方法可以很好地执行高效的搜索并利用给他们的计算时间,但包含启发式方法,这些启发式方法很难适应要解决的数据集。为了为神经CO方法提供强大的搜索程序,我们提出了模拟引导的光束搜索(SGB),该搜索(SGB)在固定宽度的树搜索中检查了候选解决方案,既是神经网络学习的政策又是模拟(推出)确定有希望的。我们将SGB与有效的主动搜索(EAS)进一步融合,其中SGB提高了EAS中反向传播的解决方案的质量,EAS提高了SGB中使用的策略的质量。我们评估了有关众所周知的CO基准的方法,并表明SGB可显着提高在合理的运行时假设下发现的解决方案的质量。
translated by 谷歌翻译
This paper presents a methodology for integrating machine learning techniques into metaheuristics for solving combinatorial optimization problems. Namely, we propose a general machine learning framework for neighbor generation in metaheuristic search. We first define an efficient neighborhood structure constructed by applying a transformation to a selected subset of variables from the current solution. Then, the key of the proposed methodology is to generate promising neighbors by selecting a proper subset of variables that contains a descent of the objective in the solution space. To learn a good variable selection strategy, we formulate the problem as a classification task that exploits structural information from the characteristics of the problem and from high-quality solutions. We validate our methodology on two metaheuristic applications: a Tabu Search scheme for solving a Wireless Network Optimization problem and a Large Neighborhood Search heuristic for solving Mixed-Integer Programs. The experimental results show that our approach is able to achieve a satisfactory trade-off between the exploration of a larger solution space and the exploitation of high-quality solution regions on both applications.
translated by 谷歌翻译
分支机构是一种用于组合优化的系统枚举方法,在该方法中,性能高度依赖于可变选择策略。最先进的手工启发式策略的推理时间相对较慢,而当前的机器学习方法需要大量的标记数据。我们提出了一种新方法,以根据使用强化学习(RL)范式来解决组合优化中的数据标记和推理潜伏期问题。我们使用模仿学习来引导RL代理,然后使用近端策略优化(PPO)进一步探索全球最佳动作。然后,一个值网络用于运行蒙特卡洛树搜索(MCT)以增强策略网络。我们评估了我们在四个不同类别的组合优化问题上的方法的性能,并表明我们的方法与最先进的机器学习和基于启发式方法的方法相比表现强劲。
translated by 谷歌翻译
事件处理是动态和响应互联网(物联网)的基石。该领域的最近方法基于代表性状态转移(REST)原则,其允许将事件处理任务放置在遵循相同原理的任何设备上。但是,任务应在边缘设备之间正确分布,以确保公平资源利用率和保证无缝执行。本文调查了深入学习的使用,以公平分配任务。提出了一种基于关注的神经网络模型,在不同场景下产生有效的负载平衡解决方案。所提出的模型基于变压器和指针网络架构,并通过Advantage演员批评批评学习算法训练。该模型旨在缩放到事件处理任务的数量和边缘设备的数量,不需要重新调整甚至再刷新。广泛的实验结果表明,拟议的模型在许多关键绩效指标中优于传统的启发式。通用设计和所获得的结果表明,所提出的模型可能适用于几个其他负载平衡问题变化,这使得该提案是由于其可扩展性和效率而在现实世界场景中使用的有吸引力的选择。
translated by 谷歌翻译