路由问题是许多实际应用的一类组合问题。最近,已经提出了端到端的深度学习方法,以了解这些问题的近似解决方案启发式。相比之下,经典动态编程(DP)算法保证最佳解决方案,但与问题大小严重规模。我们提出了深入的政策动态规划(DPDP),旨在将学习神经启发式的优势与DP算法结合起来。 DPDP优先确定并限制DP状态空间,使用来自深度神经网络的策略进行培训,以预测示例解决方案的边缘。我们在旅行推销员问题(TSP)上评估我们的框架,车辆路由问题(VRP)和TSP与时间窗口(TSPTW),并表明神经政策提高了(限制性)DP算法的性能,使其对强有力的替代品具有竞争力如LKH,同时也优于求解TSP,VRP和TSPTWS的大多数其他“神经方法”,其中包含100个节点。
translated by 谷歌翻译
组合优化的神经方法(CO)配备了一种学习机制,以发现解决复杂现实世界问题的强大启发式方法。尽管出现了能够在单一镜头中使用高质量解决方案的神经方法,但最先进的方法通常无法充分利用他们可用的解决时间。相比之下,手工制作的启发式方法可以很好地执行高效的搜索并利用给他们的计算时间,但包含启发式方法,这些启发式方法很难适应要解决的数据集。为了为神经CO方法提供强大的搜索程序,我们提出了模拟引导的光束搜索(SGB),该搜索(SGB)在固定宽度的树搜索中检查了候选解决方案,既是神经网络学习的政策又是模拟(推出)确定有希望的。我们将SGB与有效的主动搜索(EAS)进一步融合,其中SGB提高了EAS中反向传播的解决方案的质量,EAS提高了SGB中使用的策略的质量。我们评估了有关众所周知的CO基准的方法,并表明SGB可显着提高在合理的运行时假设下发现的解决方案的质量。
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
The design of good heuristics or approximation algorithms for NP-hard combinatorial optimization problems often requires significant specialized knowledge and trial-and-error. Can we automate this challenging, tedious process, and learn the algorithms instead? In many real-world applications, it is typically the case that the same optimization problem is solved again and again on a regular basis, maintaining the same problem structure but differing in the data. This provides an opportunity for learning heuristic algorithms that exploit the structure of such recurring problems. In this paper, we propose a unique combination of reinforcement learning and graph embedding to address this challenge. The learned greedy policy behaves like a meta-algorithm that incrementally constructs a solution, and the action is determined by the output of a graph embedding network capturing the current state of the solution. We show that our framework can be applied to a diverse range of optimization problems over graphs, and learns effective algorithms for the Minimum Vertex Cover, Maximum Cut and Traveling Salesman problems.
translated by 谷歌翻译
In the last years, there has been a great interest in machine-learning-based heuristics for solving NP-hard combinatorial optimization problems. The developed methods have shown potential on many optimization problems. In this paper, we present a learned heuristic for the reoptimization of a problem after a minor change in its data. We focus on the case of the capacited vehicle routing problem with static clients (i.e., same client locations) and changed demands. Given the edges of an original solution, the goal is to predict and fix the ones that have a high chance of remaining in an optimal solution after a change of client demands. This partial prediction of the solution reduces the complexity of the problem and speeds up its resolution, while yielding a good quality solution. The proposed approach resulted in solutions with an optimality gap ranging from 0\% to 1.7\% on different benchmark instances within a reasonable computing time.
translated by 谷歌翻译
学习解决组合优化问题,例如车辆路径问题,提供古典运营研究求解器和启发式的巨大计算优势。最近开发的深度加强学习方法迭代或顺序地构建一组个别旅游的最初给定的解决方案。然而,大多数现有的基于学习的方法都无法为固定数量的车辆工作,从而将客户的复杂分配问题绕过APRIORI给定数量的可用车辆。另一方面,这使得它们不太适合真实应用程序,因为许多物流服务提供商依赖于提供的解决方案提供了特定的界限船队规模,并且无法适应车辆数量的短期更改。相比之下,我们提出了一个强大的监督深度学习框架,在尊重APRiori固定数量的可用车辆的同时构建完整的旅游计划。与高效的后处理方案结合,我们的监督方法不仅要快得多,更容易训练,而且还实现了包含车辆成本的实际方面的竞争结果。在彻底的控制实验中,我们将我们的方法与我们展示稳定性能的多种最先进的方法进行比较,同时利用较少的车辆并在相关工作的实验协议中存在一些亮点。
translated by 谷歌翻译
组合优化问题在许多实际情况(例如物流和生产)中遇到,但是精确的解决方案尤其难以找到,通常对于大量的问题大小而言,通常是NP-HARD。为了计算近似解决方案,通常使用局部搜索的通用和特定问题的动物园。但是,哪种变体适用于哪种特定问题,即使对于专家来说也很难决定。在本文中,我们确定了这种本地搜索算法的三个独立算法方面,并将其在优化过程中正式选择为马尔可夫决策过程(MDP)。我们将深图神经网络设计为该MDP的策略模型,为当地搜索提供了一个名为Neurols的局部搜索控制器。充分的实验证据表明,神经元能够胜过操作研究和最新基于机器学习的方法的众所周知的通用本地搜索控制器。
translated by 谷歌翻译
\ textit {约束路径发现}的经典问题是一个经过充分研究但充满挑战的主题,在各个领域,例如沟通和运输等各个领域的应用。权重限制了最短路径问题(WCSPP),作为仅具有一个侧面约束的约束路径查找的基本形式,旨在计划成本最佳路径,其权重/资源使用受到限制。鉴于问题的双标准性质(即处理路径的成本和权重),解决WCSPP的方法具有一些带有双目标搜索的共同属性。本文在约束路径查找和双目标搜索中利用了最新的基于A*的最新技术,并为WCSPP提供了两种精确的解决方案方法,两者都可以在非常大的图表上解决硬性问题实例。我们从经验上评估了算法在新的大型和现实的问题实例上的性能,并在时空指标中显示出它们比最新算法的优势。本文还调查了优先级队列在被a*的约束搜索中的重要性。我们通过对逼真的和随机图进行了广泛的实验来展示,基于桶的队列没有打破打盘的方式可以有效地改善详尽的双标准搜索的算法性能。
translated by 谷歌翻译
符合使用机器学习的不断增长的趋势,帮助解决组合优化问题,一个有希望的想法是通过使用学习的策略来改善混合整数编程(MIP)分支和绑定树内的节点选择。以前使用模仿学习的工作指示通过学习自适应节点搜索顺序来获取节点选择策略的可行性。相比之下,我们的模仿学习策略仅专注于学习节点的孩子中的哪一个选择。我们介绍了一个脱机方法,用于在两个设置中学习这样的策略:一个通过致力于修剪节点的启发式;一个是从叶子精确和背溯以保证找到最佳整数解决方案的备用。前一个设置对应于困扰期间的儿童选择器,而后者则类似于潜水启发式。我们在热情和确切的设置中将策略应用于流行的开源求解器SCIP。五个MIP数据集的经验结果表明,我们的节点选择策略比文献中最先进的先例更快地导致解决方案。虽然我们在精确解决方案的时间内没有击败高度优化的SCIP状态基准节点选择器,但如果预测模型的准确性足够,我们的启发式政策比所有基线都具有始终如一的最佳最优性差距。此外,结果还表明,当应用时间限制时,我们的启发式方法发现比测试大多数问题中所有基线的更好的解决方案。我们通过表明学习的政策模仿了SCIP基线来解释结果,但没有后者早期的暴跌中止。我们的建议是,尽管对文献的清晰改进,但这种MIP儿童选择器在更广泛的方法中更好地使用MIP分支和束缚树决策。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译
关于组合优化的机器学习的最新作品表明,基于学习的方法可以优于速度和性能方面的启发式方法。在本文中,我们考虑了在定向的无环图上找到最佳拓扑顺序的问题,重点是编译器中出现的记忆最小化问题。我们提出了一种基于端到端的机器学习方法,用于使用编码器框架,用于拓扑排序。我们的编码器是一种基于注意力的新图形神经网络体系结构,称为\ emph {topoformer},它使用DAG的不同拓扑转换来传递消息。由编码器产生的节点嵌入被转换为节点优先级,解码器使用这些嵌入,以生成概率分布对拓扑顺序。我们在称为分层图的合成生成图的数据集上训练我们的模型。我们表明,我们的模型的表现优于或在PAR上,具有多个拓扑排序基线,同时在最多2K节点的合成图上明显更快。我们还在一组现实世界计算图上训练和测试我们的模型,显示了性能的改进。
translated by 谷歌翻译
回溯搜索算法通常用于解决约束满足问题(CSP)。回溯搜索的效率在很大程度上取决于可变排序启发式。目前,最常用的启发式是根据专家知识进行手工制作的。在本文中,我们提出了一种基于深度的加强学习方法,可以自动发现新的变量订购启发式,更好地适用于给定类CSP实例。我们显示,直接优化搜索成本很难用于自动启动,并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系,我们设计基于图形神经网络的表示方案,可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明,学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式,并且可以有效地推广到比训练中使用的实例。
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
用于图形组合优化问题的神经网络溶剂的端到端培训,例如旅行销售人员问题(TSP)最近看到了感兴趣的激增,但在几百节节点的图表中保持棘手和效率低下。虽然最先进的学习驱动的方法对于TSP在培训的古典索引时与古典求解器密切相关,但它们无法通过实际尺度的实际情况概括到更大的情况。这项工作提出了一个端到端的神经组合优化流水线,统一几个卷纸,以确定促进比在训练中看到的实例的概括的归纳偏差,模型架构和学习算法。我们的受控实验提供了第一个原则上调查这种零拍摄的概括,揭示了超越训练数据的推断需要重新思考从网络层和学习范例到评估协议的神经组合优化流水线。此外,我们分析了深入学习的最近进步,通过管道的镜头路由问题,并提供新的方向,以刺激未来的研究。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
列生成是一种用于解决各种优化问题的迭代方法。它将问题分解为两部分:主问题,以及一个或多个定价问题(PP)。该方法采取的总计计算时间在这两个部分之间划分。在路由或调度应用程序中,问题主要在网络上定义,并且PP通常是具有资源约束的NP-难以最短的路径问题。在这项工作中,我们提出了一种基于机器学习的新的启发式定价算法。通过利用先前执行期间收集的数据,目标是减小网络的大小并加速PP,仅保持具有高机会的弧形成为线性松弛解决方案的一部分。该方法已应用于两个特定问题:在公共交通中的车辆和船员调度问题以及时间窗口的车辆路由问题。可以获得高达40%的计算时间的减少。
translated by 谷歌翻译
我们考虑了提高柱生成效率(CG)方法的方法,以解决车辆路由问题。我们介绍了CG配方中常用的NG-Route松弛度和降低状态空间松弛(DSSR)的替代/补充,我们引入了局部区域(LA)路线。 LA路线是NG路由的子集和基本路线的超级集合。通常,CG的定价阶段必须产生基本路线,这些路线是没有重复客户的路线,使用可能在计算上昂贵的流程。非元素路线至少访问至少一个客户,创建一个周期。 LA路线以允许有效定价的方式放松成为基本途径的约束。从NG-Route放松方面,最好理解LA路线。 NG路由是允许在空间中具有非定位循环的路线。这意味着周期中至少有一个中间客户(称为断路器)必须考虑到周期中的起始客户在空间上远离。使用一组特殊索引来描述LA路线,该特殊索引与从开始到路线尽头的路线上的客户相对应。 LA路线的松弛进一步限制了一组允许的周期,除了强制执行断路器必须位于特殊索引中,该循环均超出了NG路由,其中​​一组特殊索引被递归地定义为如下。该路线中的第一个特殊索引是索引1,这意味着它与路线中的第一个客户关联。 K'th特殊索引对应于K-1第三个特殊索引之后的第一个客户,该索引并非被认为是(在空间上被认为是远离K-1'TEXPATEX的客户)的邻居。我们证明,与标准DSSR相比,LA路线松弛可以显着提高定价的计算速度。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
我们提出了一个通用图形神经网络体系结构,可以作为任何约束满意度问题(CSP)作为末端2端搜索启发式训练。我们的体系结构可以通过政策梯度下降进行无监督的培训,以纯粹的数据驱动方式为任何CSP生成问题的特定启发式方法。该方法基于CSP的新型图表,既是通用又紧凑的,并且使我们能够使用一个GNN处理所有可能的CSP实例,而不管有限的Arity,关系或域大小。与以前的基于RL的方法不同,我们在全局搜索动作空间上运行,并允许我们的GNN在随机搜索的每个步骤中修改任何数量的变量。这使我们的方法能够正确利用GNN的固有并行性。我们进行了彻底的经验评估,从随机数据(包括图形着色,Maxcut,3-SAT和Max-K-Sat)中学习启发式和重要的CSP。我们的方法表现优于先验的神经组合优化的方法。它可以在测试实例上与常规搜索启发式竞争,甚至可以改善几个数量级,结构上比训练中看到的数量级更为复杂。
translated by 谷歌翻译