最近,变压器已成为解决车辆路由问题(VRP)的盛行深度建筑。但是,它在学习VRP的学习改进模型方面的有效性较小,因为其位置编码(PE)方法不适合表示VRP解决方案。本文介绍了一种新颖的双重协作变压器(DACT),以分别学习节点和位置特征的嵌入,而不是像现有的那样将它们融合在一起,以避免潜在的噪音和不相容的相关性。此外,位置特征通过新型的循环位置编码(CPE)方法嵌入,以使变压器有效捕获VRP溶液(即环状序列)的圆形性和对称性。我们使用近端政策优化训练DACT,并设计一种课程学习策略,以提高样本效率。我们应用DACT来解决旅行推销员问题(TSP)和电容的车辆路由问题(CVRP)。结果表明,我们的DACT优于现有的基于变压器的改进模型,并且在合成和基准实例上分别在不同问题大小上表现出更好的概括性能。
translated by 谷歌翻译
我们提出了一种有效的神经邻域搜索(N2S),以解决取货和交付问题(PDPS)。具体而言,我们设计了强大的综合注意力,可以使香草自我注意力综合有关路线解决方案的各种特征。我们还利用了两个自定义的解码器,它们会自动学习执行拾取节点对的删除和重新插入以应对优先限制。此外,利用多样性增强方案以进一步改善性能。我们的N2是通用的,并且对两个规范PDP变体进行了广泛的实验表明,它可以在现有神经方法之间产生最新的结果。此外,它甚至超过了众所周知的LKH3求解器在更受限的PDP变体上。我们针对N2S的实施可在线获得。
translated by 谷歌翻译
我们建议一个基于深入强化学习的经理工作框架,以解决旅行推销员问题(TSP)的艰难而又非平凡的变体,\ ie〜有时间窗口和拒绝(MTSPTWR)的多车辆TSP(MTSPTWR),在此之前无法服务的客户截止日期将受到拒绝。特别是,在拟议的框架中,经理代理人通过基于图形同构网络(GIN)的策略网络将客户分配给每辆车,从而将MTSPTWR分为子路由任务。工人代理人通过根据每辆车的旅行长度和拒绝率来最大程度地降低成本来解决子路由任务,然后将其最多的最大值送回经理代理以学习更好的任务。实验结果表明,所提出的框架在更高的解决方案质量和较短的计算时间方面优于强基础。更重要的是,训练有素的代理商还取得了竞争性能,以解决看不见的较大实例。
translated by 谷歌翻译
机器学习(ML)方法已成为解决车辆路由问题的有用工具,可以与流行的启发式方法或独立模型结合使用。但是,当解决不同大小或不同分布的问题时,当前的方法的概括不佳。结果,车辆路由中的ML见证了一个扩展阶段,为特定问题实例创建了新方法,这些方法在较大的问题大小上变得不可行。本文旨在通过理解和改善当前现有模型,即Kool等人的注意模型来鼓励该领域的整合。我们确定了VRP概括的两个差异类别。第一个是基于问题本身固有的差异,第二个与限制模型概括能力的建筑弱点有关。我们的贡献变成了三倍:我们首先通过适应Kool等人来靶向模型差异。方法及其基于alpha-entmax激活的稀疏动态注意力的损耗函数。然后,我们通过使用混合实例训练方法来靶向固有的差异,该方法已被证明在某些情况下超过了单个实例培训。最后,我们介绍了推理水平数据增强的框架,该框架通过利用模型缺乏旋转和扩张变化的不变性来提高性能。
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
组合优化问题在许多实际情况(例如物流和生产)中遇到,但是精确的解决方案尤其难以找到,通常对于大量的问题大小而言,通常是NP-HARD。为了计算近似解决方案,通常使用局部搜索的通用和特定问题的动物园。但是,哪种变体适用于哪种特定问题,即使对于专家来说也很难决定。在本文中,我们确定了这种本地搜索算法的三个独立算法方面,并将其在优化过程中正式选择为马尔可夫决策过程(MDP)。我们将深图神经网络设计为该MDP的策略模型,为当地搜索提供了一个名为Neurols的局部搜索控制器。充分的实验证据表明,神经元能够胜过操作研究和最新基于机器学习的方法的众所周知的通用本地搜索控制器。
translated by 谷歌翻译
解决组合优化(CO)问题的传统求解器通常是由人类专家设计的。最近,人们对利用深度学习,尤其是深度强化学习的兴趣激增,自动为CO学习有效的求解器。由此产生的新范式称为神经组合优化(NCO)。但是,在经验或理论上,NCO的优势和缺点与其他方法的优势尚未得到很好的研究。在这项工作中,我们介绍了NCO求解器和替代求解器的全面比较研究。具体而言,将旅行推销员问题作为测试床问题,我们根据五个方面(即有效性,效率,稳定性,可扩展性和概括能力)评估求解器的性能。我们的结果表明,通常,NCO方法学到的求解器几乎在所有这些方面仍然没有传统求解器。前者的潜在好处将是在有足够的培训实例时,他们在小规模的问题实例上的卓越时间和能源效率。我们希望这项工作将有助于更好地理解NCO的优势和劣势,并提供全面的评估协议,以进一步对NCO进行针对其他方法的基准测试。
translated by 谷歌翻译
广泛研究和使用旅行推销员问题等图形问题,如旅行推销员问题,或发现最小的施泰纳树在数据工程和计算机科学中使用。通常,在现实世界应用中,图表的特征往往会随着时间的推移而变化,因此,找到问题的解决方案变得具有挑战性。许多图表问题的动态版本是运输,电信和社交网络中普遍世界问题的关键。近年来,利用深度学习技术来寻找NP-Hard图组合问题的启发式解决方案,因为这些学习的启发式可以有效地找到近最佳解决方案。但是,大多数现有的学习启发式方法都关注静态图问题。动态性质使NP-Hard图表问题更具挑战性,并且现有方法无法找到合理的解决方案。在本文中,我们提出了一种名为Cabl时间关注的新型建筑,并利用加固学习(GTA-RL)来学习基于图形的动态组合优化问题的启发式解决方案。 GTA-RL架构包括能够嵌入组合问题实例的时间特征的编码器和能够动态地关注嵌入功能的解码器,以找到给定组合问题实例的解决方案。然后,我们将架构扩展到学习HeuRistics的组合优化问题的实时版本,其中问题的所有输入特征是未知的,而是实时学习。我们针对几种最先进的基于学习的算法和最佳求解器的实验结果表明,我们的方法在动态和效率方面,在有效性和最佳求解器方面优于基于最先进的学习方法。实时图组合优化。
translated by 谷歌翻译
组合优化的神经方法(CO)配备了一种学习机制,以发现解决复杂现实世界问题的强大启发式方法。尽管出现了能够在单一镜头中使用高质量解决方案的神经方法,但最先进的方法通常无法充分利用他们可用的解决时间。相比之下,手工制作的启发式方法可以很好地执行高效的搜索并利用给他们的计算时间,但包含启发式方法,这些启发式方法很难适应要解决的数据集。为了为神经CO方法提供强大的搜索程序,我们提出了模拟引导的光束搜索(SGB),该搜索(SGB)在固定宽度的树搜索中检查了候选解决方案,既是神经网络学习的政策又是模拟(推出)确定有希望的。我们将SGB与有效的主动搜索(EAS)进一步融合,其中SGB提高了EAS中反向传播的解决方案的质量,EAS提高了SGB中使用的策略的质量。我们评估了有关众所周知的CO基准的方法,并表明SGB可显着提高在合理的运行时假设下发现的解决方案的质量。
translated by 谷歌翻译
最近的研究表明,神经组合优化(NCO)在许多组合优化问题(如路由)中具有优于传统算法的优点,但是对于涉及相互条件的动作空间的包装,诸如打包的更加复杂的优化任务的效率较低。在本文中,我们提出了一种经常性的条件查询学习(RCQL)方法来解决2D和3D包装问题。我们首先通过经常性编码器嵌入状态,然后采用先前操作的条件查询注意。条件查询机制填充了学习步骤之间的信息差距,将问题塑造为Markov决策过程。从复发中受益,单个RCQL模型能够处理不同尺寸的包装问题。实验结果表明,RCQL可以有效地学习用于离线和在线条带包装问题(SPP)的强烈启发式,优于空间利用率范围广泛的基线。 RCQL与最先进的方法相比,在离线2D 40盒案例中将平均箱间隙比率降低1.83%,3.84%。同时,我们的方法还实现了5.64%的空间利用率,对于1000件物品的空间利用率比现有技术更高。
translated by 谷歌翻译
学习解决组合优化问题,例如车辆路径问题,提供古典运营研究求解器和启发式的巨大计算优势。最近开发的深度加强学习方法迭代或顺序地构建一组个别旅游的最初给定的解决方案。然而,大多数现有的基于学习的方法都无法为固定数量的车辆工作,从而将客户的复杂分配问题绕过APRIORI给定数量的可用车辆。另一方面,这使得它们不太适合真实应用程序,因为许多物流服务提供商依赖于提供的解决方案提供了特定的界限船队规模,并且无法适应车辆数量的短期更改。相比之下,我们提出了一个强大的监督深度学习框架,在尊重APRiori固定数量的可用车辆的同时构建完整的旅游计划。与高效的后处理方案结合,我们的监督方法不仅要快得多,更容易训练,而且还实现了包含车辆成本的实际方面的竞争结果。在彻底的控制实验中,我们将我们的方法与我们展示稳定性能的多种最先进的方法进行比较,同时利用较少的车辆并在相关工作的实验协议中存在一些亮点。
translated by 谷歌翻译
In recent years, methods based on deep neural networks, and especially Neural Improvement (NI) models, have led to a revolution in the field of combinatorial optimization. Given an instance of a graph-based problem and a candidate solution, they are able to propose a modification rule that improves its quality. However, existing NI approaches only consider node features and node-wise positional encodings to extract the instance and solution information, respectively. Thus, they are not suitable for problems where the essential information is encoded in the edges. In this paper, we present a NI model to solve graph-based problems where the information is stored either in the nodes, in the edges, or in both of them. We incorporate the NI model as a building block of hill-climbing-based algorithms to efficiently guide the election of neighborhood operations considering the solution at that iteration. Conducted experiments show that the model is able to recommend neighborhood operations that are in the $99^{th}$ percentile for the Preference Ranking Problem. Moreover, when incorporated to hill-climbing algorithms, such as Iterated or Multi-start Local Search, the NI model systematically outperforms the conventional versions. Finally, we demonstrate the flexibility of the model by extending the application to two well-known problems: the Traveling Salesman Problem and the Graph Partitioning Problem.
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
回溯搜索算法通常用于解决约束满足问题(CSP)。回溯搜索的效率在很大程度上取决于可变排序启发式。目前,最常用的启发式是根据专家知识进行手工制作的。在本文中,我们提出了一种基于深度的加强学习方法,可以自动发现新的变量订购启发式,更好地适用于给定类CSP实例。我们显示,直接优化搜索成本很难用于自动启动,并建议优化在搜索树中到达叶节点的预期成本。为了捕获变量和约束之间的复杂关系,我们设计基于图形神经网络的表示方案,可以处理具有不同大小和约束的CSP实例。随机CSP实例上的实验结果表明,学习的政策在最小化搜索树大小的方面优于古典手工制作的启发式,并且可以有效地推广到比训练中使用的实例。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
用于图形组合优化问题的神经网络溶剂的端到端培训,例如旅行销售人员问题(TSP)最近看到了感兴趣的激增,但在几百节节点的图表中保持棘手和效率低下。虽然最先进的学习驱动的方法对于TSP在培训的古典索引时与古典求解器密切相关,但它们无法通过实际尺度的实际情况概括到更大的情况。这项工作提出了一个端到端的神经组合优化流水线,统一几个卷纸,以确定促进比在训练中看到的实例的概括的归纳偏差,模型架构和学习算法。我们的受控实验提供了第一个原则上调查这种零拍摄的概括,揭示了超越训练数据的推断需要重新思考从网络层和学习范例到评估协议的神经组合优化流水线。此外,我们分析了深入学习的最近进步,通过管道的镜头路由问题,并提供新的方向,以刺激未来的研究。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
SNCF, the French public train company, is experimenting to develop new types of transportation services by tackling vehicle routing problems. While many deep learning models have been used to tackle efficiently vehicle routing problems, it is difficult to take into account time related constraints. In this paper, we solve the Capacitated Vehicle Routing Problem with Time Windows (CVRPTW) and the Capacitated Pickup and Delivery Problem with Time Windows (CPDPTW) with a constructive iterative Deep Learning algorithm. We use an Attention Encoder-Decoder structure and design a novel insertion heuristic for the feasibility check of the CPDPTW. Our models yields results that are better than best known learning solutions on the CVRPTW. We show the feasibility of deep learning techniques for solving the CPDPTW but witness the limitations of our iterative approach in terms of computational complexity.
translated by 谷歌翻译
Influence Maximization (IM) is a classical combinatorial optimization problem, which can be widely used in mobile networks, social computing, and recommendation systems. It aims at selecting a small number of users such that maximizing the influence spread across the online social network. Because of its potential commercial and academic value, there are a lot of researchers focusing on studying the IM problem from different perspectives. The main challenge comes from the NP-hardness of the IM problem and \#P-hardness of estimating the influence spread, thus traditional algorithms for overcoming them can be categorized into two classes: heuristic algorithms and approximation algorithms. However, there is no theoretical guarantee for heuristic algorithms, and the theoretical design is close to the limit. Therefore, it is almost impossible to further optimize and improve their performance. With the rapid development of artificial intelligence, the technology based on Machine Learning (ML) has achieved remarkable achievements in many fields. In view of this, in recent years, a number of new methods have emerged to solve combinatorial optimization problems by using ML-based techniques. These methods have the advantages of fast solving speed and strong generalization ability to unknown graphs, which provide a brand-new direction for solving combinatorial optimization problems. Therefore, we abandon the traditional algorithms based on iterative search and review the recent development of ML-based methods, especially Deep Reinforcement Learning, to solve the IM problem and other variants in social networks. We focus on summarizing the relevant background knowledge, basic principles, common methods, and applied research. Finally, the challenges that need to be solved urgently in future IM research are pointed out.
translated by 谷歌翻译
路由问题是许多实际应用的一类组合问题。最近,已经提出了端到端的深度学习方法,以了解这些问题的近似解决方案启发式。相比之下,经典动态编程(DP)算法保证最佳解决方案,但与问题大小严重规模。我们提出了深入的政策动态规划(DPDP),旨在将学习神经启发式的优势与DP算法结合起来。 DPDP优先确定并限制DP状态空间,使用来自深度神经网络的策略进行培训,以预测示例解决方案的边缘。我们在旅行推销员问题(TSP)上评估我们的框架,车辆路由问题(VRP)和TSP与时间窗口(TSPTW),并表明神经政策提高了(限制性)DP算法的性能,使其对强有力的替代品具有竞争力如LKH,同时也优于求解TSP,VRP和TSPTWS的大多数其他“神经方法”,其中包含100个节点。
translated by 谷歌翻译