在本文中,我们介绍了嵌套推出策略适应算法(NRPA)的扩展,即广义嵌套的卷展策略适应(GNRPA),以及用于解决车辆路由问题的某些实例的用途。我们详细介绍了在所罗门实例集上获得的结果,这是车辆路由问题(VRP)的传统基准。我们展示了所有情况,GNRPA比NRPA更好。在某些情况下,它比专用于VRP的谷歌或工具模块更好。
translated by 谷歌翻译
由于货运车数量的增加,在城市地区采用了电动汽车(EV),以减少环境污染和全球变暖。但是,路由最后一英里物流的轨迹仍在继续影响社会和经济可持续性时仍然存在缺陷。因此,在本文中,提出了一种称为超高神性自适应模拟退火的超增压性(HH)方法,并提出了增强学习(HHASA $ _ {RL} $)。它由多军匪徒方法和自适应模拟退火(SA)元启示术算法组成,用于解决该问题称为电容的电动汽车路由问题(CEVRP)。由于充电站数量有限和电动汽车的旅行范围,因此电动汽车必须提前为电池充电时刻,并减少旅行时间和成本。 HH实施的HH改善了多个最低最低知名解决方案,并为IEEE WCCI2020竞赛的拟议基准测试获得了一些高维实例的最佳平均值。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
在本文中,我们研究了电子商务运营商面临的顺序决策问题,与何时从中央仓库发送车辆以服务于客户请求,并在哪个命令下提供服务,假设是在到达仓库的包裹是随机且动态的。目的是最大化在服务时间内可以交付的包裹数。我们提出了两种解决此问题的强化学习方法,一种基于策略函数近似(PFA),第二种基于值函数近似(VFA)。两种方法都与前景策略相结合,其中未来发布日期以蒙特卡洛的方式进行采样,并使用量身定制的批处理方法来近似未来状态的价值。我们的PFA和VFA很好地利用了基于分支机构的精确方法来提高决策质量。我们还建立了足够的条件,可以将最佳策略的部分表征并将其集成到PFA/VFA中。在基于720个基准实例的实证研究中,我们使用具有完美信息的上限进行了竞争分析,我们表明PFA和VFA的表现极大地超过了两种替代近视方法。总体而言,PFA提供最佳解决方案,而VFA(从两阶段随机优化模型中受益)在解决方案质量和计算时间之间取得了更好的权衡。
translated by 谷歌翻译
车辆路由问题是文献中众所周知的NP-HARD组合优化问题。传统的解决方案方法涉及精心设计的启发式方法或耗时的元启发术。强化学习的最新工作一直是一种有希望的替代方法,但发现在解决方案质量方面很难与传统方法竞争。本文提出了一种混合方法,结合了加强学习,政策推出和可满足性的求解器,以实现计算时间和解决方案质量之间的可调整权衡。在流行的公共数据集中的结果表明,该算法能够比现有基于学习的方法更接近最佳水平,而计算时间较短。该方法需要最少的设计工作,并且能够在没有额外培训的情况下解决看不见的任意规模问题。此外,该方法可以推广到其他组合优化问题。
translated by 谷歌翻译
列生成是一种用于解决各种优化问题的迭代方法。它将问题分解为两部分:主问题,以及一个或多个定价问题(PP)。该方法采取的总计计算时间在这两个部分之间划分。在路由或调度应用程序中,问题主要在网络上定义,并且PP通常是具有资源约束的NP-难以最短的路径问题。在这项工作中,我们提出了一种基于机器学习的新的启发式定价算法。通过利用先前执行期间收集的数据,目标是减小网络的大小并加速PP,仅保持具有高机会的弧形成为线性松弛解决方案的一部分。该方法已应用于两个特定问题:在公共交通中的车辆和船员调度问题以及时间窗口的车辆路由问题。可以获得高达40%的计算时间的减少。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
我们介绍了多模式的汽车和乘车共享问题(MMCRP),其中使用一台汽车来涵盖一组乘车请求,同时将发现的请求分配给其他运输方式(MOT)。汽车的路线由一次或多个旅行组成。每次旅行都必须具有特定但不明的驱动程序,以仓库开始,然后以(可能不同的)仓库结束。即使两个骑行没有相同的起源和/或目的地,也允许在用户之间共享骑行。用户始终可以根据各个首选项列表使用其他运输方式。该问题可以作为车辆调度问题提出。为了解决该问题,构建了一个辅助图,在该图中,每次旅行在仓库中的启动和结尾,并覆盖可能的乘车共享,以时空图中的形式建模为弧。我们提出了一种基于列生成的两层分解算法,其中主问题可确保最多只能涵盖每个请求,并且定价问题通过在时间 - 时间中解决一种最短路径问题来生成新的有希望的路线空间网络。报告了基于现实实例的计算实验。基准实例基于奥地利维也纳的人口,空间和经济数据。我们通过在合理时间内基于列生成的方法来解决大型实例,并进一步研究了各种精确和启发式定价方案。
translated by 谷歌翻译
无人驾驶飞机(UAV)是飞机,其飞行可以完全自主,而无需任何人为干预。自然灾害管理是可以使用无人机的最有用和最有前途的领域之一。在本文中,我们专注于紧急情况,并提出使用无人机机队,以帮助营救团队个性化受影响区域内需要帮助的人。我们将这种情况建模为原始图理论问题,称为多部门多行车路由问题,总完成时间最小化(MDMT-VRP-TCT);我们经历了一些与之相似的文献研究中已经研究的问题,并突出了差异,提出了作为MILP作为MILP的数学表述,设计了一种数学框架来快速解决大型实例,并在实验中测试其性能。除了提出的应用程序之外,我们的解决方案在任何情况下都必须解决多部多行车路由问题的任何情况。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的,但不仅限于预定义的集合,因此请求服务的客户是可变的,因为它们可能出现在给定的服务领域的任何地方。此外,需求量是随机的,并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP,具有高度可变的客户基础和随机需求(VRP-VCSD)。对于这个问题,我们首先提出了马尔可夫决策过程(MDP)的配方,该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手,但它为我们提供了开发新的MDP公式的地面,我们称其为部分分散。在此公式中,动作空间被车辆分解。但是,由于我们执行相同的车辆特定政策,同时优化集体奖励,因此权力下放是不完整的。我们提出了几种策略,以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题,我们通过加强学习来解决。特别是,我们开发了一种称为DECQN的Q学习算法,具有最先进的加速技术。我们进行了彻底的计算分析。结果表明,DECN的表现大大优于三个基准策略。此外,我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争,在该情况下,客户位置和预期需求是事先知道的。
translated by 谷歌翻译
在带有电动车队的乘车系统中,充电是一个复杂的决策过程。大多数电动汽车(EV)出租车服务要求驾驶员做出利己主义决定,从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态,因此无法做出最佳的决定。大多数现有方法都不将时间,位置和持续时间结合到全面的控制算法中,也不适合实时操作。因此,我们提出了一种实时预测性充电方法,用于使用一个名为“闲置时间开发(ITX)”的单个操作员进行乘车服务,该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对,以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明,就货币奖励功能而言,ITX的表现优于所有基线方法至少提高5%(相当于6,000个车辆操作的$ 70,000),该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外,与基线方法相比,ITX可以将延迟至少减少4.68%,并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明,ITX使车辆能够在白天收获能量,稳定电池水平,并增加需求意外激增的弹性。最后,与表现最佳的基线策略相比,峰值负载减少了17.39%,这使网格操作员受益,并为更可持续的电网使用铺平了道路。
translated by 谷歌翻译
SNCF, the French public train company, is experimenting to develop new types of transportation services by tackling vehicle routing problems. While many deep learning models have been used to tackle efficiently vehicle routing problems, it is difficult to take into account time related constraints. In this paper, we solve the Capacitated Vehicle Routing Problem with Time Windows (CVRPTW) and the Capacitated Pickup and Delivery Problem with Time Windows (CPDPTW) with a constructive iterative Deep Learning algorithm. We use an Attention Encoder-Decoder structure and design a novel insertion heuristic for the feasibility check of the CPDPTW. Our models yields results that are better than best known learning solutions on the CVRPTW. We show the feasibility of deep learning techniques for solving the CPDPTW but witness the limitations of our iterative approach in terms of computational complexity.
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
我们考虑了提高柱生成效率(CG)方法的方法,以解决车辆路由问题。我们介绍了CG配方中常用的NG-Route松弛度和降低状态空间松弛(DSSR)的替代/补充,我们引入了局部区域(LA)路线。 LA路线是NG路由的子集和基本路线的超级集合。通常,CG的定价阶段必须产生基本路线,这些路线是没有重复客户的路线,使用可能在计算上昂贵的流程。非元素路线至少访问至少一个客户,创建一个周期。 LA路线以允许有效定价的方式放松成为基本途径的约束。从NG-Route放松方面,最好理解LA路线。 NG路由是允许在空间中具有非定位循环的路线。这意味着周期中至少有一个中间客户(称为断路器)必须考虑到周期中的起始客户在空间上远离。使用一组特殊索引来描述LA路线,该特殊索引与从开始到路线尽头的路线上的客户相对应。 LA路线的松弛进一步限制了一组允许的周期,除了强制执行断路器必须位于特殊索引中,该循环均超出了NG路由,其中​​一组特殊索引被递归地定义为如下。该路线中的第一个特殊索引是索引1,这意味着它与路线中的第一个客户关联。 K'th特殊索引对应于K-1第三个特殊索引之后的第一个客户,该索引并非被认为是(在空间上被认为是远离K-1'TEXPATEX的客户)的邻居。我们证明,与标准DSSR相比,LA路线松弛可以显着提高定价的计算速度。
translated by 谷歌翻译
In the last years, there has been a great interest in machine-learning-based heuristics for solving NP-hard combinatorial optimization problems. The developed methods have shown potential on many optimization problems. In this paper, we present a learned heuristic for the reoptimization of a problem after a minor change in its data. We focus on the case of the capacited vehicle routing problem with static clients (i.e., same client locations) and changed demands. Given the edges of an original solution, the goal is to predict and fix the ones that have a high chance of remaining in an optimal solution after a change of client demands. This partial prediction of the solution reduces the complexity of the problem and speeds up its resolution, while yielding a good quality solution. The proposed approach resulted in solutions with an optimality gap ranging from 0\% to 1.7\% on different benchmark instances within a reasonable computing time.
translated by 谷歌翻译
作为旅行维修人员的延伸,利润的问题,利润的多个旅行修理员问题包括多个维修门,他们访问所有客户的子集,以最大限度地通过访问客户收集的收入。为了解决这一具有挑战性的问题,提出了一种基于麦克算法框架的有效的混合搜索算法。它集成了两个杰出的特征:基于专用的基于弧形的交叉来产生高质量的后代解决方案和快速评估技术,以降低探索经典社区的复杂性。我们在470个基准实例上显示了算法与前导参考算法相比的竞争力,并为其他330个实例报告了137个实例的新的最佳记录以及相同的最佳结果。我们调查了算法的关键搜索组件的重要性。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译