由于货运车数量的增加,在城市地区采用了电动汽车(EV),以减少环境污染和全球变暖。但是,路由最后一英里物流的轨迹仍在继续影响社会和经济可持续性时仍然存在缺陷。因此,在本文中,提出了一种称为超高神性自适应模拟退火的超增压性(HH)方法,并提出了增强学习(HHASA $ _ {RL} $)。它由多军匪徒方法和自适应模拟退火(SA)元启示术算法组成,用于解决该问题称为电容的电动汽车路由问题(CEVRP)。由于充电站数量有限和电动汽车的旅行范围,因此电动汽车必须提前为电池充电时刻,并减少旅行时间和成本。 HH实施的HH改善了多个最低最低知名解决方案,并为IEEE WCCI2020竞赛的拟议基准测试获得了一些高维实例的最佳平均值。
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的,但不仅限于预定义的集合,因此请求服务的客户是可变的,因为它们可能出现在给定的服务领域的任何地方。此外,需求量是随机的,并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP,具有高度可变的客户基础和随机需求(VRP-VCSD)。对于这个问题,我们首先提出了马尔可夫决策过程(MDP)的配方,该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手,但它为我们提供了开发新的MDP公式的地面,我们称其为部分分散。在此公式中,动作空间被车辆分解。但是,由于我们执行相同的车辆特定政策,同时优化集体奖励,因此权力下放是不完整的。我们提出了几种策略,以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题,我们通过加强学习来解决。特别是,我们开发了一种称为DECQN的Q学习算法,具有最先进的加速技术。我们进行了彻底的计算分析。结果表明,DECN的表现大大优于三个基准策略。此外,我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争,在该情况下,客户位置和预期需求是事先知道的。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
列生成是一种用于解决各种优化问题的迭代方法。它将问题分解为两部分:主问题,以及一个或多个定价问题(PP)。该方法采取的总计计算时间在这两个部分之间划分。在路由或调度应用程序中,问题主要在网络上定义,并且PP通常是具有资源约束的NP-难以最短的路径问题。在这项工作中,我们提出了一种基于机器学习的新的启发式定价算法。通过利用先前执行期间收集的数据,目标是减小网络的大小并加速PP,仅保持具有高机会的弧形成为线性松弛解决方案的一部分。该方法已应用于两个特定问题:在公共交通中的车辆和船员调度问题以及时间窗口的车辆路由问题。可以获得高达40%的计算时间的减少。
translated by 谷歌翻译
在带有电动车队的乘车系统中,充电是一个复杂的决策过程。大多数电动汽车(EV)出租车服务要求驾驶员做出利己主义决定,从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态,因此无法做出最佳的决定。大多数现有方法都不将时间,位置和持续时间结合到全面的控制算法中,也不适合实时操作。因此,我们提出了一种实时预测性充电方法,用于使用一个名为“闲置时间开发(ITX)”的单个操作员进行乘车服务,该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对,以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明,就货币奖励功能而言,ITX的表现优于所有基线方法至少提高5%(相当于6,000个车辆操作的$ 70,000),该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外,与基线方法相比,ITX可以将延迟至少减少4.68%,并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明,ITX使车辆能够在白天收获能量,稳定电池水平,并增加需求意外激增的弹性。最后,与表现最佳的基线策略相比,峰值负载减少了17.39%,这使网格操作员受益,并为更可持续的电网使用铺平了道路。
translated by 谷歌翻译
在本文中,我们介绍了嵌套推出策略适应算法(NRPA)的扩展,即广义嵌套的卷展策略适应(GNRPA),以及用于解决车辆路由问题的某些实例的用途。我们详细介绍了在所罗门实例集上获得的结果,这是车辆路由问题(VRP)的传统基准。我们展示了所有情况,GNRPA比NRPA更好。在某些情况下,它比专用于VRP的谷歌或工具模块更好。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
组合优化问题在许多实际情况(例如物流和生产)中遇到,但是精确的解决方案尤其难以找到,通常对于大量的问题大小而言,通常是NP-HARD。为了计算近似解决方案,通常使用局部搜索的通用和特定问题的动物园。但是,哪种变体适用于哪种特定问题,即使对于专家来说也很难决定。在本文中,我们确定了这种本地搜索算法的三个独立算法方面,并将其在优化过程中正式选择为马尔可夫决策过程(MDP)。我们将深图神经网络设计为该MDP的策略模型,为当地搜索提供了一个名为Neurols的局部搜索控制器。充分的实验证据表明,神经元能够胜过操作研究和最新基于机器学习的方法的众所周知的通用本地搜索控制器。
translated by 谷歌翻译
Metaheuristics are popularly used in various fields, and they have attracted much attention in the scientific and industrial communities. In recent years, the number of new metaheuristic names has been continuously growing. Generally, the inventors attribute the novelties of these new algorithms to inspirations from either biology, human behaviors, physics, or other phenomena. In addition, these new algorithms, compared against basic versions of other metaheuristics using classical benchmark problems without shift/rotation, show competitive performances. In this study, we exhaustively tabulate more than 500 metaheuristics. To comparatively evaluate the performance of the recent competitive variants and newly proposed metaheuristics, 11 newly proposed metaheuristics and 4 variants of established metaheuristics are comprehensively compared on the CEC2017 benchmark suite. In addition, whether these algorithms have a search bias to the center of the search space is investigated. The results show that the performance of the newly proposed EBCM (effective butterfly optimizer with covariance matrix adaptation) algorithm performs comparably to the 4 well performing variants of the established metaheuristics and possesses similar properties and behaviors, such as convergence, diversity, exploration and exploitation trade-offs, in many aspects. The performance of all 15 of the algorithms is likely to deteriorate due to certain transformations, while the 4 state-of-the-art metaheuristics are less affected by transformations such as the shifting of the global optimal point away from the center of the search space. It should be noted that, except EBCM, the other 10 new algorithms proposed mostly during 2019-2020 are inferior to the well performing 2017 variants of differential evolution and evolution strategy in terms of convergence speed and global search ability on CEC 2017 functions.
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
In the last years, there has been a great interest in machine-learning-based heuristics for solving NP-hard combinatorial optimization problems. The developed methods have shown potential on many optimization problems. In this paper, we present a learned heuristic for the reoptimization of a problem after a minor change in its data. We focus on the case of the capacited vehicle routing problem with static clients (i.e., same client locations) and changed demands. Given the edges of an original solution, the goal is to predict and fix the ones that have a high chance of remaining in an optimal solution after a change of client demands. This partial prediction of the solution reduces the complexity of the problem and speeds up its resolution, while yielding a good quality solution. The proposed approach resulted in solutions with an optimality gap ranging from 0\% to 1.7\% on different benchmark instances within a reasonable computing time.
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
作为旅行维修人员的延伸,利润的问题,利润的多个旅行修理员问题包括多个维修门,他们访问所有客户的子集,以最大限度地通过访问客户收集的收入。为了解决这一具有挑战性的问题,提出了一种基于麦克算法框架的有效的混合搜索算法。它集成了两个杰出的特征:基于专用的基于弧形的交叉来产生高质量的后代解决方案和快速评估技术,以降低探索经典社区的复杂性。我们在470个基准实例上显示了算法与前导参考算法相比的竞争力,并为其他330个实例报告了137个实例的新的最佳记录以及相同的最佳结果。我们调查了算法的关键搜索组件的重要性。
translated by 谷歌翻译
旅行推销员问题(TSP)是许多实用变体的经典NP-HARD组合优化问题。 Lin-Kernighan-Helsgaun(LKH)算法是TSP的最先进的本地搜索算法之一,LKH-3是LKH的强大扩展,可以解决许多TSP变体。 LKH和LKH-3都将一个候选人与每个城市相关联,以提高算法效率,并具有两种不同的方法,称为$ \ alpha $ - 计算和Popmusic,以决定候选人集。在这项工作中,我们首先提出了一种可变策略加强LKH(VSR-LKH)算法,该算法将三种强化学习方法(Q-Learning,SARSA和Monte Carlo)与LKH算法结合在一起,以解决TSP。我们进一步提出了一种称为VSR-LKH-3的新算法,该算法将可变策略强化学习方法与LKH-3结合在一起,用于典型的TSP变体,包括带有时间窗口(TSPTW)和彩色TSP(CTSP)的TSP。所提出的算法取代了LKH和LKH-3中的不灵活的遍历操作,并让算法学会通过增强学习在每个搜索步骤中做出选择。 LKH和LKH-3都具有$ \ alpha $量或Popmusic方法,我们的方法都可以显着改善。具体而言,对236个公共和广泛使用的TSP基准的经验结果具有多达85,900个城市,证明了VSR-LKH的出色表现,扩展的VSR-LKH-3也显着超过了TSPTW和TSPTW和TSPTW和TSPTW的最新启发式方法CTSP。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
在本文中,我们研究了电子商务运营商面临的顺序决策问题,与何时从中央仓库发送车辆以服务于客户请求,并在哪个命令下提供服务,假设是在到达仓库的包裹是随机且动态的。目的是最大化在服务时间内可以交付的包裹数。我们提出了两种解决此问题的强化学习方法,一种基于策略函数近似(PFA),第二种基于值函数近似(VFA)。两种方法都与前景策略相结合,其中未来发布日期以蒙特卡洛的方式进行采样,并使用量身定制的批处理方法来近似未来状态的价值。我们的PFA和VFA很好地利用了基于分支机构的精确方法来提高决策质量。我们还建立了足够的条件,可以将最佳策略的部分表征并将其集成到PFA/VFA中。在基于720个基准实例的实证研究中,我们使用具有完美信息的上限进行了竞争分析,我们表明PFA和VFA的表现极大地超过了两种替代近视方法。总体而言,PFA提供最佳解决方案,而VFA(从两阶段随机优化模型中受益)在解决方案质量和计算时间之间取得了更好的权衡。
translated by 谷歌翻译
学习解决组合优化问题,例如车辆路径问题,提供古典运营研究求解器和启发式的巨大计算优势。最近开发的深度加强学习方法迭代或顺序地构建一组个别旅游的最初给定的解决方案。然而,大多数现有的基于学习的方法都无法为固定数量的车辆工作,从而将客户的复杂分配问题绕过APRIORI给定数量的可用车辆。另一方面,这使得它们不太适合真实应用程序,因为许多物流服务提供商依赖于提供的解决方案提供了特定的界限船队规模,并且无法适应车辆数量的短期更改。相比之下,我们提出了一个强大的监督深度学习框架,在尊重APRiori固定数量的可用车辆的同时构建完整的旅游计划。与高效的后处理方案结合,我们的监督方法不仅要快得多,更容易训练,而且还实现了包含车辆成本的实际方面的竞争结果。在彻底的控制实验中,我们将我们的方法与我们展示稳定性能的多种最先进的方法进行比较,同时利用较少的车辆并在相关工作的实验协议中存在一些亮点。
translated by 谷歌翻译
组合优化的神经方法(CO)配备了一种学习机制,以发现解决复杂现实世界问题的强大启发式方法。尽管出现了能够在单一镜头中使用高质量解决方案的神经方法,但最先进的方法通常无法充分利用他们可用的解决时间。相比之下,手工制作的启发式方法可以很好地执行高效的搜索并利用给他们的计算时间,但包含启发式方法,这些启发式方法很难适应要解决的数据集。为了为神经CO方法提供强大的搜索程序,我们提出了模拟引导的光束搜索(SGB),该搜索(SGB)在固定宽度的树搜索中检查了候选解决方案,既是神经网络学习的政策又是模拟(推出)确定有希望的。我们将SGB与有效的主动搜索(EAS)进一步融合,其中SGB提高了EAS中反向传播的解决方案的质量,EAS提高了SGB中使用的策略的质量。我们评估了有关众所周知的CO基准的方法,并表明SGB可显着提高在合理的运行时假设下发现的解决方案的质量。
translated by 谷歌翻译