对同日发货(SDD)的需求在过去几年中迅速增加,并在Covid-19大流行期间特别蓬勃发展。快速增长并非没有挑战。 2016年,由于较低的成员资格和距离仓库的距离远远,某些少数民族社区被排除在接受亚马逊的SDD服务之外,提高了对公平的担忧。在本文中,我们研究了向客户提供公平的SDD服务的问题。服务区域被分成不同的区域。在一天中,客户请求SDD服务以及请求和交付位置的时机未提前知道。调度员动态分配车辆,以便在交付截止日期前将交付给予接受客户。除整体服务率(实用程序)外,我们还最大限度地提高了所有地区的最小区域服务率(公平性)。我们将问题模拟为多目标马尔可夫决策过程,并开发深度Q学习解决方案方法。我们介绍了从税率到实际服务的新颖改造,从而创造了一个稳定和有效的学习过程。计算结果证明了我们对在不同客户地理位置中的空间和时间内的不公平性的方法的有效性。我们还表明,这种有效性有效地与不同的仓库位置有效,提供业务,其中有机会从任何位置实现更好的公平性。此外,我们考虑忽略公平性在服务中的影响,结果表明,当客户对服务水平的期望很高时,我们的政策最终越优越。
translated by 谷歌翻译
我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的,但不仅限于预定义的集合,因此请求服务的客户是可变的,因为它们可能出现在给定的服务领域的任何地方。此外,需求量是随机的,并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP,具有高度可变的客户基础和随机需求(VRP-VCSD)。对于这个问题,我们首先提出了马尔可夫决策过程(MDP)的配方,该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手,但它为我们提供了开发新的MDP公式的地面,我们称其为部分分散。在此公式中,动作空间被车辆分解。但是,由于我们执行相同的车辆特定政策,同时优化集体奖励,因此权力下放是不完整的。我们提出了几种策略,以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题,我们通过加强学习来解决。特别是,我们开发了一种称为DECQN的Q学习算法,具有最先进的加速技术。我们进行了彻底的计算分析。结果表明,DECN的表现大大优于三个基准策略。此外,我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争,在该情况下,客户位置和预期需求是事先知道的。
translated by 谷歌翻译
乘客和货物交付的可行性服务服务的无处不在的增长在运输系统领域内带来了各种挑战和机遇。因此,正在开发智能运输系统以最大限度地提高运营盈利能力,用户的便利性和环境可持续性。与riveShiening的最后一次交付的增长呼吁进行高效且凝聚力的系统,运输乘客和货物。现有方法使用静态路由方法来解决考虑到请求的需求和在路线规划期间车辆之间的货物转移。在本文中,我们为合并的商品和乘客运输提供了一种动态和需求意识的舰队管理框架,该乘客运输能够通过允许司机谈判到相互合适的价格中的决策过程中的乘客和司机。乘客接受/拒绝,(2)货物与车辆的匹配,以及货物的多跳转移,(3)基于该插入成本,在沿着它们的途径来动态地为每个车辆提供最佳路线,从而确定匹配的插入成本(4)使用深度加强学习(RL),(5)允许在每个车辆的分布推断,同时共同优化舰队目标,向预期的高乘客和商品需求调度怠速车辆。我们所提出的模型可在每个车辆内独立部署,因为这最大限度地减少了与分布式系统的增长相关的计算成本,并将其民主化决策对每个人进行决策。与各种车辆类型,商品和乘客效用的仿真表明,与不考虑联合负载运输或动态多跳路线规划的其他方法相比,我们的方法的有效性。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
在本文中,我们研究了电子商务运营商面临的顺序决策问题,与何时从中央仓库发送车辆以服务于客户请求,并在哪个命令下提供服务,假设是在到达仓库的包裹是随机且动态的。目的是最大化在服务时间内可以交付的包裹数。我们提出了两种解决此问题的强化学习方法,一种基于策略函数近似(PFA),第二种基于值函数近似(VFA)。两种方法都与前景策略相结合,其中未来发布日期以蒙特卡洛的方式进行采样,并使用量身定制的批处理方法来近似未来状态的价值。我们的PFA和VFA很好地利用了基于分支机构的精确方法来提高决策质量。我们还建立了足够的条件,可以将最佳策略的部分表征并将其集成到PFA/VFA中。在基于720个基准实例的实证研究中,我们使用具有完美信息的上限进行了竞争分析,我们表明PFA和VFA的表现极大地超过了两种替代近视方法。总体而言,PFA提供最佳解决方案,而VFA(从两阶段随机优化模型中受益)在解决方案质量和计算时间之间取得了更好的权衡。
translated by 谷歌翻译
在带有电动车队的乘车系统中,充电是一个复杂的决策过程。大多数电动汽车(EV)出租车服务要求驾驶员做出利己主义决定,从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态,因此无法做出最佳的决定。大多数现有方法都不将时间,位置和持续时间结合到全面的控制算法中,也不适合实时操作。因此,我们提出了一种实时预测性充电方法,用于使用一个名为“闲置时间开发(ITX)”的单个操作员进行乘车服务,该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对,以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明,就货币奖励功能而言,ITX的表现优于所有基线方法至少提高5%(相当于6,000个车辆操作的$ 70,000),该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外,与基线方法相比,ITX可以将延迟至少减少4.68%,并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明,ITX使车辆能够在白天收获能量,稳定电池水平,并增加需求意外激增的弹性。最后,与表现最佳的基线策略相比,峰值负载减少了17.39%,这使网格操作员受益,并为更可持续的电网使用铺平了道路。
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
我们考虑优化无人机中心的分布操作的问题,该驱动器调度无人机对不同地理位置产生随机需求的医疗用品的随机需求。无人机交付是一种创新方法,引入了许多益处,例如低接触的递送,从而降低了大流行和可染色疫苗的传播。虽然我们专注于这项工作的医疗供应,但无人机交付适用于许多其他物品,包括食品,邮政包和电子商务。在本文中,我们的目标是解决与不同地理位置随机需求相关的无人机交付挑战。我们认为与需要不同飞行范围的地理位置的不同课程,其与在无人机电池中保持的电荷量直接相关。我们根据从无人机中心的距离对随机需求进行分类,使用Markov决策过程来模拟问题,并使用代表突出的无人机交付公司的现实数据进行计算测试。我们使用强化学习方法解决问题,并与使用动态编程的确切解决方案相比,其高性能。最后,我们分析结果并提供管理无人机集线器操作的见解。
translated by 谷歌翻译
由于客户的好处(较低的价格),司机(更高收入),聚合公司(更高的收入)和环境(较少的车辆),按需乘坐游泳池(例如,优步池,抓取股份)变得非常受欢迎。匹配车辆与请求组合的显着计算复杂性意味着传统的乘坐汇集方法是近视,因为它们不考虑当前匹配对车辆/驱动程序的未来价值的影响。最近,神经近似动态编程(Neuradp)就使用了具有近似动态编程(ADP)的值分解来优于考虑各个代理(车辆)所选择的行动对该代理的未来价值的影响。但是,为了确保可扩展性和促进城市规模的乘坐汇集,Neuradp完全忽略了其他代理行为对个别代理/车辆价值的影响。正如我们实验结果所示,忽略其他代理对个人价值的行为的影响可能会对整体性能产生重大影响,因为当需求增加车辆之间的竞争时。我们的主要贡献是基于通过联合条件概率计算条件期望的新机制,以便在不增加培训或决策的复杂性的情况下捕获对其他代理行动的依赖性。我们表明,我们的新方法,条件基于期望的价值分解(CEVD)在服务的整体请求方面优先于Neuradp高达9.76%,这在城市宽的基准列表数据集中是一个重要的改进。
translated by 谷歌翻译
We consider the sequential decision-making problem of making proactive request assignment and rejection decisions for a profit-maximizing operator of an autonomous mobility on demand system. We formalize this problem as a Markov decision process and propose a novel combination of multi-agent Soft Actor-Critic and weighted bipartite matching to obtain an anticipative control policy. Thereby, we factorize the operator's otherwise intractable action space, but still obtain a globally coordinated decision. Experiments based on real-world taxi data show that our method outperforms state of the art benchmarks with respect to performance, stability, and computational tractability.
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
实际应用程序中的车辆路由问题(VRP)通常会带有各种限制,因此为精确的解决方案方法或启发式搜索方法带来了其他计算挑战。从样本数据中学习启发式移动模式的最新想法已变得越来越有希望减少解决方案发展成本。但是,使用基于学习的方法来解决更多类型的受限VRP仍然是一个挑战。困难在于在寻找最佳解决方案时控制约束违规。为了克服这一挑战,我们提出了一种基于加强学习的方法,通过纳入Lagrangian放松技术并使用受限的策略优化来解决软件限制的VRP。我们将该方法应用于三种常见类型的VRP,旅行推销员问题与时间窗口(TSPTW),电容性VRP(CVRP)和带有时间窗口(CVRPTW)的电容VRP,以显示所提出方法的普遍性。在与现有的基于RL的方法和开源启发式求解器进行比较之后,我们展示了其在旅行距离,违规距离和推理速度方面良好平衡的解决方案方面的竞争性能。
translated by 谷歌翻译
我们研究了大规模实时乘车系统的优化,并提出了一种模块化设计方法,用于乘车共享的组件算法(CAR)。我们评估了一套多种汽车(总共14辆),重点是乘车共享的关键算法组件。我们采用一种多目标方法,评估了与全球效率,复杂性,乘客,驾驶员和平台激励措施有关的12个指标,以在各个方面非常类似于现实,重点介绍了能力二的工具。据我们所知,这是迄今为止最大,最全面的评估。我们(i)确定在全球,乘客,驾驶员或平台指标上表现良好的汽车,(ii)证明,轻巧的搬迁计划可以显着提高服务质量高达$ 50 \%\%$,并且(iii)强调了一种实用的,一种实用的,在所有指标中都能很好地运行,可扩展的启动汽车。
translated by 谷歌翻译
预订控制问题是收入管理领域中发生的顺序决策问题。更确切地说,货运预订控制重点是决定接受或拒绝预订的问题:鉴于有限的能力,接受预订请求或拒绝其保留能力,以预订可能更高收入的未来预订。该问题可以作为有限的摩尼斯随机动态程序提出,其中接受一组请求会在预订期结束时获得利润,取决于履行公认的预订的成本。对于许多货运申请,可以通过解决操作决策问题来获得满足请求的成本,该问题通常需要解决混合组织线性计划的解决方案。在部署强化学习算法时,通常会常规地解决此类操作问题,这可能太耗时了。大多数预订控制策略是通过解决特定问题的数学编程松弛来获得的,这些松弛通常是不宽松的,无法推广到新问题,并且在某些情况下提供了相当粗糙的近似值。在这项工作中,我们提出了一种两阶段的方法:我们首先训练一个监督的学习模型来预测操作问题的目标,然后我们将模型部署在加固学习算法中以计算控制政策。这种方法是一般的:每当可以预测Horizo​​n操作问题的目标函数时,都可以使用它,并且特别适合那些此类问题在计算上很难的情况。此外,它允许人们利用加强学习的最新进展,因为常规解决操作问题被单个预测所取代。我们的方法对文献中的两个预订控制问题进行了评估,即分销物流和航空公司货物管理。
translated by 谷歌翻译
As various city agencies and mobility operators navigate toward innovative mobility solutions, there is a need for strategic flexibility in well-timed investment decisions in the design and timing of mobility service regions, i.e. cast as "real options" (RO). This problem becomes increasingly challenging with multiple interacting RO in such investments. We propose a scalable machine learning based RO framework for multi-period sequential service region design & timing problem for mobility-on-demand services, framed as a Markov decision process with non-stationary stochastic variables. A value function approximation policy from literature uses multi-option least squares Monte Carlo simulation to get a policy value for a set of interdependent investment decisions as deferral options (CR policy). The goal is to determine the optimal selection and timing of a set of zones to include in a service region. However, prior work required explicit enumeration of all possible sequences of investments. To address the combinatorial complexity of such enumeration, we propose a new variant "deep" RO policy using an efficient recurrent neural network (RNN) based ML method (CR-RNN policy) to sample sequences to forego the need for enumeration, making network design & timing policy tractable for large scale implementation. Experiments on multiple service region scenarios in New York City (NYC) shows the proposed policy substantially reduces the overall computational cost (time reduction for RO evaluation of > 90% of total investment sequences is achieved), with zero to near-zero gap compared to the benchmark. A case study of sequential service region design for expansion of MoD services in Brooklyn, NYC show that using the CR-RNN policy to determine optimal RO investment strategy yields a similar performance (0.5% within CR policy value) with significantly reduced computation time (about 5.4 times faster).
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
The electrification of shared mobility has become popular across the globe. Many cities have their new shared e-mobility systems deployed, with continuously expanding coverage from central areas to the city edges. A key challenge in the operation of these systems is fleet rebalancing, i.e., how EVs should be repositioned to better satisfy future demand. This is particularly challenging in the context of expanding systems, because i) the range of the EVs is limited while charging time is typically long, which constrain the viable rebalancing operations; and ii) the EV stations in the system are dynamically changing, i.e., the legitimate targets for rebalancing operations can vary over time. We tackle these challenges by first investigating rich sets of data collected from a real-world shared e-mobility system for one year, analyzing the operation model, usage patterns and expansion dynamics of this new mobility mode. With the learned knowledge we design a high-fidelity simulator, which is able to abstract key operation details of EV sharing at fine granularity. Then we model the rebalancing task for shared e-mobility systems under continuous expansion as a Multi-Agent Reinforcement Learning (MARL) problem, which directly takes the range and charging properties of the EVs into account. We further propose a novel policy optimization approach with action cascading, which is able to cope with the expansion dynamics and solve the formulated MARL. We evaluate the proposed approach extensively, and experimental results show that our approach outperforms the state-of-the-art, offering significant performance gain in both satisfied demand and net revenue.
translated by 谷歌翻译
钢筋学习最近在许多组合优化问题中显示了学习质量解决方案的承诺。特别地,基于注意的编码器 - 解码器模型在各种路由问题上显示出高效率,包括旅行推销员问题(TSP)。不幸的是,它们对具有无人机(TSP-D)的TSP表现不佳,需要在协调中路由车辆的异构队列 - 卡车和无人机。在TSP-D中,这两个车辆正在串联移动,并且可能需要在用于其他车辆的节点上等待加入。不那么关注的基于关注的解码器无法在车辆之间进行这种协调。我们提出了一种注意力编码器-LSTM解码器混合模型,其中解码器的隐藏状态可以代表所做的动作序列。我们经验证明,这种混合模型可提高基于纯粹的关注的模型,用于解决方案质量和计算效率。我们对MIN-MAX电容车辆路由问题(MMCVRP)的实验还确认混合模型更适合于多车辆的协调路由而不是基于注意的模型。
translated by 谷歌翻译
大规模乘车系统通常将各个请求级别的实时路由与宏观模型预测控制(MPC)优化相结合,用于动态定价和车辆重定位。MPC依赖于需求预测,并优化在更长的时间范围内以补偿路由优化的近视性质。然而,较长的地平线增加了计算复杂性,并迫使MPC以粗糙的空间 - 时间粒度运行,降低其决定的质量。本文通过学习MPC优化来解决这些计算挑战。然后,由此产生的机器学习模型用作优化代理并预测其最佳解决方案。这使得可以在较高的空间 - 时间保真处使用MPC,因为可以解决优化并脱机。实验结果表明,该拟议的方法提高了纽约市数据集具有挑战性的服务质量。
translated by 谷歌翻译