我们研究了大规模实时乘车系统的优化,并提出了一种模块化设计方法,用于乘车共享的组件算法(CAR)。我们评估了一套多种汽车(总共14辆),重点是乘车共享的关键算法组件。我们采用一种多目标方法,评估了与全球效率,复杂性,乘客,驾驶员和平台激励措施有关的12个指标,以在各个方面非常类似于现实,重点介绍了能力二的工具。据我们所知,这是迄今为止最大,最全面的评估。我们(i)确定在全球,乘客,驾驶员或平台指标上表现良好的汽车,(ii)证明,轻巧的搬迁计划可以显着提高服务质量高达$ 50 \%\%$,并且(iii)强调了一种实用的,一种实用的,在所有指标中都能很好地运行,可扩展的启动汽车。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
在带有电动车队的乘车系统中,充电是一个复杂的决策过程。大多数电动汽车(EV)出租车服务要求驾驶员做出利己主义决定,从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态,因此无法做出最佳的决定。大多数现有方法都不将时间,位置和持续时间结合到全面的控制算法中,也不适合实时操作。因此,我们提出了一种实时预测性充电方法,用于使用一个名为“闲置时间开发(ITX)”的单个操作员进行乘车服务,该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对,以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明,就货币奖励功能而言,ITX的表现优于所有基线方法至少提高5%(相当于6,000个车辆操作的$ 70,000),该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外,与基线方法相比,ITX可以将延迟至少减少4.68%,并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明,ITX使车辆能够在白天收获能量,稳定电池水平,并增加需求意外激增的弹性。最后,与表现最佳的基线策略相比,峰值负载减少了17.39%,这使网格操作员受益,并为更可持续的电网使用铺平了道路。
translated by 谷歌翻译
我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的,但不仅限于预定义的集合,因此请求服务的客户是可变的,因为它们可能出现在给定的服务领域的任何地方。此外,需求量是随机的,并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP,具有高度可变的客户基础和随机需求(VRP-VCSD)。对于这个问题,我们首先提出了马尔可夫决策过程(MDP)的配方,该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手,但它为我们提供了开发新的MDP公式的地面,我们称其为部分分散。在此公式中,动作空间被车辆分解。但是,由于我们执行相同的车辆特定政策,同时优化集体奖励,因此权力下放是不完整的。我们提出了几种策略,以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题,我们通过加强学习来解决。特别是,我们开发了一种称为DECQN的Q学习算法,具有最先进的加速技术。我们进行了彻底的计算分析。结果表明,DECN的表现大大优于三个基准策略。此外,我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争,在该情况下,客户位置和预期需求是事先知道的。
translated by 谷歌翻译
我们介绍了多模式的汽车和乘车共享问题(MMCRP),其中使用一台汽车来涵盖一组乘车请求,同时将发现的请求分配给其他运输方式(MOT)。汽车的路线由一次或多个旅行组成。每次旅行都必须具有特定但不明的驱动程序,以仓库开始,然后以(可能不同的)仓库结束。即使两个骑行没有相同的起源和/或目的地,也允许在用户之间共享骑行。用户始终可以根据各个首选项列表使用其他运输方式。该问题可以作为车辆调度问题提出。为了解决该问题,构建了一个辅助图,在该图中,每次旅行在仓库中的启动和结尾,并覆盖可能的乘车共享,以时空图中的形式建模为弧。我们提出了一种基于列生成的两层分解算法,其中主问题可确保最多只能涵盖每个请求,并且定价问题通过在时间 - 时间中解决一种最短路径问题来生成新的有希望的路线空间网络。报告了基于现实实例的计算实验。基准实例基于奥地利维也纳的人口,空间和经济数据。我们通过在合理时间内基于列生成的方法来解决大型实例,并进一步研究了各种精确和启发式定价方案。
translated by 谷歌翻译
乘客和货物交付的可行性服务服务的无处不在的增长在运输系统领域内带来了各种挑战和机遇。因此,正在开发智能运输系统以最大限度地提高运营盈利能力,用户的便利性和环境可持续性。与riveShiening的最后一次交付的增长呼吁进行高效且凝聚力的系统,运输乘客和货物。现有方法使用静态路由方法来解决考虑到请求的需求和在路线规划期间车辆之间的货物转移。在本文中,我们为合并的商品和乘客运输提供了一种动态和需求意识的舰队管理框架,该乘客运输能够通过允许司机谈判到相互合适的价格中的决策过程中的乘客和司机。乘客接受/拒绝,(2)货物与车辆的匹配,以及货物的多跳转移,(3)基于该插入成本,在沿着它们的途径来动态地为每个车辆提供最佳路线,从而确定匹配的插入成本(4)使用深度加强学习(RL),(5)允许在每个车辆的分布推断,同时共同优化舰队目标,向预期的高乘客和商品需求调度怠速车辆。我们所提出的模型可在每个车辆内独立部署,因为这最大限度地减少了与分布式系统的增长相关的计算成本,并将其民主化决策对每个人进行决策。与各种车辆类型,商品和乘客效用的仿真表明,与不考虑联合负载运输或动态多跳路线规划的其他方法相比,我们的方法的有效性。
translated by 谷歌翻译
由于客户的好处(较低的价格),司机(更高收入),聚合公司(更高的收入)和环境(较少的车辆),按需乘坐游泳池(例如,优步池,抓取股份)变得非常受欢迎。匹配车辆与请求组合的显着计算复杂性意味着传统的乘坐汇集方法是近视,因为它们不考虑当前匹配对车辆/驱动程序的未来价值的影响。最近,神经近似动态编程(Neuradp)就使用了具有近似动态编程(ADP)的值分解来优于考虑各个代理(车辆)所选择的行动对该代理的未来价值的影响。但是,为了确保可扩展性和促进城市规模的乘坐汇集,Neuradp完全忽略了其他代理行为对个别代理/车辆价值的影响。正如我们实验结果所示,忽略其他代理对个人价值的行为的影响可能会对整体性能产生重大影响,因为当需求增加车辆之间的竞争时。我们的主要贡献是基于通过联合条件概率计算条件期望的新机制,以便在不增加培训或决策的复杂性的情况下捕获对其他代理行动的依赖性。我们表明,我们的新方法,条件基于期望的价值分解(CEVD)在服务的整体请求方面优先于Neuradp高达9.76%,这在城市宽的基准列表数据集中是一个重要的改进。
translated by 谷歌翻译
对同日发货(SDD)的需求在过去几年中迅速增加,并在Covid-19大流行期间特别蓬勃发展。快速增长并非没有挑战。 2016年,由于较低的成员资格和距离仓库的距离远远,某些少数民族社区被排除在接受亚马逊的SDD服务之外,提高了对公平的担忧。在本文中,我们研究了向客户提供公平的SDD服务的问题。服务区域被分成不同的区域。在一天中,客户请求SDD服务以及请求和交付位置的时机未提前知道。调度员动态分配车辆,以便在交付截止日期前将交付给予接受客户。除整体服务率(实用程序)外,我们还最大限度地提高了所有地区的最小区域服务率(公平性)。我们将问题模拟为多目标马尔可夫决策过程,并开发深度Q学习解决方案方法。我们介绍了从税率到实际服务的新颖改造,从而创造了一个稳定和有效的学习过程。计算结果证明了我们对在不同客户地理位置中的空间和时间内的不公平性的方法的有效性。我们还表明,这种有效性有效地与不同的仓库位置有效,提供业务,其中有机会从任何位置实现更好的公平性。此外,我们考虑忽略公平性在服务中的影响,结果表明,当客户对服务水平的期望很高时,我们的政策最终越优越。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
We consider the sequential decision-making problem of making proactive request assignment and rejection decisions for a profit-maximizing operator of an autonomous mobility on demand system. We formalize this problem as a Markov decision process and propose a novel combination of multi-agent Soft Actor-Critic and weighted bipartite matching to obtain an anticipative control policy. Thereby, we factorize the operator's otherwise intractable action space, but still obtain a globally coordinated decision. Experiments based on real-world taxi data show that our method outperforms state of the art benchmarks with respect to performance, stability, and computational tractability.
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
大规模乘车系统通常将各个请求级别的实时路由与宏观模型预测控制(MPC)优化相结合,用于动态定价和车辆重定位。MPC依赖于需求预测,并优化在更长的时间范围内以补偿路由优化的近视性质。然而,较长的地平线增加了计算复杂性,并迫使MPC以粗糙的空间 - 时间粒度运行,降低其决定的质量。本文通过学习MPC优化来解决这些计算挑战。然后,由此产生的机器学习模型用作优化代理并预测其最佳解决方案。这使得可以在较高的空间 - 时间保真处使用MPC,因为可以解决优化并脱机。实验结果表明,该拟议的方法提高了纽约市数据集具有挑战性的服务质量。
translated by 谷歌翻译
在本文中,我们研究了电子商务运营商面临的顺序决策问题,与何时从中央仓库发送车辆以服务于客户请求,并在哪个命令下提供服务,假设是在到达仓库的包裹是随机且动态的。目的是最大化在服务时间内可以交付的包裹数。我们提出了两种解决此问题的强化学习方法,一种基于策略函数近似(PFA),第二种基于值函数近似(VFA)。两种方法都与前景策略相结合,其中未来发布日期以蒙特卡洛的方式进行采样,并使用量身定制的批处理方法来近似未来状态的价值。我们的PFA和VFA很好地利用了基于分支机构的精确方法来提高决策质量。我们还建立了足够的条件,可以将最佳策略的部分表征并将其集成到PFA/VFA中。在基于720个基准实例的实证研究中,我们使用具有完美信息的上限进行了竞争分析,我们表明PFA和VFA的表现极大地超过了两种替代近视方法。总体而言,PFA提供最佳解决方案,而VFA(从两阶段随机优化模型中受益)在解决方案质量和计算时间之间取得了更好的权衡。
translated by 谷歌翻译
物流运营商最近提出了一项技术,可以帮助降低城市货运分销中的交通拥堵和运营成本,最近提出了移动包裹储物柜(MPLS)。鉴于他们能够在整个部署领域搬迁,因此他们具有提高客户可访问性和便利性的潜力。在这项研究中,我们制定了移动包裹储物柜问题(MPLP),这是位置路由问题(LRP)的特殊情况,该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法(HQM),以解决所得大问题实例的计算复杂性,同时逃脱了本地Optima。此外,HQM与全球和局部搜索机制集成在一起,以解决经典强化学习(RL)方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小(最多200个节点)下的性能,并根据遗传算法(GA)进行了基准测试。我们的结果表明,HQM获得的平均奖励比GA高1.96倍,这表明HQM具有更好的优化能力。最后,我们确定有助于车队规模要求,旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。
translated by 谷歌翻译
随着食品交付平台的日益普及,在这些平台中研究“演出”工人的工作条件已变得相关,尤其是为他们提供公平的工资,合理的工作时间和工作可用性的透明度。但是,对这些问题的任何解决方案都不得降低客户体验,并具有成本效益,以确保平台愿意采用它们。我们建议使用Work4Food,该食品为交付代理提供收入保证,同时最大程度地降低平台成本并确保客户满意度。 Work4food确保满足收入保证的方式不会导致工作时间增加或降低环境影响。为了结合这些目标,工作4食品通过控制系统中的代理数量并根据代理人(例如代理位置,评级等因素)向代理提供动态付款保证。食品交付平台并在手头的多维目标方面建立了对最新技术的优势。
translated by 谷歌翻译