智能论文笔记

Proactive Distributed Constraint Optimization of Heterogeneous Incident Vehicle Teams

Justice Darko , Hyoshin Park

分类：人工智能

2022-07-16

传统上，交通事故管理（TIM）计划协调紧急资源的部署到即时事件请求，而无需容纳环境中事件演变的相互依存关系。但是，忽略对环境中事件在当前部署决策的过程中的固有相互依赖性是短暂的，而由此产生的幼稚部署策略可能会大大恶化整个事件延迟对网络的影响。环境中事件进化的相互依存关系，包括事件事件之间的事件，以及在近未实现请求中的资源可用性与预期的即时事件请求期间的持续时间之间的相互依存关系，应在进行当前阶段部署时通过浏览模型来考虑决定。这项研究基于分布式约束优化问题（DCOP）开发了一个新的主动框架，以解决上述局限性，克服了无法适应TIM问题中依赖关系的常规TIM模型。此外，配制了优化目标以纳入无人机（UAV）。无人机在蒂姆（Tim）中的作用包括探索不确定的交通状况，检测出意外事件以及从道路交通传感器中增加信息。我们对多个TIM情景模型的鲁棒性分析显示了使用本地搜索启发式方法显示令人满意的性能。总体而言，我们的模型报告说，与常规TIM模型相比，总事件延迟的大幅减少。在无人机的支持下，我们证明了通过紧急车辆较短的响应时间的总体事件延迟进一步减少，并且与估计的事件延迟影响相关的不确定性减少。

translated by 谷歌翻译

Improving Operational Efficiency In EV Ridepooling Fleets By Predictive Exploitation of Idle Times

Jesper C. Provoost , Andreas Kamilaris , Gyözö Gidófalvi , Geert J. Heijenk , Luc J. J. Wismans

分类：机器学习 | 人工智能

2022-08-30

在带有电动车队的乘车系统中，充电是一个复杂的决策过程。大多数电动汽车（EV）出租车服务要求驾驶员做出利己主义决定，从而导致分散的临时充电策略。车辆之间通常缺乏或不共享移动性系统的当前状态，因此无法做出最佳的决定。大多数现有方法都不将时间，位置和持续时间结合到全面的控制算法中，也不适合实时操作。因此，我们提出了一种实时预测性充电方法，用于使用一个名为“闲置时间开发（ITX）”的单个操作员进行乘车服务，该方法预测了车辆闲置并利用这些时期来收获能量的时期。它依靠图形卷积网络和线性分配算法来设计最佳的车辆和充电站配对，以最大程度地提高利用的空闲时间。我们通过对纽约市现实世界数据集的广泛模拟研究评估了我们的方法。结果表明，就货币奖励功能而言，ITX的表现优于所有基线方法至少提高5％（相当于6,000个车辆操作的$ 70,000），该奖励奖励功能的建模旨在复制现实世界中乘车系统的盈利能力。此外，与基线方法相比，ITX可以将延迟至少减少4.68％，并且通常通过促进顾客在整个车队中更好地传播乘客的舒适度。我们的结果还表明，ITX使车辆能够在白天收获能量，稳定电池水平，并增加需求意外激增的弹性。最后，与表现最佳的基线策略相比，峰值负载减少了17.39％，这使网格操作员受益，并为更可持续的电网使用铺平了道路。

translated by 谷歌翻译

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey

Tianxu Li , Kun Zhu , Nguyen Cong Luong , Dusit Niyato , Qihui Wu , Yang Zhang , Bing Chen

分类：人工智能 | 机器学习

2021-10-26

未来的互联网涉及几种新兴技术，例如5G和5G网络，车辆网络，无人机（UAV）网络和物联网（IOT）。此外，未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定，以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法，例如单药强化学习（RL）或深入强化学习（DRL），以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是，这种算法未能对网络实体之间的合作或竞争进行建模，而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习（MARL）允许每个网络实体不仅观察环境，还可以观察其他实体的政策来学习其最佳政策。结果，MAL可以显着提高网络实体的学习效率，并且最近已用于解决新兴网络中的各种问题。在本文中，我们因此回顾了MAL在新兴网络中的应用。特别是，我们提供了MARL的教程，以及对MARL在下一代互联网中的应用进行全面调查。特别是，我们首先介绍单代机Agent RL和MARL。然后，我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问，传输电源控制，计算卸载，内容缓存，数据包路由，无人机网络的轨迹设计以及网络安全问题。

translated by 谷歌翻译

Beyond 5G Networks: Integration of Communication, Computing, Caching, and Control

Musbahu Mohammed Adam , Liqiang Zhao , Kezhi Wang , Zhu Han

分类：机器学习

2022-12-26

In recent years, the exponential proliferation of smart devices with their intelligent applications poses severe challenges on conventional cellular networks. Such challenges can be potentially overcome by integrating communication, computing, caching, and control (i4C) technologies. In this survey, we first give a snapshot of different aspects of the i4C, comprising background, motivation, leading technological enablers, potential applications, and use cases. Next, we describe different models of communication, computing, caching, and control (4C) to lay the foundation of the integration approach. We review current state-of-the-art research efforts related to the i4C, focusing on recent trends of both conventional and artificial intelligence (AI)-based integration approaches. We also highlight the need for intelligence in resources integration. Then, we discuss integration of sensing and communication (ISAC) and classify the integration approaches into various classes. Finally, we propose open challenges and present future research directions for beyond 5G networks, such as 6G.

translated by 谷歌翻译

Multi-UAV Planning for Cooperative Wildfire Coverage and Tracking with Quality-of-Service Guarantees

Esmaeil Seraj , Andrew Silva , Matthew Gombolay

分类：机器人 | 人工智能

2022-06-21

近年来，研究人员委托机器人和无人驾驶汽车（UAV）团队委托进行准确的在线野火覆盖范围和跟踪。迄今为止，大多数先前的工作都集中在此类多机器人系统的协调和控制上，但尚未赋予这些无人机团队对火的轨道（即位置和传播动态）进行推理的能力，以提供性能保证时间范围。在空中野火监测的问题上，我们提出了一个预测框架，该框架使多UAV团队的合作能够与概率性能保证一起进行协作现场覆盖和火灾跟踪。我们的方法使无人机能够推断出潜在的火灾传播动态，以在安全至关重要的条件下进行时间扩展的协调。我们得出了一组新颖的，分析的时间和跟踪纠纷界限，以使无人机团队根据特定于案例的估计状态分发有限的资源并覆盖整个火灾区域，并提供概率性能保证。我们的结果不仅限于空中野火监测案例研究，而且通常适用于搜索和救援，目标跟踪和边境巡逻等问题。我们在模拟中评估了我们的方法，并在物理多机器人测试台上提供了建议的框架，以说明真实的机器人动态和限制。我们的定量评估验证了我们的方法的性能，分别比基于最新的模型和强化学习基准分别累积了7.5倍和9.0倍的跟踪误差。

translated by 谷歌翻译

Temporal Multimodal Multivariate Learning

Hyoshin Park , Justice Darko , Niharika Deshpande , Venktesh Pandey , Hui Su , Masahiro Ono , Dedrick Barkely , Larkin Folsom , Derek Posselt , Steve Chien

分类：机器学习

2022-06-14

我们介绍了时间多模式的多模式学习，这是一个新的决策模型系列，可以间接学习和传输在线信息，同时观察一个概率分布，该概率分布有一个以上的峰值或一个以上的结果变量，从一个时间阶段到另一个时间阶段。我们通过基于数据生理学驱动的相关性依次删除不同变量和时间之间的其他不确定性来近似后部，以解决不确定性下的更广泛的挑战性时间依赖性决策问题。对现实世界数据集的广泛实验（即，城市交通数据和飓风整体预测数据）证明了拟议的有针对性决策的卓越性能，而不是各种设置的最先进的基线预测方法。

translated by 谷歌翻译

Reinforcement Learning for Ridesharing: An Extended Survey

Zhiwei Qin , Hongtu Zhu , Jieping Ye

分类：机器学习 | 人工智能

2021-05-03

在本文中，我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面，深入的调查。涵盖了有关乘车匹配，车辆重新定位，乘车，路由和动态定价主题的论文。在过去的几年中，大多数文献都出现了，并且要继续解决一些核心挑战：模型复杂性，代理协调和多个杠杆的联合优化。因此，我们还引入了流行的数据集和开放式仿真环境，以促进进一步的研发。随后，我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。

translated by 谷歌翻译

Predictive Scheduling of Collaborative Mobile Robots for Improved Crop-transport Logistics of Manually Harvested Crops

Chen Peng

分类：机器人

2021-11-18

机械化新鲜市场水果的手工采伐构成了水果产业可持续性的最大挑战之一。在手动收获草莓和桌葡萄等新鲜市场作物时，拾取器花费大量的时间行走，将全托盘携带到领域边缘的收集站。增加对这种作物的收获自动化的一步是部署运输空和全托盘的收获辅助协作机器人（共用机器人），从而通过减少拾取器的非生产步行时间来增加收获效率。这项工作介绍了在商业草莓收获过程中开发合作机器收获援助系统及其评估。在系统的核心上，提示了一种预测随机调度算法，其最小化了预期的非拾取时间，从而最大化了收获效率。在评估实验期间，当机器人到拾取器的比例为1：3时，共同机器人将平均收获效率提高约10％并将平均非生产时间减少60％。在这项工作中开发的概念可以应用于机器人收获艾滋病，用于其他手动收获的作物，这些作物涉及用于行走的作物运输。

translated by 谷歌翻译

UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search and Rescue in DARPA SubT

Matej Petrlik , Pavel Petracek , Vit Kratky , Tomas Musil , Yurii Stasinchuk , Matous Vrba , Tomas Baca , Daniel Hert , Martin Pecka , Tomas Svoboda

分类：机器人 | 人工智能

2022-06-16

本文提出了一种新颖的方法，用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分，拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反，该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署，并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划，面向覆盖范围和压缩的拓扑范围的LTVMAP领域，以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用，以在一般的3D环境中可见性受限的知情搜索，而对环境结构没有任何假设，同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道，用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外，在定性和定量评估的各种环境中，在不同的环境中进行了广泛的实验验证，UAV系统的性能得到了支持。

translated by 谷歌翻译

PassGoodPool: Joint Passengers and Goods Fleet Management with Reinforcement Learning aided Pricing, Matching, and Route Planning

Kaushik Manchella , Marina Haliem , Vaneet Aggarwal , Bharat Bhargava

分类：人工智能

2020-11-17

乘客和货物交付的可行性服务服务的无处不在的增长在运输系统领域内带来了各种挑战和机遇。因此，正在开发智能运输系统以最大限度地提高运营盈利能力，用户的便利性和环境可持续性。与riveShiening的最后一次交付的增长呼吁进行高效且凝聚力的系统，运输乘客和货物。现有方法使用静态路由方法来解决考虑到请求的需求和在路线规划期间车辆之间的货物转移。在本文中，我们为合并的商品和乘客运输提供了一种动态和需求意识的舰队管理框架，该乘客运输能够通过允许司机谈判到相互合适的价格中的决策过程中的乘客和司机。乘客接受/拒绝，（2）货物与车辆的匹配，以及货物的多跳转移，（3）基于该插入成本，在沿着它们的途径来动态地为每个车辆提供最佳路线，从而确定匹配的插入成本（4）使用深度加强学习（RL），（5）允许在每个车辆的分布推断，同时共同优化舰队目标，向预期的高乘客和商品需求调度怠速车辆。我们所提出的模型可在每个车辆内独立部署，因为这最大限度地减少了与分布式系统的增长相关的计算成本，并将其民主化决策对每个人进行决策。与各种车辆类型，商品和乘客效用的仿真表明，与不考虑联合负载运输或动态多跳路线规划的其他方法相比，我们的方法的有效性。

translated by 谷歌翻译

Deep Reinforcement Learning for Trajectory Path Planning and Distributed Inference in Resource-Constrained UAV Swarms

Marwan Dhuheir , Emna Baccour , Aiman Erbad , Sinan Sabeeh Al-Obaidi , Mounir Hamdi

分类：机器学习 | 机器人

2022-12-21

The deployment flexibility and maneuverability of Unmanned Aerial Vehicles (UAVs) increased their adoption in various applications, such as wildfire tracking, border monitoring, etc. In many critical applications, UAVs capture images and other sensory data and then send the captured data to remote servers for inference and data processing tasks. However, this approach is not always practical in real-time applications due to the connection instability, limited bandwidth, and end-to-end latency. One promising solution is to divide the inference requests into multiple parts (layers or segments), with each part being executed in a different UAV based on the available resources. Furthermore, some applications require the UAVs to traverse certain areas and capture incidents; thus, planning their paths becomes critical particularly, to reduce the latency of making the collaborative inference process. Specifically, planning the UAVs trajectory can reduce the data transmission latency by communicating with devices in the same proximity while mitigating the transmission interference. This work aims to design a model for distributed collaborative inference requests and path planning in a UAV swarm while respecting the resource constraints due to the computational load and memory usage of the inference requests. The model is formulated as an optimization problem and aims to minimize latency. The formulated problem is NP-hard so finding the optimal solution is quite complex; thus, this paper introduces a real-time and dynamic solution for online applications using deep reinforcement learning. We conduct extensive simulations and compare our results to the-state-of-the-art studies demonstrating that our model outperforms the competing models.

translated by 谷歌翻译

Conditional Expectation based Value Decomposition for Scalable On-Demand Ride Pooling

Avinandan Bose , Pradeep Varakantham

分类：机器学习 | 人工智能

2021-12-01

由于客户的好处（较低的价格），司机（更高收入），聚合公司（更高的收入）和环境（较少的车辆），按需乘坐游泳池（例如，优步池，抓取股份）变得非常受欢迎。匹配车辆与请求组合的显着计算复杂性意味着传统的乘坐汇集方法是近视，因为它们不考虑当前匹配对车辆/驱动程序的未来价值的影响。最近，神经近似动态编程（Neuradp）就使用了具有近似动态编程（ADP）的值分解来优于考虑各个代理（车辆）所选择的行动对该代理的未来价值的影响。但是，为了确保可扩展性和促进城市规模的乘坐汇集，Neuradp完全忽略了其他代理行为对个别代理/车辆价值的影响。正如我们实验结果所示，忽略其他代理对个人价值的行为的影响可能会对整体性能产生重大影响，因为当需求增加车辆之间的竞争时。我们的主要贡献是基于通过联合条件概率计算条件期望的新机制，以便在不增加培训或决策的复杂性的情况下捕获对其他代理行动的依赖性。我们表明，我们的新方法，条件基于期望的价值分解（CEVD）在服务的整体请求方面优先于Neuradp高达9.76％，这在城市宽的基准列表数据集中是一个重要的改进。

translated by 谷歌翻译

Location-Routing Planning for Last-Mile Deliveries Using Mobile Parcel Lockers: A Hybrid Q-Learning Network Approach

Yubin Liu , Qiming Ye , Jose Escribano-Macias , Yuxiang Feng , Panagiotis Angeloudis

分类：人工智能

2022-09-09

物流运营商最近提出了一项技术，可以帮助降低城市货运分销中的交通拥堵和运营成本，最近提出了移动包裹储物柜（MPLS）。鉴于他们能够在整个部署领域搬迁，因此他们具有提高客户可访问性和便利性的潜力。在这项研究中，我们制定了移动包裹储物柜问题（MPLP），这是位置路由问题（LRP）的特殊情况，该案例确定了整天MPL的最佳中途停留位置以及计划相应的交付路线。开发了基于混合Q学习网络的方法（HQM），以解决所得大问题实例的计算复杂性，同时逃脱了本地Optima。此外，HQM与全球和局部搜索机制集成在一起，以解决经典强化学习（RL）方法所面临的探索和剥削困境。我们检查了HQM在不同问题大小（最多200个节点）下的性能，并根据遗传算法（GA）进行了基准测试。我们的结果表明，HQM获得的平均奖励比GA高1.96倍，这表明HQM具有更好的优化能力。最后，我们确定有助于车队规模要求，旅行距离和服务延迟的关键因素。我们的发现概述了MPL的效率主要取决于时间窗口的长度和MPL中断的部署。

translated by 谷歌翻译

Flexible Supervised Autonomy for Exploration in Subterranean Environments

Harel Biggie , Eugene R. Rush , Danny G. Riley , Shakeeb Ahmad , Michael T. Ohradzansky , Kyle Harlow , Michael J. Miles , Daniel Torres , Steve McGuire , Eric W. Frew

分类：机器人

2023-01-02

While the capabilities of autonomous systems have been steadily improving in recent years, these systems still struggle to rapidly explore previously unknown environments without the aid of GPS-assisted navigation. The DARPA Subterranean (SubT) Challenge aimed to fast track the development of autonomous exploration systems by evaluating their performance in real-world underground search-and-rescue scenarios. Subterranean environments present a plethora of challenges for robotic systems, such as limited communications, complex topology, visually-degraded sensing, and harsh terrain. The presented solution enables long-term autonomy with minimal human supervision by combining a powerful and independent single-agent autonomy stack, with higher level mission management operating over a flexible mesh network. The autonomy suite deployed on quadruped and wheeled robots was fully independent, freeing the human supervision to loosely supervise the mission and make high-impact strategic decisions. We also discuss lessons learned from fielding our system at the SubT Final Event, relating to vehicle versatility, system adaptability, and re-configurable communications.

translated by 谷歌翻译

Multi-Depot Multi-Trip Vehicle Routing with Total Completion Time Minimization

Tiziana Calamoneri , Federico Corò , Simona Mancini

分类：机器人

2022-07-13

无人驾驶飞机（UAV）是飞机，其飞行可以完全自主，而无需任何人为干预。自然灾害管理是可以使用无人机的最有用和最有前途的领域之一。在本文中，我们专注于紧急情况，并提出使用无人机机队，以帮助营救团队个性化受影响区域内需要帮助的人。我们将这种情况建模为原始图理论问题，称为多部门多行车路由问题，总完成时间最小化（MDMT-VRP-TCT）；我们经历了一些与之相似的文献研究中已经研究的问题，并突出了差异，提出了作为MILP作为MILP的数学表述，设计了一种数学框架来快速解决大型实例，并在实验中测试其性能。除了提出的应用程序之外，我们的解决方案在任何情况下都必须解决多部多行车路由问题的任何情况。

translated by 谷歌翻译

Off-line approximate dynamic programming for the vehicle routing problem with a highly variable customer basis and stochastic demands

Mohsen Dastpak , Fausto Errico , Ola Jabali

分类：人工智能

2021-09-21

我们研究了在国内捐助服务服务中引起的车辆路由问题的随机变体。我们考虑的问题结合了以下属性。就客户是随机的，但不仅限于预定义的集合，因此请求服务的客户是可变的，因为它们可能出现在给定的服务领域的任何地方。此外，需求量是随机的，并且在拜访客户时会观察到。目的是在满足车辆能力和时间限制的同时最大化预期的服务需求。我们将此问题称为VRP，具有高度可变的客户基础和随机需求（VRP-VCSD）。对于这个问题，我们首先提出了马尔可夫决策过程（MDP）的配方，该制定代表了一位决策者建立所有车辆路线的经典集中决策观点。虽然结果配方却很棘手，但它为我们提供了开发新的MDP公式的地面，我们称其为部分分散。在此公式中，动作空间被车辆分解。但是，由于我们执行相同的车辆特定政策，同时优化集体奖励，因此权力下放是不完整的。我们提出了几种策略，以减少与部分分散的配方相关的国家和行动空间的维度。这些产生了一个更容易解决的问题，我们通过加强学习来解决。特别是，我们开发了一种称为DECQN的Q学习算法，具有最先进的加速技术。我们进行了彻底的计算分析。结果表明，DECN的表现大大优于三个基准策略。此外，我们表明我们的方法可以与针对VRP-VCSD的特定情况开发的专业方法竞争，在该情况下，客户位置和预期需求是事先知道的。

translated by 谷歌翻译

Wireless for Machine Learning

Henrik Hellström , José Mairton B. da Silva Jr , Mohammad Mohammadi Amiri , Mingzhe Chen , Viktoria Fodor , H. Vincent Poor , Carlo Fischione

分类：机器学习

2020-08-31

随着数据生成越来越多地在没有连接连接的设备上进行，因此与机器学习（ML）相关的流量将在无线网络中无处不在。许多研究表明，传统的无线协议高效或不可持续以支持ML，这创造了对新的无线通信方法的需求。在这项调查中，我们对最先进的无线方法进行了详尽的审查，这些方法是专门设计用于支持分布式数据集的ML服务的。当前，文献中有两个明确的主题，模拟的无线计算和针对ML优化的数字无线电资源管理。这项调查对这些方法进行了全面的介绍，回顾了最重要的作品，突出了开放问题并讨论了应用程序方案。

translated by 谷歌翻译

Autonomous Aerial Delivery Vehicles, a Survey of Techniques on how Aerial Package Delivery is Achieved

Jack Saunders , Sajad Saeedi , Wenbin Li

分类：机器人

2021-10-06

在过去的十年中，自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外，改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法，以检测无人机（UAV）环境中的关键特征。在这项调查中，对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先，详细讨论了各种类型的操纵器和握手，以及动态建模和控制方法。然后，讨论了降落在静态和动态平台上的。随后，诸如天气状况，州估计和避免碰撞之类的风险以确保安全过境。最后，调查了交付的UAV路由，该路由将主题分为两个领域：无人机操作和无人机合作操作。

translated by 谷歌翻译

Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates

Yuanyuan Li , Claudia Archetti , Ivana Ljubic

分类：机器学习

2022-07-02

在本文中，我们研究了电子商务运营商面临的顺序决策问题，与何时从中央仓库发送车辆以服务于客户请求，并在哪个命令下提供服务，假设是在到达仓库的包裹是随机且动态的。目的是最大化在服务时间内可以交付的包裹数。我们提出了两种解决此问题的强化学习方法，一种基于策略函数近似（PFA），第二种基于值函数近似（VFA）。两种方法都与前景策略相结合，其中未来发布日期以蒙特卡洛的方式进行采样，并使用量身定制的批处理方法来近似未来状态的价值。我们的PFA和VFA很好地利用了基于分支机构的精确方法来提高决策质量。我们还建立了足够的条件，可以将最佳策略的部分表征并将其集成到PFA/VFA中。在基于720个基准实例的实证研究中，我们使用具有完美信息的上限进行了竞争分析，我们表明PFA和VFA的表现极大地超过了两种替代近视方法。总体而言，PFA提供最佳解决方案，而VFA（从两阶段随机优化模型中受益）在解决方案质量和计算时间之间取得了更好的权衡。

translated by 谷歌翻译

UAV-Assisted Space-Air-Ground Integrated Networks: A Technical Review of Recent Learning Algorithms

Atefeh H. Arani , Peng Hu , Yeying Zhu

分类：机器学习

2022-11-27

Recent technological advancements in space, air and ground components have made possible a new network paradigm called "space-air-ground integrated network" (SAGIN). Unmanned aerial vehicles (UAVs) play a key role in SAGINs. However, due to UAVs' high dynamics and complexity, the real-world deployment of a SAGIN becomes a major barrier for realizing such SAGINs. Compared to the space and terrestrial components, UAVs are expected to meet performance requirements with high flexibility and dynamics using limited resources. Therefore, employing UAVs in various usage scenarios requires well-designed planning in algorithmic approaches. In this paper, we provide a comprehensive review of recent learning-based algorithmic approaches. We consider possible reward functions and discuss the state-of-the-art algorithms for optimizing the reward functions, including Q-learning, deep Q-learning, multi-armed bandit (MAB), particle swarm optimization (PSO) and satisfaction-based learning algorithms. Unlike other survey papers, we focus on the methodological perspective of the optimization problem, which can be applicable to various UAV-assisted missions on a SAGIN using these algorithms. We simulate users and environments according to real-world scenarios and compare the learning-based and PSO-based methods in terms of throughput, load, fairness, computation time, etc. We also implement and evaluate the 2-dimensional (2D) and 3-dimensional (3D) variations of these algorithms to reflect different deployment cases. Our simulation suggests that the $3$D satisfaction-based learning algorithm outperforms the other approaches for various metrics in most cases. We discuss some open challenges at the end and our findings aim to provide design guidelines for algorithm selections while optimizing the deployment of UAV-assisted SAGINs.

translated by 谷歌翻译