智能论文笔记

Programmable and Customized Intelligence for Traffic Steering in 5G Networks Using Open RAN Architectures

Andrea Lacava , Michele Polese , Rajarajan Sivaraj , Rahul Soundrarajan , Bhawani Shanker Bhati , Tarunjeet Singh , Tommaso Zugno , Francesca Cuomo , Tommaso Melodia

分类：人工智能

2022-09-28

5G及以后的移动网络将以前所未有的规模支持异质用例，从而要求自动控制和优化针对单个用户需求的网络功能。当前的蜂窝体系结构不可能对无线电访问网络（RAN）进行这种细粒度控制。为了填补这一空白，开放式运行范式及其规范引入了一个带有抽象的开放体系结构，该架构可以启用闭环控制并提供数据驱动和智能优化RAN在用户级别上。这是通过在网络边缘部署在近实时RAN智能控制器（接近RT RIC）上的自定义RAN控制应用程序（即XAPP）获得的。尽管有这些前提，但截至今天，研究界缺乏用于构建数据驱动XAPP的沙箱，并创建大型数据集以有效的AI培训。在本文中，我们通过引入NS-O-RAN来解决此问题，NS-O-RAN是一个软件框架，该框架将现实世界中的生产级近距离RIC与NS-3上的基于3GPP的模拟环境集成在一起，从而实现了XAPPS和XAPPS的开发自动化的大规模数据收集和深入强化学习驱动的控制策略的测试，以在用户级别的优化中进行优化。此外，我们提出了第一个特定于用户的O-RAN交通转向（TS）智能移交框架。它使用随机的合奏混合物，结合了最先进的卷积神经网络体系结构，以最佳地为网络中的每个用户分配服务基站。我们的TS XAPP接受了NS-O-RAN收集的超过4000万个数据点的培训，该数据点在近距离RIC上运行，并控制其基站。我们在大规模部署中评估了性能，这表明基于XAPP的交换可以使吞吐量和频谱效率平均比传统的移交启发式方法提高50％，而动机性开销较少。

translated by 谷歌翻译

ColO-RAN: Developing Machine Learning-based xApps for Open RAN Closed-loop Control on Programmable Experimental Platforms

Michele Polese , Leonardo Bonati , Salvatore D'Oro , Stefano Basagni , Tommaso Melodia

分类：机器学习

2021-12-17

尽管开放式运输所带来的新机遇，但基于ML的网络自动化的进步已经缓慢，主要是因为大规模数据集和实验测试基础设施的不可用。这减缓了实际网络上的深度加强学习（DRL）代理的开发和广泛采用，延迟了智能和自主运行控制的进展。在本文中，我们通过提出用于开放式RAN基于DRL基闭环控制的设计，培训，测试和实验评估的实用解决方案和软件管道来解决这些挑战。我们介绍了Colo-RAN，这是一个具有软件定义的无线电循环的第一个公开的大型O-RAN测试框架。在ColoSseum无线网络仿真器的规模和计算能力上，Colo-RAN使用O-RAN组件，可编程基站和“无线数据厂”来实现ML研究。具体而言，我们设计并开发三种示例性XApp，用于基于DRL的RAN切片，调度和在线模型培训，并评估其在具有7个软化基站和42个用户的蜂窝网络上的性能。最后，我们通过在竞技场上部署一个室内可编程测试平台来展示Colo-RAN到不同平台的可移植性。我们的一类大型评估的广泛结果突出了基于DRL的自适应控制的益处和挑战。他们还提供关于无线DRL管道的开发的见解，从数据分析到DRL代理商的设计，以及与现场训练相关的权衡。 Colo-RAN和收集的大型数据集将公开向研究界公开提供。

translated by 谷歌翻译

RLOps: Development Life-cycle of Reinforcement Learning Aided Open RAN

Peizheng Li , Jonathan Thomas , Xiaoyang Wang , Ahmed Khalil , Abdelrahim Ahmad , Rui Inacio , Shipra Kapoor , Arjun Parekh , Angela Doufexi , Arman Shojaeifard

分类：机器学习

2021-11-12

无线电接入网络（RAN）技术继续见证巨大的增长，开放式运行越来越最近的势头。在O-RAN规范中，RAN智能控制器（RIC）用作自动化主机。本文介绍了对O-RAN堆栈相关的机器学习（ML）的原则，特别是加强学习（RL）。此外，我们审查无线网络的最先进的研究，并将其投入到RAN框架和O-RAN架构的层次结构上。我们在整个开发生命周期中提供ML / RL模型面临的挑战的分类：从系统规范到生产部署（数据采集，模型设计，测试和管理等）。为了解决挑战，我们将一组现有的MLOPS原理整合，当考虑RL代理时，具有独特的特性。本文讨论了系统的生命周期模型开发，测试和验证管道，称为：RLOPS。我们讨论了RLOP的所有基本部分，包括：模型规范，开发和蒸馏，生产环境服务，运营监控，安全/安全和数据工程平台。根据这些原则，我们提出了最佳实践，以实现自动化和可重复的模型开发过程。

translated by 谷歌翻译

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey

Tianxu Li , Kun Zhu , Nguyen Cong Luong , Dusit Niyato , Qihui Wu , Yang Zhang , Bing Chen

分类：人工智能 | 机器学习

2021-10-26

未来的互联网涉及几种新兴技术，例如5G和5G网络，车辆网络，无人机（UAV）网络和物联网（IOT）。此外，未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定，以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法，例如单药强化学习（RL）或深入强化学习（DRL），以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是，这种算法未能对网络实体之间的合作或竞争进行建模，而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习（MARL）允许每个网络实体不仅观察环境，还可以观察其他实体的政策来学习其最佳政策。结果，MAL可以显着提高网络实体的学习效率，并且最近已用于解决新兴网络中的各种问题。在本文中，我们因此回顾了MAL在新兴网络中的应用。特别是，我们提供了MARL的教程，以及对MARL在下一代互联网中的应用进行全面调查。特别是，我们首先介绍单代机Agent RL和MARL。然后，我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问，传输电源控制，计算卸载，内容缓存，数据包路由，无人机网络的轨迹设计以及网络安全问题。

translated by 谷歌翻译

OpenRAN Gym: AI/ML Development, Data Collection, and Testing for O-RAN on PAWR Platforms

Leonardo Bonati , Michele Polese , Salvatore D'Oro , Stefano Basagni , Tommaso Melodia

分类：机器学习

2022-07-25

开放式无线电访问网络（RAN）体系结构将在下一代蜂窝网络中启用互操作性，开放性和可编程数据驱动控制。但是，开发和测试有效的解决方案，这些解决方案跨越了异质的细胞部署和量表，并在如此多样化的环境中优化网络性能是一项复杂的任务，这是一项复杂的任务，仍然在很大程度上没有探索。在本文中，我们介绍了OpenRan Gym，这是一个统一，开放和O-Ran符合的实验工具箱，用于数据收集，设计，原型设计和测试下一代Open RAN Systems的端到端数据驱动的控制解决方案。 OpenRan Gym扩展并结合了一个独特的解决方案，几个软件框架用于数据收集统计和控制控制，以及轻巧的O-Ran近实时RAN智能控制器（RIC）量身定制，可在实验性无线平台上运行。我们首先概述了OpenRan Gym的各种建筑组件，并描述了如何按大规模收集数据和设计，训练和测试人工智能和机器学习O-Ran-Commiate应用程序（XAPP）。然后，我们详细描述了如何在SoftWarized Rans上测试开发的XAPP，并提供了一个使用OpenRan Gym开发的两个XAPP的示例，这些XAPP用于控制一个具有7个基站的网络，并在奥马斗马会测试中部署了42个用户。最后，我们展示了如何通过罗马竞技场上的Openran Gym开发的解决方案，可以将其导出到现实世界中的异质无线平台，例如Arena Testbed以及PAWR计划的粉末和宇宙平台。 OpenRan Gym及其软件组件是开源的，并且对研究社区公开可用。

translated by 谷歌翻译

Intelligent Closed-loop RAN Control with xApps in OpenRAN Gym

Leonardo Bonati , Michele Polese , Salvatore D'Oro , Stefano Basagni , Tommaso Melodia

分类：机器学习

2022-08-31

预示着在不同时间尺度上作用的软件化，可编程网络控制和使用作用的全包装控制器的使用，作为下一代蜂窝网络发展的关键驱动力。这些技术已经培养了新设计的智能数据驱动的解决方案，用于管理大量各种蜂窝功能，基本上不可能在传统上闭合的蜂窝体系结构中实施。尽管行业对人工智能（AI）和机器学习（ML）解决方案具有明显的兴趣，该解决方案是对无线电访问网络（RAN）的闭环控制，并且该领域的几项研究工作远非主流，但仍然是一个复杂的操作，而且经常被忽略。在本文中，我们讨论了如何为开放式RAN的智能闭环控制设计AI/ML解决方案，从而根据具有高性能记录的示例解决方案提供指南和见解。然后，我们展示如何通过OpenRan Gym在O-RAN近实时RAN智能控制器（RIC）上实例化这些解决方案，Openran Gym是第一个用于数据驱动的O-RAN实验的公共可用工具箱。我们展示了一个由OpenRan Gym开发的XAPP的用例，并在蜂窝网络上进行了测试，其中有7个基站和42位用户部署在Colosseum Wireless网络模拟器上。我们的演示表明，位于Openran的XAPP开发环境的高度灵活性，该环境与部署方案和交通需求无关。

translated by 谷歌翻译

Beyond 5G Networks: Integration of Communication, Computing, Caching, and Control

Musbahu Mohammed Adam , Liqiang Zhao , Kezhi Wang , Zhu Han

分类：机器学习

2022-12-26

In recent years, the exponential proliferation of smart devices with their intelligent applications poses severe challenges on conventional cellular networks. Such challenges can be potentially overcome by integrating communication, computing, caching, and control (i4C) technologies. In this survey, we first give a snapshot of different aspects of the i4C, comprising background, motivation, leading technological enablers, potential applications, and use cases. Next, we describe different models of communication, computing, caching, and control (4C) to lay the foundation of the integration approach. We review current state-of-the-art research efforts related to the i4C, focusing on recent trends of both conventional and artificial intelligence (AI)-based integration approaches. We also highlight the need for intelligence in resources integration. Then, we discuss integration of sensing and communication (ISAC) and classify the integration approaches into various classes. Finally, we propose open challenges and present future research directions for beyond 5G networks, such as 6G.

translated by 谷歌翻译

Holistic Network Virtualization and Pervasive Network Intelligence for 6G

Xuemin , Shen , Jie Gao , Wen Wu , Mushu Li , Conghao Zhou , Weihua Zhuang

分类：人工智能

2023-01-02

In this tutorial paper, we look into the evolution and prospect of network architecture and propose a novel conceptual architecture for the 6th generation (6G) networks. The proposed architecture has two key elements, i.e., holistic network virtualization and pervasive artificial intelligence (AI). The holistic network virtualization consists of network slicing and digital twin, from the aspects of service provision and service demand, respectively, to incorporate service-centric and user-centric networking. The pervasive network intelligence integrates AI into future networks from the perspectives of networking for AI and AI for networking, respectively. Building on holistic network virtualization and pervasive network intelligence, the proposed architecture can facilitate three types of interplay, i.e., the interplay between digital twin and network slicing paradigms, between model-driven and data-driven methods for network management, and between virtualization and AI, to maximize the flexibility, scalability, adaptivity, and intelligence for 6G networks. We also identify challenges and open issues related to the proposed architecture. By providing our vision, we aim to inspire further discussions and developments on the potential architecture of 6G.

translated by 谷歌翻译

Federated Meta-Learning for Traffic Steering in O-RAN

Hakan Erdol , Xiaoyang Wang , Peizheng Li , Jonathan D. Thomas , Robert Piechocki , George Oikonomou , Rui Inacio , Abdelrahim Ahmad , Keith Briggs , Shipra Kapoor

分类：机器学习

2022-09-13

与LTE网络相比，5G的愿景在于提供较高的数据速率，低延迟（为了实现近实时应用程序），大大增加了基站容量以及用户的接近完美服务质量（QoS）。为了提供此类服务，5G系统将支持LTE，NR，NR-U和Wi-Fi等访问技术的各种组合。每种无线电访问技术（RAT）都提供不同类型的访问，这些访问应在用户中对其进行最佳分配和管理。除了资源管理外，5G系统还将支持双重连接服务。因此，网络的编排对于系统经理在旧式访问技术方面来说是一个更困难的问题。在本文中，我们提出了一种基于联合元学习（FML）的大鼠分配算法，该算法使RAN Intelligent Controller（RIC）能够更快地适应动态变化的环境。我们设计了一个包含LTE和5G NR服务技术的模拟环境。在模拟中，我们的目标是在传输的截止日期内满足UE需求，以提供更高的QoS值。我们将提出的算法与单个RL试剂，爬行动物算法和基于规则的启发式方法进行了比较。仿真结果表明，提出的FML方法分别在第一部部署回合21％和12％时达到了较高的缓存率。此外，在比较方法中，提出的方法最快地适应了新任务和环境。

translated by 谷歌翻译

On the Implementation of a Reinforcement Learning-based Capacity Sharing Algorithm in O-RAN

Irene Vilà , Oriol Sallent , Jordi Pérez-Romero

分类：机器学习

2022-07-21

无线电访问网络（RAN）切片中的容量共享问题与各种式式切片之间可用的容量的分配，以满足其交通需求并有效地使用无线电资源。尽管文献中已经提出了几种能力共享算法解决方案，但它们的实际实施仍然是差距。在本文中，讨论了基于增强学习的能力共享算法对O-RAN体系结构的实施，从而提供了有关涉及接口的操作和解决方案容器化的见解。此外，还包括对解决方案进行验证的测试床的描述，并提供了一些性能和验证结果。

translated by 谷歌翻译

Device Selection for the Coexistence of URLLC and Distributed Learning Services

Milad Ganjalizadeh , Hossein Shokri Ghadikolaei , Deniz Gündüz , Marina Petrova

分类：机器学习

2022-12-22

Recent advances in distributed artificial intelligence (AI) have led to tremendous breakthroughs in various communication services, from fault-tolerant factory automation to smart cities. When distributed learning is run over a set of wirelessly connected devices, random channel fluctuations and the incumbent services running on the same network impact the performance of both distributed learning and the coexisting service. In this paper, we investigate a mixed service scenario where distributed AI workflow and ultra-reliable low latency communication (URLLC) services run concurrently over a network. Consequently, we propose a risk sensitivity-based formulation for device selection to minimize the AI training delays during its convergence period while ensuring that the operational requirements of the URLLC service are met. To address this challenging coexistence problem, we transform it into a deep reinforcement learning problem and address it via a framework based on soft actor-critic algorithm. We evaluate our solution with a realistic and 3GPP-compliant simulator for factory automation use cases. Our simulation results confirm that our solution can significantly decrease the training delay of the distributed AI service while keeping the URLLC availability above its required threshold and close to the scenario where URLLC solely consumes all network resources.

translated by 谷歌翻译

When Machine Learning Meets Spectrum Sharing Security: Methodologies and Challenges

Qun Wang , Haijian Sun , Rose Qingyang Hu , Arupjyoti Bhuyan

分类：机器学习

2022-01-12

互联网连接系统的指数增长产生了许多挑战，例如频谱短缺问题，需要有效的频谱共享（SS）解决方案。复杂和动态的SS系统可以接触不同的潜在安全性和隐私问题，需要保护机制是自适应，可靠和可扩展的。基于机器学习（ML）的方法经常提议解决这些问题。在本文中，我们对最近的基于ML的SS方法，最关键的安全问题和相应的防御机制提供了全面的调查。特别是，我们详细说明了用于提高SS通信系统的性能的最先进的方法，包括基于ML基于ML的基于的数据库辅助SS网络，ML基于基于的数据库辅助SS网络，包括基于ML的数据库辅助的SS网络，基于ML的LTE-U网络，基于ML的环境反向散射网络和其他基于ML的SS解决方案。我们还从物理层和基于ML算法的相应防御策略的安全问题，包括主要用户仿真（PUE）攻击，频谱感测数据伪造（SSDF）攻击，干扰攻击，窃听攻击和隐私问题。最后，还给出了对ML基于ML的开放挑战的广泛讨论。这种全面的审查旨在为探索新出现的ML的潜力提供越来越复杂的SS及其安全问题，提供基础和促进未来的研究。

translated by 谷歌翻译

Distributed Machine Learning for UAV Swarms: Computing, Sensing, and Semantics

Yahao Ding , Zhaohui Yang , Quoc-Viet Pham , Zhaoyang Zhang , Mohammad Shikh-Bahaei

分类：机器学习 | 人工智能

2023-01-03

Unmanned aerial vehicle (UAV) swarms are considered as a promising technique for next-generation communication networks due to their flexibility, mobility, low cost, and the ability to collaboratively and autonomously provide services. Distributed learning (DL) enables UAV swarms to intelligently provide communication services, multi-directional remote surveillance, and target tracking. In this survey, we first introduce several popular DL algorithms such as federated learning (FL), multi-agent Reinforcement Learning (MARL), distributed inference, and split learning, and present a comprehensive overview of their applications for UAV swarms, such as trajectory design, power control, wireless resource allocation, user assignment, perception, and satellite communications. Then, we present several state-of-the-art applications of UAV swarms in wireless communication systems, such us reconfigurable intelligent surface (RIS), virtual reality (VR), semantic communications, and discuss the problems and challenges that DL-enabled UAV swarms can solve in these applications. Finally, we describe open problems of using DL in UAV swarms and future research directions of DL enabled UAV swarms. In summary, this survey provides a comprehensive survey of various DL applications for UAV swarms in extensive scenarios.

translated by 谷歌翻译

Sim2real for Reinforcement Learning Driven Next Generation Networks

Peizheng Li , Jonathan Thomas , Xiaoyang Wang , Hakan Erdol , Abdelrahim Ahmad , Rui Inacio , Shipra Kapoor , Arjun Parekh , Angela Doufexi , Arman Shojaeifard

分类：机器学习

2022-06-08

下一代网络将积极采用人工智能（AI）和机器学习（ML）技术，用于自动化网络和最佳网络操作策略。以Open Ran（O-Ran）为代表的新兴网络结构符合这一趋势，其规范中心的无线电智能控制器（RIC）用作ML应用程序主机。各种ML模型，尤其是强化学习（RL）模型，被认为是解决与RAN相关的多目标优化问题的关键。但是，应该认识到，当前大多数RL成功都局限于抽象和简化的仿真环境，这可能不会直接转化为复杂的真实环境中的高性能。主要原因之一是模拟与真实环境之间的建模差距，这可能会使RL代理通过模拟训练不适合真实环境。此问题称为SIM2REAL差距。本文在O-Ran的背景下引起了SIM2REAL挑战。具体而言，它强调了数字双胞胎（DT）可以作为模型开发和验证的地方的特征和好处。提出了几种用例，以举例说明并证明在真实环境中训练有训练的RL模型的故障模式。讨论了DT在协助RL算法开发方面的有效性。然后提出了通常用于克服SIM2REAL挑战的基于学习的基于艺术学习的方法。最后，从数据交互，环境瓶颈和算法设计等潜在问题的角度讨论了O-RAN中RL应用程序实现的开发和部署问题。

translated by 谷歌翻译

Colosseum: Large-Scale Wireless Experimentation Through Hardware-in-the-Loop Network Emulation

Leonardo Bonati , Pedram Johari , Michele Polese , Salvatore D'Oro , Subhramoy Mohanti , Miead Tehrani-Moayyed , Davide Villa , Shweta Shrivastava , Chinenye Tassie , Kurt Yoder

分类：人工智能

2021-10-20

Colorsseum是一种开放式和公开可用的大型无线无线测试，可通过虚拟化和软载波形和协议堆栈进行实验研究，在完全可编程的“白盒子”平台上。通过256最先进的软件定义的无线电和巨大的通道仿真器核心，罗马斗兽场几乎可以模拟任何方案，在各种部署和渠道条件下，可以在规模上进行设计，开发和测试解决方案。通过有限脉冲响应滤波器通过高保真FPGA的仿真再现这些罗马孔射频场景。过滤器模拟所需的无线通道的抽头，并将它们应用于无线电节点生成的信号，忠实地模拟现实世界无线环境的条件。在本文中，我们将罗马斗兽场介绍为测试楼，这是第一次向研究界开放。我们描述了罗马斗兽场的建筑及其实验和仿真能力。然后，我们通过示例性用例证明了罗马斗兽场对实验研究的有效性，包括频谱共享和无人空中车辆场景的普遍用途用例，包括普遍的无线技术（例如，蜂窝和Wi-Fi）。斗兽索斗兽场未来更新的路线图总结了这篇论文。

translated by 谷歌翻译

Reinforcement Learning for Feedback-Enabled Cyber Resilience

Yunhan Huang , Linan Huang , Quanyan Zhu

分类：机器学习

2021-07-02

数字化和远程连接扩大了攻击面，使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富，仅仅依赖传统网络保护，如入侵检测，防火墙和加密，不足以保护网络系统。网络弹性提供了一种新的安全范式，可以使用弹性机制来补充保护不足。一种网络弹性机制（CRM）适应了已知的或零日威胁和实际威胁和不确定性，并对他们进行战略性地响应，以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应，推理和致动过程中发挥关键作用。强化学习（RL）是一个重要的工具，对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中，我们审查了Cyber恢复力的RL的文献，并讨论了对三种主要类型的漏洞，即姿势有关，与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域：移动目标防御，防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型，其中攻击者针对环境与代理商之间交换的信息：奖励，国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后，我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。

translated by 谷歌翻译

Scheduling Out-of-Coverage Vehicular Communications Using Reinforcement Learning

Taylan Şahin , Ramin Khalili , Mate Boban , Adam Wolisz

分类：人工智能

2022-07-13

车辆到车辆（V2V）通信的性能在很大程度上取决于使用的调度方法。虽然集中式网络调度程序提供高V2V通信可靠性，但它们的操作通常仅限于具有完整的蜂窝网络覆盖范围的区域。相比之下，在细胞外覆盖区域中，使用了相对效率低下的分布式无线电资源管理。为了利用集中式方法的好处来增强V2V通信在缺乏蜂窝覆盖的道路上的可靠性，我们建议使用VRLS（车辆加固学习调度程序），这是一种集中的调度程序，该调度程序主动为覆盖外的V2V Communications主动分配资源，以前}车辆离开蜂窝网络覆盖范围。通过在模拟的车辆环境中进行培训，VRL可以学习一项适应环境变化的调度策略，从而消除了在复杂的现实生活环境中对有针对性（重新）培训的需求。我们评估了在不同的移动性，网络负载，无线通道和资源配置下VRL的性能。 VRL的表现优于最新的区域中最新分布式调度算法，而无需蜂窝网络覆盖，通过在高负载条件下将数据包错误率降低了一半，并在低负载方案中实现了接近最大的可靠性。

translated by 谷歌翻译

UAV-Assisted Space-Air-Ground Integrated Networks: A Technical Review of Recent Learning Algorithms

Atefeh H. Arani , Peng Hu , Yeying Zhu

分类：机器学习

2022-11-27

Recent technological advancements in space, air and ground components have made possible a new network paradigm called "space-air-ground integrated network" (SAGIN). Unmanned aerial vehicles (UAVs) play a key role in SAGINs. However, due to UAVs' high dynamics and complexity, the real-world deployment of a SAGIN becomes a major barrier for realizing such SAGINs. Compared to the space and terrestrial components, UAVs are expected to meet performance requirements with high flexibility and dynamics using limited resources. Therefore, employing UAVs in various usage scenarios requires well-designed planning in algorithmic approaches. In this paper, we provide a comprehensive review of recent learning-based algorithmic approaches. We consider possible reward functions and discuss the state-of-the-art algorithms for optimizing the reward functions, including Q-learning, deep Q-learning, multi-armed bandit (MAB), particle swarm optimization (PSO) and satisfaction-based learning algorithms. Unlike other survey papers, we focus on the methodological perspective of the optimization problem, which can be applicable to various UAV-assisted missions on a SAGIN using these algorithms. We simulate users and environments according to real-world scenarios and compare the learning-based and PSO-based methods in terms of throughput, load, fairness, computation time, etc. We also implement and evaluate the 2-dimensional (2D) and 3-dimensional (3D) variations of these algorithms to reflect different deployment cases. Our simulation suggests that the $3$D satisfaction-based learning algorithm outperforms the other approaches for various metrics in most cases. We discuss some open challenges at the end and our findings aim to provide design guidelines for algorithm selections while optimizing the deployment of UAV-assisted SAGINs.

translated by 谷歌翻译

OnSlicing: Online End-to-End Network Slicing with Reinforcement Learning

Qiang Liu , Nakjung Choi , Tao Han

分类：机器学习

2021-11-02

网络切片允许移动网络运营商虚拟化基础架构，并提供定制的切片，以支持具有异构要求的各种用例。在线深度加强学习（DRL）在解决网络问题和消除模拟 - 现实差异方面表现出有希望的潜力。然而，在线DRL优化跨域资源，作为DRL的随机探索违反了切片的服务级别协议（SLA）和基础架构的资源限制。在本文中，我们提出了一个在线端到端网络切片系统的Onslicing，以实现最小的资源用法，同时满足切片的SLA。 Onslicing允许为每个切片个性化学习，并通过使用新的约束感知策略更新方法和主动基线切换机制来维护其SLA。在基础架构中的切片和参数协调中，符合基础设施的资源限制，符合基础架构的资源限制。 Onslicing进一步减轻了在早期学习阶段的在线学习的差表现不佳，该阶段模仿基于规则的解决方案。此外，我们设计了四个新的域管理员，可以分别在零档的时间尺寸，传输，核心和边缘网络中启用动态资源配置。我们在基于OpenAirInterface的端到端切片测试平面上实现了onSlicing，其中4G LTE和5G NR，OpenDaylight SDN平台和OpenAir-CN核心网络。实验结果表明，与基于规则的解决方案相比，持续达到61.3％的使用量减少，并在在线学习阶段保持近零违规（0.06％）。随着在线学习融合，与最先进的在线DRL解决方案相比，在没有任何违规的情况下，在没有任何违规的情况下减少了12.5％的使用。

translated by 谷歌翻译

Reinforcement Learning for Ridesharing: An Extended Survey

Zhiwei Qin , Hongtu Zhu , Jieping Ye

分类：机器学习 | 人工智能

2021-05-03

在本文中，我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面，深入的调查。涵盖了有关乘车匹配，车辆重新定位，乘车，路由和动态定价主题的论文。在过去的几年中，大多数文献都出现了，并且要继续解决一些核心挑战：模型复杂性，代理协调和多个杠杆的联合优化。因此，我们还引入了流行的数据集和开放式仿真环境，以促进进一步的研发。随后，我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。

translated by 谷歌翻译