智能论文笔记

Deep Reinforcement Learning for Uplink Multi-Carrier Non-Orthogonal Multiple Access Resource Allocation Using Buffer State Information

Eike-Manuel Bansbach , Yigit Kiyak , Laurent Schmalen

分类：机器学习

2022-08-31

对于正交多访问（OMA）系统，服务的用户设备（UES）的数量仅限于可用的正交资源的数量。另一方面，非正交多访问（NOMA）方案允许多个UES使用相同的正交资源。这种额外的自由度为资源分配带来了新的挑战。缓冲状态信息（BSI），例如等待传输的数据包的大小和年龄，可用于改善OMA系统中的调度。在本文中，我们研究了BSI对上行链路多载波NOMA场景中集中调度程序的性能的影响，UE具有各种数据速率和延迟要求。为了处理将UES分配给资源的大型组合空间，我们提出了一个基于Actor-Critic-Critic强化学习纳入BSI的新型调度程序。使用诺基亚的“无线套件”进行培训和评估。我们提出了各种新颖的技术来稳定和加快训练。建议的调度程序优于基准调度程序。

translated by 谷歌翻译

HTML版本

Computation Offloading and Resource Allocation in F-RANs: A Federated Deep Reinforcement Learning Approach

Lingling Zhang , Yanxiang Jiang , Fu-Chun Zheng , Mehdi Bennis , Xiaohu You

分类：机器学习 | 人工智能

2022-06-13

FOG无线电访问网络（F-RAN）是一项有前途的技术，用户移动设备（MDS）可以将计算任务卸载到附近的FOG接入点（F-APS）。由于F-APS的资源有限，因此设计有效的任务卸载方案很重要。在本文中，通过考虑随时间变化的网络环境，制定了F-RAN中的动态计算卸载和资源分配问题，以最大程度地减少MD的任务执行延迟和能源消耗。为了解决该问题，提出了基于联合的深入强化学习（DRL）算法，其中深层确定性策略梯度（DDPG）算法在每个F-AP中执行计算卸载和资源分配。利用联合学习来培训DDPG代理，以降低培训过程的计算复杂性并保护用户隐私。仿真结果表明，与其他现有策略相比，提议的联合DDPG算法可以更快地实现MDS更快的任务执行延迟和能源消耗。

translated by 谷歌翻译

Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks

Peyman Tehrani , Francesco Restuccia , Marco Levorato

分类：机器学习

2021-12-07

预计下一代（NEVERG）网络将支持苛刻的触觉互联网应用，例如增强现实和连接的自动车辆。虽然最近的创新带来了更大的联系能力的承诺，它们对环境的敏感性以及不稳定的性能无视基于传统的基于模型的控制理由。零触摸数据驱动的方法可以提高网络适应当前操作条件的能力。诸如强化学习（RL）算法等工具可以仅基于观察历史来构建最佳控制策略。具体而言，使用深神经网络（DNN）作为预测器的深RL（DRL）已经被示出，即使在复杂的环境和高维输入中也能够实现良好的性能。但是，DRL模型的培训需要大量数据，这可能会限制其对潜在环境的不断发展统计数据的适应性。此外，无线网络是固有的分布式系统，其中集中式DRL方法需要过多的数据交换，而完全分布的方法可能导致较慢的收敛速率和性能下降。在本文中，为了解决这些挑战，我们向DRL提出了联合学习（FL）方法，我们指的是联邦DRL（F-DRL），其中基站（BS）通过仅共享模型的重量协作培训嵌入式DNN而不是训练数据。我们评估了两个不同版本的F-DRL，价值和策略，并显示出与分布式和集中式DRL相比实现的卓越性能。

translated by 谷歌翻译

Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey

Tianxu Li , Kun Zhu , Nguyen Cong Luong , Dusit Niyato , Qihui Wu , Yang Zhang , Bing Chen

分类：人工智能 | 机器学习

2021-10-26

未来的互联网涉及几种新兴技术，例如5G和5G网络，车辆网络，无人机（UAV）网络和物联网（IOT）。此外，未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定，以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法，例如单药强化学习（RL）或深入强化学习（DRL），以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是，这种算法未能对网络实体之间的合作或竞争进行建模，而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习（MARL）允许每个网络实体不仅观察环境，还可以观察其他实体的政策来学习其最佳政策。结果，MAL可以显着提高网络实体的学习效率，并且最近已用于解决新兴网络中的各种问题。在本文中，我们因此回顾了MAL在新兴网络中的应用。特别是，我们提供了MARL的教程，以及对MARL在下一代互联网中的应用进行全面调查。特别是，我们首先介绍单代机Agent RL和MARL。然后，我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问，传输电源控制，计算卸载，内容缓存，数据包路由，无人机网络的轨迹设计以及网络安全问题。

translated by 谷歌翻译

Device Selection for the Coexistence of URLLC and Distributed Learning Services

Milad Ganjalizadeh , Hossein Shokri Ghadikolaei , Deniz Gündüz , Marina Petrova

分类：机器学习

2022-12-22

Recent advances in distributed artificial intelligence (AI) have led to tremendous breakthroughs in various communication services, from fault-tolerant factory automation to smart cities. When distributed learning is run over a set of wirelessly connected devices, random channel fluctuations and the incumbent services running on the same network impact the performance of both distributed learning and the coexisting service. In this paper, we investigate a mixed service scenario where distributed AI workflow and ultra-reliable low latency communication (URLLC) services run concurrently over a network. Consequently, we propose a risk sensitivity-based formulation for device selection to minimize the AI training delays during its convergence period while ensuring that the operational requirements of the URLLC service are met. To address this challenging coexistence problem, we transform it into a deep reinforcement learning problem and address it via a framework based on soft actor-critic algorithm. We evaluate our solution with a realistic and 3GPP-compliant simulator for factory automation use cases. Our simulation results confirm that our solution can significantly decrease the training delay of the distributed AI service while keeping the URLLC availability above its required threshold and close to the scenario where URLLC solely consumes all network resources.

translated by 谷歌翻译

Decentralized Federated Reinforcement Learning for User-Centric Dynamic TFDD Control

Ziyan Yin , Zhe Wang , Jun Li , Ming Ding , Wen Chen , Shi Jin

分类：机器学习

2022-11-04

The explosive growth of dynamic and heterogeneous data traffic brings great challenges for 5G and beyond mobile networks. To enhance the network capacity and reliability, we propose a learning-based dynamic time-frequency division duplexing (D-TFDD) scheme that adaptively allocates the uplink and downlink time-frequency resources of base stations (BSs) to meet the asymmetric and heterogeneous traffic demands while alleviating the inter-cell interference. We formulate the problem as a decentralized partially observable Markov decision process (Dec-POMDP) that maximizes the long-term expected sum rate under the users' packet dropping ratio constraints. In order to jointly optimize the global resources in a decentralized manner, we propose a federated reinforcement learning (RL) algorithm named federated Wolpertinger deep deterministic policy gradient (FWDDPG) algorithm. The BSs decide their local time-frequency configurations through RL algorithms and achieve global training via exchanging local RL models with their neighbors under a decentralized federated learning framework. Specifically, to deal with the large-scale discrete action space of each BS, we adopt a DDPG-based algorithm to generate actions in a continuous space, and then utilize Wolpertinger policy to reduce the mapping errors from continuous action space back to discrete action space. Simulation results demonstrate the superiority of our proposed algorithm to benchmark algorithms with respect to system sum rate.

translated by 谷歌翻译

Asynchronous Hybrid Reinforcement Learning for Latency and Reliability Optimization in the Metaverse over Wireless Communications

Wenhan Yu , Terence Jie Chua , Jun Zhao

分类：机器学习

2022-12-30

Technology advancements in wireless communications and high-performance Extended Reality (XR) have empowered the developments of the Metaverse. The demand for Metaverse applications and hence, real-time digital twinning of real-world scenes is increasing. Nevertheless, the replication of 2D physical world images into 3D virtual world scenes is computationally intensive and requires computation offloading. The disparity in transmitted scene dimension (2D as opposed to 3D) leads to asymmetric data sizes in uplink (UL) and downlink (DL). To ensure the reliability and low latency of the system, we consider an asynchronous joint UL-DL scenario where in the UL stage, the smaller data size of the physical world scenes captured by multiple extended reality users (XUs) will be uploaded to the Metaverse Console (MC) to be construed and rendered. In the DL stage, the larger-size 3D virtual world scenes need to be transmitted back to the XUs. The decisions pertaining to computation offloading and channel assignment are optimized in the UL stage, and the MC will optimize power allocation for users assigned with a channel in the UL transmission stage. Some problems arise therefrom: (i) interactive multi-process chain, specifically Asynchronous Markov Decision Process (AMDP), (ii) joint optimization in multiple processes, and (iii) high-dimensional objective functions, or hybrid reward scenarios. To ensure the reliability and low latency of the system, we design a novel multi-agent reinforcement learning algorithm structure, namely Asynchronous Actors Hybrid Critic (AAHC). Extensive experiments demonstrate that compared to proposed baselines, AAHC obtains better solutions with preferable training time.

translated by 谷歌翻译

Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in O-RAN

Fatemeh Lotfi , Omid Semiari , Fatemeh Afghah

分类：人工智能 | 机器学习 | 神经与进化计算

2022-08-30

需要下一代无线网络以同时满足各种服务和标准。为了解决即将到来的严格条件，开发了具有柔性设计，分解虚拟和可编程组件以及智能闭环控制等特征的新型开放式访问网络（O-RAN）。面对不断变化的情况，O-Ran切片被研究为确保网络服务质量（QoS）的关键策略。但是，必须动态控制不同的网络切片，以避免由环境快速变化引起的服务水平一致性（SLA）变化。因此，本文介绍了一个新颖的框架，能够通过智能提供的提供资源来管理网络切片。由于不同的异质环境，智能机器学习方法需要足够的探索来处理无线网络中最严厉的情况并加速收敛。为了解决这个问题，提出了一种新解决方案，基于基于进化的深度强化学习（EDRL），以加速和优化无线电访问网络（RAN）智能控制器（RIC）模块中的切片管理学习过程。为此，O-RAN切片被表示为Markov决策过程（MDP），然后最佳地解决了资源分配，以使用EDRL方法满足服务需求。在达到服务需求方面，仿真结果表明，所提出的方法的表现优于DRL基线62.2％。

translated by 谷歌翻译

HTML版本

Resource Allocation for Mobile Metaverse with the Internet of Vehicles over 6G Wireless Communications: A Deep Reinforcement Learning Approach

Terence Jie Chua , Wenhan Yu , Jun Zhao

分类：机器学习

2022-09-27

改善人与人之间的互动性和互连性是元视频的亮点之一。荟萃分析依赖于核心方法，数字孪生，这是将物理世界对象，人，动作和场景复制到虚拟世界中的一种手段。能够在实时和移动性的情况下访问与物理世界相关的场景和信息，对于为所有用户开发高度可访问，互动和互连体验至关重要。这种开发使来自其他位置的用户可以访问有关另一个位置发生的事件的高质量现实世界和最新信息，并与他人进行超相互交流的社交。然而，由于虚拟世界图形的数据大小以及对低延迟传输的需求，因此其他人从元评估中产生的持续，平稳的更新是一项具有挑战性的任务。随着移动增强现实（MAR）的开发，用户也可以通过高度交互方式（即使在移动性下）通过元视频进行交互。因此，在我们的工作中，我们考虑了一个环境，其中包括移动车辆互联网（IOV）的用户，并通过无线通信从Metaverse Service Provister Pasting Stations（MSPCSS）下载实时虚拟世界更新。我们设计了一个具有多个单元站的环境，其中将在细胞站之间交换用户虚拟世界图形下载任务。由于传输延迟是在移动性下接收虚拟世界更新的主要关注点，因此我们的工作旨在分配系统资源，以最大程度地减少用户在车辆中使用的总时间，以便从单元站下载其虚拟世界场景。我们利用深度强化学习并评估不同环境配置下算法的性能。我们的工作提供了启用AI支持的6G通信的元视体的用例。

translated by 谷歌翻译

Practical Deep Reinforcement Learning Approach for Stock Trading

Xiao-Yang Liu , Zhuoran Xiong , Shan Zhong , Hongyang Yang , Anwar Walid

分类：机器学习 | (统计)机器学习

2018-11-19

股票交易策略在投资公司中起着至关重要的作用。但是，在复杂而动态的股票市场中获得最佳策略是一项挑战。我们探索了深入学习的潜力，以优化股票交易策略，从而最大程度地提高投资回报。选择30个股票作为我们的贸易股票，其日用价格被用作培训和交易市场环境。我们培训一个深入的增强学习代理，并获得自适应交易策略。评估了代理商的绩效，并将其与道琼斯工业平均水平和传统的最小变化投资组合分配策略进行了比较。拟议的深钢筋学习方法显示出在夏普比和累积回报方面都优于两个基准。

translated by 谷歌翻译

Ensemble Consensus-based Representation Deep Reinforcement Learning for Hybrid FSO/RF Communication Systems

Shagufta Henna

分类：机器学习

2021-08-05

Hybrid FSO/RF system requires an efficient FSO and RF link switching mechanism to improve the system capacity by realizing the complementary benefits of both the links. The dynamics of network conditions, such as fog, dust, and sand storms compound the link switching problem and control complexity. To address this problem, we initiate the study of deep reinforcement learning (DRL) for link switching of hybrid FSO/RF systems. Specifically, in this work, we focus on actor-critic called Actor/Critic-FSO/RF and Deep-Q network (DQN) called DQN-FSO/RF for FSO/RF link switching under atmospheric turbulences. To formulate the problem, we define the state, action, and reward function of a hybrid FSO/RF system. DQN-FSO/RF frequently updates the deployed policy that interacts with the environment in a hybrid FSO/RF system, resulting in high switching costs. To overcome this, we lift this problem to ensemble consensus-based representation learning for deep reinforcement called DQNEnsemble-FSO/RF. The proposed novel DQNEnsemble-FSO/RF DRL approach uses consensus learned features representations based on an ensemble of asynchronous threads to update the deployed policy. Experimental results corroborate that the proposed DQNEnsemble-FSO/RF's consensus-learned features switching achieves better performance than Actor/Critic-FSO/RF, DQN-FSO/RF, and MyOpic for FSO/RF link switching while keeping the switching cost significantly low.

translated by 谷歌翻译

Learning based Age of Information Minimization in UAV-relayed IoT Networks

Biplav Choudhury , Prasenjit Karmakar , Vijay K. Shah , Jeffrey H. Reed

分类：机器学习

2022-03-08

无人驾驶飞机（UAV）用作空中基础站，可将时间敏感的包装从物联网设备传递到附近的陆地底站（TBS）。在此类无人产用的物联网网络中安排数据包，以确保TBS在TBS上确保新鲜（或最新的）物联网设备的数据包是一个挑战性的问题，因为它涉及两个同时的步骤（i）（i）在IOT设备上生成的数据包的同时进行样本由UAVS [HOP-1]和（ii）将采样数据包从UAVS更新到TBS [Hop-2]。为了解决这个问题，我们建议针对两跳UAV相关的IoT网络的信息年龄（AOI）调度算法。首先，我们提出了一个低复杂的AOI调度程序，称为MAF-MAD，该计划使用UAV（HOP-1）和最大AOI差异（MAD）策略采样最大AOI（MAF）策略，以更新从无人机到TBS（Hop-2）。我们证明，MAF-MAD是理想条件下的最佳AOI调度程序（无线无线通道和在物联网设备上产生交通生成）。相反，对于一般条件（物联网设备的损失渠道条件和不同的周期性交通生成），提出了深厚的增强学习算法，即近端政策优化（PPO）基于调度程序。仿真结果表明，在所有考虑的一般情况下，建议的基于PPO的调度程序优于MAF-MAD，MAF和Round-Robin等其他调度程序。

translated by 谷歌翻译

Multi-hop RIS-Empowered Terahertz Communications: A DRL-based Hybrid Beamforming Design

Chongwen Huang , Zhaohui Yang , George C. Alexandropoulos , Kai Xiong , Li Wei , Chau Yuen , Zhaoyang Zhang , Merouane Debbah

分类：机器学习

2021-01-22

Terahertz频段（0.1---10 THZ）中的无线通信被视为未来第六代（6G）无线通信系统的关键促进技术之一，超出了大量多重输入多重输出（大量MIMO）技术。但是，THZ频率的非常高的传播衰减和分子吸收通常限制了信号传输距离和覆盖范围。从最近在可重构智能表面（RIS）上实现智能无线电传播环境的突破，我们为多跳RIS RIS辅助通信网络提供了一种新型的混合波束形成方案，以改善THZ波段频率的覆盖范围。特别是，部署了多个被动和可控的RIS，以协助基站（BS）和多个单人体用户之间的传输。我们通过利用最新的深钢筋学习（DRL）来应对传播损失的最新进展，研究了BS在BS和RISS上的模拟光束矩阵的联合设计。为了改善拟议的基于DRL的算法的收敛性，然后设计了两种算法，以初始化数字波束形成和使用交替优化技术的模拟波束形成矩阵。仿真结果表明，与基准相比，我们提出的方案能够改善50 \％的THZ通信范围。此外，还表明，我们提出的基于DRL的方法是解决NP-固定光束形成问题的最先进方法，尤其是当RIS辅助THZ通信网络的信号经历多个啤酒花时。

translated by 谷歌翻译

Scheduling Out-of-Coverage Vehicular Communications Using Reinforcement Learning

Taylan Şahin , Ramin Khalili , Mate Boban , Adam Wolisz

分类：人工智能

2022-07-13

车辆到车辆（V2V）通信的性能在很大程度上取决于使用的调度方法。虽然集中式网络调度程序提供高V2V通信可靠性，但它们的操作通常仅限于具有完整的蜂窝网络覆盖范围的区域。相比之下，在细胞外覆盖区域中，使用了相对效率低下的分布式无线电资源管理。为了利用集中式方法的好处来增强V2V通信在缺乏蜂窝覆盖的道路上的可靠性，我们建议使用VRLS（车辆加固学习调度程序），这是一种集中的调度程序，该调度程序主动为覆盖外的V2V Communications主动分配资源，以前}车辆离开蜂窝网络覆盖范围。通过在模拟的车辆环境中进行培训，VRL可以学习一项适应环境变化的调度策略，从而消除了在复杂的现实生活环境中对有针对性（重新）培训的需求。我们评估了在不同的移动性，网络负载，无线通道和资源配置下VRL的性能。 VRL的表现优于最新的区域中最新分布式调度算法，而无需蜂窝网络覆盖，通过在高负载条件下将数据包错误率降低了一半，并在低负载方案中实现了接近最大的可靠性。

translated by 谷歌翻译

Learning Emergent Random Access Protocol for LEO Satellite Networks

Ju-Hyung Lee , Hyowoon Seo , Jihong Park , Mehdi Bennis , Young-Chai Ko

分类：机器学习

2021-12-03

设想了一座低空地球轨道（LEO）卫星（SAT）的Mega-Constulation，以提供超出第五代（5G）蜂窝系统的全球覆盖网网络。 Leo SAT网络在时代的SAT网络拓扑中展示了许多用户的极长链接距离。这使得现有的多个访问协议，例如基于随机接入信道（RACH）的蜂窝协议，专为固定地面网络拓扑而设计，不适用于。为了克服这个问题，在本文中，我们提出了一种新颖的LEO SAT网络无随机访问解决方案，被称为随机接入信道协议（ERACH）。在与现有的基于模型和标准化协议的鲜明对比中，ERACH是一种无模型方法，通过使用多档次深度加强学习（Madrl），通过与非静止网络环境的互动出现。此外，通过利用已知的SAT轨道模式，ERACH不需要跨越用户的中心协调或额外的通信，而训练会聚通过规则的轨道模式稳定。与RACH相比，我们从各种模拟中展示了我们所提出的ERACH的平均网络吞吐量增加了54.6％，平均访问延迟较低的两倍，同时实现了0.989的jain的公平指数。

translated by 谷歌翻译

Cooperative Reinforcement Learning on Traffic Signal Control

Chi-Chun Chao , Jun-Wei Hsieh , Bor-Shiun Wang

分类：人工智能

2022-05-23

交通信号控制是一个具有挑战性的现实问题，旨在通过协调道路交叉路口的车辆移动来最大程度地减少整体旅行时间。现有使用中的流量信号控制系统仍然很大程度上依赖于过度简化的信息和基于规则的方法。具体而言，可以将绿色/红灯交替的周期性视为在策略优化中对每个代理进行更好计划的先验。为了更好地学习这种适应性和预测性先验，传统的基于RL的方法只能从只有本地代理的预定义动作池返回固定的长度。如果这些代理之间没有合作，则某些代理商通常会对其他代理产生冲突，从而减少整个吞吐量。本文提出了一个合作，多目标体系结构，具有年龄段的权重，以更好地估算流量信号控制优化的多重奖励条款，该奖励术语称为合作的多目标多代理多代理深度确定性策略梯度（Comma-ddpg）。运行的两种类型的代理可以最大程度地提高不同目标的奖励 - 一种用于每个交叉路口的本地流量优化，另一种用于全球流量等待时间优化。全球代理用于指导本地代理作为帮助更快学习的手段，但在推理阶段不使用。我们还提供了解决溶液存在的分析，并为提出的RL优化提供了融合证明。使用亚洲国家的交通摄像机收集的现实世界流量数据进行评估。我们的方法可以有效地将总延迟时间减少60 \％。结果表明，与SOTA方法相比，其优越性。

translated by 谷歌翻译

Model-Free Reinforcement Learning for Asset Allocation

Adebayo Oshingbesan , Eniola Ajiboye , Peruth Kamashazi , Timothy Mbaka

分类：机器学习

2022-09-21

资产分配（或投资组合管理）是确定如何最佳将有限预算的资金分配给一系列金融工具/资产（例如股票）的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习（RL）的性能。我们培训了几个RL代理商的现实股票价格，以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理，以了解哪些类别的代理表现更好。从我们的分析中，RL代理可以执行投资组合管理的任务，因为它们的表现明显优于基线代理（随机分配和均匀分配）。四个RL代理（A2C，SAC，PPO和TRPO）总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外，基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样，在政策代理商方面的表现要好，因为它们在政策评估方面更好，样品效率在投资组合管理中并不是一个重大问题。这项研究表明，RL代理可以大大改善资产分配，因为它们的表现优于强基础。基于我们的分析，在政策上，参与者批评的RL药物显示出最大的希望。

translated by 谷歌翻译

Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning

Pihe Hu , Ling Pan , Yu Chen , Zhixuan Fang , Longbo Huang

分类：机器学习

2022-08-30

多用户延迟约束调度在许多现实世界应用中都很重要，包括无线通信，实时流和云计算。然而，它提出了一个关键的挑战，因为调度程序需要做出实时决策，以确保没有系统动力学的先前信息，这可能是时间变化且难以估算的。此外，许多实际情况都遭受了部分可观察性问题的影响，例如，由于感应噪声或隐藏的相关性。为了应对这些挑战，我们提出了一种深入的强化学习（DRL）算法，称为Recurrent Softmax延迟深层双重确定性策略梯度（$ \ Mathtt {RSD4} $），这是一种基于数据驱动的方法，基于部分观察到的Markov决策过程（POMDP）配方。 $ \ mathtt {rsd4} $分别通过拉格朗日双重和延迟敏感的队列保证资源和延迟约束。它还可以通过复发性神经网络（RNN）启用的记忆机制有效地解决部分可观察性，并引入用户级分解和节点级别的合并以确保可扩展性。对模拟/现实世界数据集的广泛实验表明，$ \ mathtt {rsd4} $对系统动力学和部分可观察到的环境是可靠的，并且在现有的DRL和非基于DRL的方法上实现了卓越的性能。

translated by 谷歌翻译

HTML版本

Online Service Migration in Edge Computing with Incomplete Information: A Deep Recurrent Actor-Critic Method

Jin Wang , Jia Hu , Geyong Min , Qiang Ni , Tarek El-Ghazawi

分类：机器学习

2020-12-16

多访问边缘计算（MEC）是一个新兴的计算范式，将云计算扩展到网络边缘，以支持移动设备上的资源密集型应用程序。作为MEC的关键问题，服务迁移需要决定如何迁移用户服务，以维持用户在覆盖范围和容量有限的MEC服务器之间漫游的服务质量。但是，由于动态的MEC环境和用户移动性，找到最佳的迁移策略是棘手的。许多现有研究根据完整的系统级信息做出集中式迁移决策，这是耗时的，并且缺乏理想的可扩展性。为了应对这些挑战，我们提出了一种新颖的学习驱动方法，该方法以用户为中心，可以通过使用不完整的系统级信息来做出有效的在线迁移决策。具体而言，服务迁移问题被建模为可观察到的马尔可夫决策过程（POMDP）。为了解决POMDP，我们设计了一个新的编码网络，该网络结合了长期记忆（LSTM）和一个嵌入式矩阵，以有效提取隐藏信息，并进一步提出了一种定制的非政策型演员 - 批判性算法，以进行有效的训练。基于现实世界的移动性痕迹的广泛实验结果表明，这种新方法始终优于启发式和最先进的学习驱动算法，并且可以在各种MEC场景上取得近乎最佳的结果。

translated by 谷歌翻译

Scalable Joint Learning of Wireless Multiple-Access Policies and their Signaling

Mateus P. Mota , Alvaro Valcarce , Jean-Marie Gorce

分类：人工智能 | 机器学习

2022-06-08

在本文中，我们应用了一个多代理增强学习（MARL）框架，允许基站（BS）和用户设备（UES）共同学习频道访问策略及其在无线的多个访问方案中的信号。在此框架中，BS和UES是需要合作才能提供数据的增强剂学习（RL）代理。与无争议和基于争议的基线的比较表明，即使在高流量情况下，我们的框架在高速公路上也达到了卓越的性能，同时保持低碰撞率。研究了该方法的可伸缩性，因为它是MARL中的一个主要问题，本文提供了第一个结果以解决它。

translated by 谷歌翻译