提出了一种新型可重构智能表面辅助的多机器人网络,其中多个移动机器人通过非正交多重访问(NOMA)提供了多个移动机器人(AP)。目的是通过共同优化机器人的轨迹和NOMA解码顺序,RIS的相移系数以及AP的功率分配,从而最大化多机器人系统的整个轨迹的总和率机器人的位置和每个机器人的服务质量(QoS)。为了解决这个问题,提出了一个集成的机器学习(ML)方案,该方案结合了长期记忆(LSTM) - 自动进取的集成移动平均线(ARIMA)模型和Duel Duel Double Deep Q-network(D $^{3} $ QN)算法。对于机器人的初始和最终位置预测,LSTM-ARIMA能够克服非平稳和非线性数据序列的梯度销售问题。为了共同确定相移矩阵和机器人的轨迹,调用D $^{3} $ qn用于解决动作值高估的问题。基于提议的方案,每个机器人都基于整个轨迹的最大总和率持有全局最佳轨迹,该轨迹揭示了机器人为整个轨迹设计追求长期福利。数值结果表明:1)LSTM-ARIMA模型提供了高精度预测模型; 2)提出的d $^{3} $ qn算法可以实现快速平均收敛; 3)具有较高分辨率位的RI提供的轨迹比率比低分辨率比特更大; 4)与RIS AID的正交对应物相比,RIS-NOMA网络的网络性能卓越。
translated by 谷歌翻译
室内多机器人通信面临两个关键挑战:一个是由堵塞(例如墙壁)引起的严重信号强度降解,另一个是由机器人移动性引起的动态环境。为了解决这些问题,我们考虑可重构的智能表面(RIS)来克服信号阻塞并协助多个机器人之间的轨迹设计。同时,采用了非正交的多重访问(NOMA)来应对频谱的稀缺并增强机器人的连通性。考虑到机器人的电池能力有限,我们旨在通过共同优化接入点(AP)的发射功率,RIS的相移和机器人的轨迹来最大化能源效率。开发了一种新颖的联邦深入强化学习(F-DRL)方法,以通过一个动态的长期目标解决这个具有挑战性的问题。通过每个机器人规划其路径和下行链路功率,AP只需要确定RIS的相移,这可以大大保存由于训练维度降低而导致的计算开销。仿真结果揭示了以下发现:i)与集中式DRL相比,提出的F-DRL可以减少至少86%的收敛时间; ii)设计的算法可以适应越来越多的机器人; iii)与传统的基于OMA的基准相比,NOMA增强方案可以实现更高的能源效率。
translated by 谷歌翻译
同时传输和反射可重构的智能表面(星际摩托车)是一种有前途的被动装置,通过同时传输和反映入射信号,从而有助于全空间覆盖。作为无线通信的新范式,如何分析星际轮胎的覆盖范围和能力性能变得至关重要,但具有挑战性。为了解决星际辅助网络中的覆盖范围和容量优化(CCO)问题,提出了多目标近端策略优化(MO-PPO)算法来处理长期利益,而不是传统优化算法。为了在每个目标之间取得平衡,MO-PPO算法提供了一组最佳解决方案,以形成Pareto前部(PF),其中PF上的任何解决方案都被视为最佳结果。此外,研究了为了提高MO-PPO算法的性能,两种更新策略,即基于动作值的更新策略(AVU)和基于损失功能的更新策略(LFUS)。对于AVU,改进的点是整合覆盖范围和容量的动作值,然后更新损失函数。对于LFU,改进的点仅是为覆盖范围和容量损失函数分配动态权重,而权重在每个更新时由最小值求解器计算出来。数值结果表明,调查的更新策略在不同情况下的固定权重优化算法优于MO优化算法,其中包括不同数量的样品网格,星轮的数量,星轮中的元素数量和大小星际船。此外,星际辅助网络比没有星际轮胎的传统无线网络获得更好的性能。此外,具有相同的带宽,毫米波能够提供比低6 GHz更高的容量,但覆盖率较小。
translated by 谷歌翻译
Terahertz频段(0.1---10 THZ)中的无线通信被视为未来第六代(6G)无线通信系统的关键促进技术之一,超出了大量多重输入多重输出(大量MIMO)技术。但是,THZ频率的非常高的传播衰减和分子吸收通常限制了信号传输距离和覆盖范围。从最近在可重构智能表面(RIS)上实现智能无线电传播环境的突破,我们为多跳RIS RIS辅助通信网络提供了一种新型的混合波束形成方案,以改善THZ波段频率的覆盖范围。特别是,部署了多个被动和可控的RIS,以协助基站(BS)和多个单人体用户之间的传输。我们通过利用最新的深钢筋学习(DRL)来应对传播损失的最新进展,研究了BS在BS和RISS上的模拟光束矩阵的联合设计。为了改善拟议的基于DRL的算法的收敛性,然后设计了两种算法,以初始化数字波束形成和使用交替优化技术的模拟波束形成矩阵。仿真结果表明,与基准相比,我们提出的方案能够改善50 \%的THZ通信范围。此外,还表明,我们提出的基于DRL的方法是解决NP-固定光束形成问题的最先进方法,尤其是当RIS辅助THZ通信网络的信号经历多个啤酒花时。
translated by 谷歌翻译
可重新配置的智能表面(RIS)已成为近年来改善无线通信的有希望的技术。它通过控制具有较少硬件成本和较低功耗来控制可重新配置的被动元件来引导入射信号来创建有利的传播环境。在本文中,我们考虑了一个RIS辅助多用户多输入单输出下行链路通信系统。我们的目标是通过在接入点和RIS元件的被动波束形成向量中优化主动波束形成来最大化所有用户的加权和速率。与大多数现有的作品不同,我们考虑使用离散相移和不完美的信道状态信息(CSI)更实际的情况。具体而言,对于考虑离散相移和完美CSI的情况,我们首先开发一个深量化的神经网络(DQNN),同时设计主动和被动波束形成,而大多数报道的作品可选地设计。然后,我们基于DQNN提出改进的结构(I-DQNN),以简化参数决策过程,当每个RIS元素的控制位大于1位时。最后,我们将两种基于DQNN的算法扩展到同时考虑离散相移和不完全CSI的情况。我们的仿真结果表明,基于DQNN的两种算法比完美CSI案例中的传统算法更好,并且在不完美的CSI案例中也是更强大的。
translated by 谷歌翻译
同时传输和反射可重新配置的可重新配置智能表面(Star-Riss)被认为是有希望的辅助设备,以增强无线网络的性能,其中位于表面的不同侧的用户可以同时由发送和反射信号同时服务。本文研究了非正交多通道(NOMA)辅助星级下行链路网络的能效(EE)最大化问题。由于EE的分数形式,通过传统的凸优化解决方案解决EE最大化问题是挑战性的。在这项工作中,提出了一种深度确定的政策梯度(DDPG)基于算法,以通过共同优化基站的传输波束成形矢量和Star-RIS的系数矩阵来最大化EE。仿真结果表明,考虑时变通道,所提出的算法可以有效地最大化系统EE。
translated by 谷歌翻译
Recent technological advancements in space, air and ground components have made possible a new network paradigm called "space-air-ground integrated network" (SAGIN). Unmanned aerial vehicles (UAVs) play a key role in SAGINs. However, due to UAVs' high dynamics and complexity, the real-world deployment of a SAGIN becomes a major barrier for realizing such SAGINs. Compared to the space and terrestrial components, UAVs are expected to meet performance requirements with high flexibility and dynamics using limited resources. Therefore, employing UAVs in various usage scenarios requires well-designed planning in algorithmic approaches. In this paper, we provide a comprehensive review of recent learning-based algorithmic approaches. We consider possible reward functions and discuss the state-of-the-art algorithms for optimizing the reward functions, including Q-learning, deep Q-learning, multi-armed bandit (MAB), particle swarm optimization (PSO) and satisfaction-based learning algorithms. Unlike other survey papers, we focus on the methodological perspective of the optimization problem, which can be applicable to various UAV-assisted missions on a SAGIN using these algorithms. We simulate users and environments according to real-world scenarios and compare the learning-based and PSO-based methods in terms of throughput, load, fairness, computation time, etc. We also implement and evaluate the 2-dimensional (2D) and 3-dimensional (3D) variations of these algorithms to reflect different deployment cases. Our simulation suggests that the $3$D satisfaction-based learning algorithm outperforms the other approaches for various metrics in most cases. We discuss some open challenges at the end and our findings aim to provide design guidelines for algorithm selections while optimizing the deployment of UAV-assisted SAGINs.
translated by 谷歌翻译
Unmanned aerial vehicle (UAV) swarms are considered as a promising technique for next-generation communication networks due to their flexibility, mobility, low cost, and the ability to collaboratively and autonomously provide services. Distributed learning (DL) enables UAV swarms to intelligently provide communication services, multi-directional remote surveillance, and target tracking. In this survey, we first introduce several popular DL algorithms such as federated learning (FL), multi-agent Reinforcement Learning (MARL), distributed inference, and split learning, and present a comprehensive overview of their applications for UAV swarms, such as trajectory design, power control, wireless resource allocation, user assignment, perception, and satellite communications. Then, we present several state-of-the-art applications of UAV swarms in wireless communication systems, such us reconfigurable intelligent surface (RIS), virtual reality (VR), semantic communications, and discuss the problems and challenges that DL-enabled UAV swarms can solve in these applications. Finally, we describe open problems of using DL in UAV swarms and future research directions of DL enabled UAV swarms. In summary, this survey provides a comprehensive survey of various DL applications for UAV swarms in extensive scenarios.
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
在这项工作中,我们优化了基于无人机(UAV)的便携式接入点(PAP)的3D轨迹,该轨迹为一组接地节点(GNS)提供无线服务。此外,根据Peukert效果,我们考虑无人机电池的实用非线性电池放电。因此,我们以一种新颖的方式提出问题,代表了基于公平的能源效率度量的最大化,并被称为公平能源效率(费用)。费用指标定义了一个系统,该系统对每用户服务的公平性和PAP的能源效率都非常重要。该法式问题采用非凸面问题的形式,并具有不可扣除的约束。为了获得解决方案,我们将问题表示为具有连续状态和动作空间的马尔可夫决策过程(MDP)。考虑到解决方案空间的复杂性,我们使用双胞胎延迟的深层确定性政策梯度(TD3)参与者 - 批判性深入强化学习(DRL)框架来学习最大化系统费用的政策。我们进行两种类型的RL培训来展示我们方法的有效性:第一种(离线)方法在整个训练阶段保持GN的位置相同;第二种方法将学习的政策概括为GN的任何安排,通过更改GN的位置,每次培训情节后。数值评估表明,忽视Peukert效应高估了PAP的播放时间,可以通过最佳选择PAP的飞行速度来解决。此外,用户公平,能源效率,因此可以通过有效地将PAP移动到GN上方,从而提高系统的费用价值。因此,我们注意到郊区,城市和茂密的城市环境的基线情景高达88.31%,272.34%和318.13%。
translated by 谷歌翻译
In heterogeneous networks (HetNets), the overlap of small cells and the macro cell causes severe cross-tier interference. Although there exist some approaches to address this problem, they usually require global channel state information, which is hard to obtain in practice, and get the sub-optimal power allocation policy with high computational complexity. To overcome these limitations, we propose a multi-agent deep reinforcement learning (MADRL) based power control scheme for the HetNet, where each access point makes power control decisions independently based on local information. To promote cooperation among agents, we develop a penalty-based Q learning (PQL) algorithm for MADRL systems. By introducing regularization terms in the loss function, each agent tends to choose an experienced action with high reward when revisiting a state, and thus the policy updating speed slows down. In this way, an agent's policy can be learned by other agents more easily, resulting in a more efficient collaboration process. We then implement the proposed PQL in the considered HetNet and compare it with other distributed-training-and-execution (DTE) algorithms. Simulation results show that our proposed PQL can learn the desired power control policy from a dynamic environment where the locations of users change episodically and outperform existing DTE MADRL algorithms.
translated by 谷歌翻译
为了减轻阴影衰落和障碍物阻塞的影响,可重新配置的智能表面(RIS)已经成为一种有前途的技术,通过控制具有较少硬件成本和更低的功耗来改善无线通信的信号传输质量。然而,由于大量的RIS被动元件,准确,低延迟和低导频和低导架频道状态信息(CSI)采集仍然是RIS辅助系统的相当大挑战。在本文中,我们提出了一个三阶段的关节通道分解和预测框架来要求CSI。所提出的框架利用了基站(BS)-RIS通道是准静态的两次时间段属性,并且RIS用户设备(UE)通道快速时变。具体而言,在第一阶段,我们使用全双工技术来估计BS的特定天线和RIS之间的信道,解决信道分解中的关键缩放模糊问题。然后,我们设计了一种新型的深度神经网络,即稀疏连接的长短期存储器(SCLSTM),并分别在第二和第三阶段提出基于SCLSTM的算法。该算法可以从级联信道同时分解BS-RIS信道和RIS-UE信道,并捕获RIS-UE信道的时间关系以进行预测。仿真结果表明,我们所提出的框架具有比传统信道估计算法更低的导频开销,并且所提出的基于SCLSTM的算法也可以鲁棒地和有效地实现更准确的CSI采集。
translated by 谷歌翻译
可重新配置的智能表面(RIS)是未来无线通信系统的新兴技术。在这项工作中,我们考虑由RIS启用的下行链路空间多路复用,以获得加权和速率(WSR)最大化。在文献中,大多数解决方案使用交替的基于梯度的优化,具有中等性能,高复杂性和有限的可扩展性。我们建议应用完全卷积的网络(FCN)来解决这个问题,最初是为图像的语义分割而设计的。 RIS的矩形形状和具有相邻RIS天线的通道的空间相关性由于它们之间的短距离而鼓励我们将其应用于RIS配置。我们设计一组通道功能,包括通过RIS和Direct通道的级联通道。在基站(BS)中,可分离的最小均方平方误差(MMSE)预编码器用于预测,然后应用加权最小均方误差(WMMSE)预编码器以进行微调,这是不增强的,更复杂的,但实现更好的表现。评价结果表明,该解决方案具有更高的性能,允许比基线更快的评估。因此,它可以更好地缩放到大量的天线,推进RIS更接近实际部署的步骤。
translated by 谷歌翻译
本文调查了大师无人机(MUAV) - 互联网(IOT)网络,我们建议使用配备有智能反射表面(IRS)的可充电辅助UAV(AUAV)来增强来自MUAV的通信信号并将MUAG作为充电电源利用。在拟议的模型下,我们研究了这些能量有限的无人机的最佳协作策略,以最大限度地提高物联网网络的累计吞吐量。根据两个无人机之间是否有收费,配制了两个优化问题。为了解决这些问题,提出了两个多代理深度强化学习(DRL)方法,这些方法是集中培训多师深度确定性政策梯度(CT-MADDPG)和多代理深度确定性政策选项评论仪(MADDPOC)。结果表明,CT-MADDPG可以大大减少对UAV硬件的计算能力的要求,拟议的MADDPOC能够在连续动作域中支持低水平的多代理合作学习,其优于优势基于选项的分层DRL,只支持单代理学习和离散操作。
translated by 谷歌翻译
The connectivity-aware path design is crucial in the effective deployment of autonomous Unmanned Aerial Vehicles (UAVs). Recently, Reinforcement Learning (RL) algorithms have become the popular approach to solving this type of complex problem, but RL algorithms suffer slow convergence. In this paper, we propose a Transfer Learning (TL) approach, where we use a teacher policy previously trained in an old domain to boost the path learning of the agent in the new domain. As the exploration processes and the training continue, the agent refines the path design in the new domain based on the subsequent interactions with the environment. We evaluate our approach considering an old domain at sub-6 GHz and a new domain at millimeter Wave (mmWave). The teacher path policy, previously trained at sub-6 GHz path, is the solution to a connectivity-aware path problem that we formulate as a constrained Markov Decision Process (CMDP). We employ a Lyapunov-based model-free Deep Q-Network (DQN) to solve the path design at sub-6 GHz that guarantees connectivity constraint satisfaction. We empirically demonstrate the effectiveness of our approach for different urban environment scenarios. The results demonstrate that our proposed approach is capable of reducing the training time considerably at mmWave.
translated by 谷歌翻译
The deployment flexibility and maneuverability of Unmanned Aerial Vehicles (UAVs) increased their adoption in various applications, such as wildfire tracking, border monitoring, etc. In many critical applications, UAVs capture images and other sensory data and then send the captured data to remote servers for inference and data processing tasks. However, this approach is not always practical in real-time applications due to the connection instability, limited bandwidth, and end-to-end latency. One promising solution is to divide the inference requests into multiple parts (layers or segments), with each part being executed in a different UAV based on the available resources. Furthermore, some applications require the UAVs to traverse certain areas and capture incidents; thus, planning their paths becomes critical particularly, to reduce the latency of making the collaborative inference process. Specifically, planning the UAVs trajectory can reduce the data transmission latency by communicating with devices in the same proximity while mitigating the transmission interference. This work aims to design a model for distributed collaborative inference requests and path planning in a UAV swarm while respecting the resource constraints due to the computational load and memory usage of the inference requests. The model is formulated as an optimization problem and aims to minimize latency. The formulated problem is NP-hard so finding the optimal solution is quite complex; thus, this paper introduces a real-time and dynamic solution for online applications using deep reinforcement learning. We conduct extensive simulations and compare our results to the-state-of-the-art studies demonstrating that our model outperforms the competing models.
translated by 谷歌翻译
可重新配置的智能表面(RIS)可以显着增强TERA-HERTZ大量多输入多输出(MIMO)通信系统的服务覆盖范围。但是,获得有限的飞行员和反馈信号开销的准确高维通道状态信息(CSI)具有挑战性,从而严重降低了常规空间分裂多次访问的性能。为了提高针对CSI缺陷的鲁棒性,本文提出了针对RIS辅助TERA-HERTZ多用户MIMO系统的基于深度学习的(DL)基于速率的多访问(RSMA)方案。具体而言,我们首先提出了基于DL的混合数据模型驱动的RSMA预编码方案,包括RIS的被动预编码以及模拟主动编码和基本站(BS)的RSMA数字活动预码。为了实现RIS的被动预码,我们提出了一个基于变压器的数据驱动的RIS反射网络(RRN)。至于BS的模拟主动编码,我们提出了一个基于匹配器的模拟预编码方案,因为BS和RIS采用了Los-Mimo天线阵列结构。至于BS的RSMA数字活动预码,我们提出了一个低复杂性近似加权的最小均方误差(AWMMSE)数字编码方案。此外,为了更好地编码性能以及较低的计算复杂性,模型驱动的深层展开的主动编码网络(DFAPN)也是通过将所提出的AWMMSE方案与DL相结合的。然后,为了在BS处获得准确的CSI,以实现提高光谱效率的RSMA预编码方案,我们提出了一个CSI采集网络(CAN),具有低飞行员和反馈信号开销,下行链接飞行员的传输,CSI在此处使用CSI的CSI反馈。 (UES)和BS处的CSI重建被建模为基于变压器的端到端神经网络。
translated by 谷歌翻译
无人驾驶飞行器(UAV)是支持各种服务,包括通信的技术突破之一。UAV将在提高无线网络的物理层安全方面发挥关键作用。本文定义了窃听地面用户与UAV之间的链路的问题,该联接器用作空中基站(ABS)。提出了加强学习算法Q - 学习和深Q网络(DQN),用于优化ABS的位置和传输功率,以增强地面用户的数据速率。如果没有系统了解窃听器的位置,这会增加保密容量。与Q-Learnch和基线方法相比,仿真结果显示了拟议DQN的快速收敛性和最高保密能力。
translated by 谷歌翻译
本文提出了一种对无线通信中的一类主动感测问题的深度学习方法,其中代理在预定数量的时间帧上与环境顺序地交互以收集信息,以便为最大化一些实用程序函数来执行感测或致动任务。在这样的主动学习设置中,代理需要根据到目前为止所做的观察结果来依次设计自适应感测策略。为了解决如此挑战的问题,其中历史观察的维度随着时间的推移而增加,我们建议使用长期短期记忆(LSTM)网络来利用观察序列中的时间相关性,并将每个观察映射到固定的尺寸状态信息矢量。然后,我们使用深神经网络(DNN)将LSTM状态映射到每个时间帧到下一个测量步骤的设计。最后,我们采用另一个DNN将最终的LSTM状态映射到所需的解决方案。我们调查了无线通信中建议框架的性能框架的性能。特别地,我们考虑用于MMWAVE光束对准的自适应波束形成问题和反射对准的自适应可重构智能表面感测问题。数值结果表明,所提出的深度主动传感策略优于现有的自适应或非一种非应用感测方案。
translated by 谷歌翻译
Technology advancements in wireless communications and high-performance Extended Reality (XR) have empowered the developments of the Metaverse. The demand for Metaverse applications and hence, real-time digital twinning of real-world scenes is increasing. Nevertheless, the replication of 2D physical world images into 3D virtual world scenes is computationally intensive and requires computation offloading. The disparity in transmitted scene dimension (2D as opposed to 3D) leads to asymmetric data sizes in uplink (UL) and downlink (DL). To ensure the reliability and low latency of the system, we consider an asynchronous joint UL-DL scenario where in the UL stage, the smaller data size of the physical world scenes captured by multiple extended reality users (XUs) will be uploaded to the Metaverse Console (MC) to be construed and rendered. In the DL stage, the larger-size 3D virtual world scenes need to be transmitted back to the XUs. The decisions pertaining to computation offloading and channel assignment are optimized in the UL stage, and the MC will optimize power allocation for users assigned with a channel in the UL transmission stage. Some problems arise therefrom: (i) interactive multi-process chain, specifically Asynchronous Markov Decision Process (AMDP), (ii) joint optimization in multiple processes, and (iii) high-dimensional objective functions, or hybrid reward scenarios. To ensure the reliability and low latency of the system, we design a novel multi-agent reinforcement learning algorithm structure, namely Asynchronous Actors Hybrid Critic (AAHC). Extensive experiments demonstrate that compared to proposed baselines, AAHC obtains better solutions with preferable training time.
translated by 谷歌翻译