第一次采用了深入的增强学习方法来解决动态多核心纤维弹性光学网络(MCF-eons)中的路由,调制,频谱和核心分配(RMSCA)问题。为此,设计和实施了一个与OpenAI的健身房兼容的新环境,以模仿MCF -eons的运行。新的环境通过考虑网络状态和与物理层相关的方面来处理代理操作(选择路线,核心和频谱插槽)。后者包括可用的调制格式及其覆盖范围以及与MCF相关的障碍的核心间串扰(XT)。如果信号的产生质量是可以接受的,则环境将分配代理选择的资源。处理代理的操作后,环境被配置为为代理提供有关新网络状态的数值奖励和信息。通过仿真将四个不同药物的阻塞性能与MCF-eons中使用的3个基线启发式方法进行了比较。 NSFNET和COST239网络拓扑获得的结果表明,表现最佳的代理平均而言,在阻止最佳性基线启发式方法方面,最多可降低四倍的降低。
translated by 谷歌翻译
Hybrid FSO/RF system requires an efficient FSO and RF link switching mechanism to improve the system capacity by realizing the complementary benefits of both the links. The dynamics of network conditions, such as fog, dust, and sand storms compound the link switching problem and control complexity. To address this problem, we initiate the study of deep reinforcement learning (DRL) for link switching of hybrid FSO/RF systems. Specifically, in this work, we focus on actor-critic called Actor/Critic-FSO/RF and Deep-Q network (DQN) called DQN-FSO/RF for FSO/RF link switching under atmospheric turbulences. To formulate the problem, we define the state, action, and reward function of a hybrid FSO/RF system. DQN-FSO/RF frequently updates the deployed policy that interacts with the environment in a hybrid FSO/RF system, resulting in high switching costs. To overcome this, we lift this problem to ensemble consensus-based representation learning for deep reinforcement called DQNEnsemble-FSO/RF. The proposed novel DQNEnsemble-FSO/RF DRL approach uses consensus learned features representations based on an ensemble of asynchronous threads to update the deployed policy. Experimental results corroborate that the proposed DQNEnsemble-FSO/RF's consensus-learned features switching achieves better performance than Actor/Critic-FSO/RF, DQN-FSO/RF, and MyOpic for FSO/RF link switching while keeping the switching cost significantly low.
translated by 谷歌翻译
本文提出了一种有效且新颖的多重深度强化学习(MADRL)的方法,用于解决联合虚拟网络功能(VNF)的位置和路由(P&R),其中同时提供了具有差异性要求的多个服务请求。服务请求的差异要求反映出其延迟和成本敏感的因素。我们首先构建了VNF P&R问题,以共同减少NP完整的服务延迟和资源消耗成本的加权总和。然后,将关节VNF P&R问题分解为两个迭代子任务:放置子任务和路由子任务。每个子任务由多个并发并行顺序决策过程组成。通过调用深层确定性策略梯度方法和多代理技术,MADRL-P&R框架旨在执行两个子任务。提出了新的联合奖励和内部奖励机制,以匹配安置和路由子任务的目标和约束。我们还提出了基于参数迁移的模型重新训练方法来处理不断变化的网络拓扑。通过实验证实,提议的MADRL-P&R框架在服务成本和延迟方面优于其替代方案,并为个性化服务需求提供了更高的灵活性。基于参数迁移的模型重新训练方法可以在中等网络拓扑变化下有效加速收敛。
translated by 谷歌翻译
广域网络(WAN)是当今社会的关键基础设施。在过去的几年中,WANS的网络流量和网络应用程序大大增加,对现有网络技术(例如,低延迟和高吞吐量)施加了新的要求。因此,互联网服务提供商(ISP)承受着确保客户服务质量和履行服务水平协议的压力。网络运营商利用交通工程(TE)技术有效地管理网络资源。但是,WAN的流量在时间期间可能会发生巨大变化,并且由于外部因素(例如,链接故障),连通性可能会受到影响。因此,TE解决方案必须能够实时适应动态方案。在本文中,我们提出了基于两阶段优化过程的有效实时TE解决方案。在第一个中,Enero利用深入的强化学习(DRL)通过生成长期的TE策略来优化路由配置。为了在动态网络方案(例如,在链接失败发生时)进行有效的操作,我们将图形神经网络集成到DRL代理中。在第二阶段,Enero使用本地搜索算法来改善DRL的解决方案,而无需将计算开销添加到优化过程中。实验结果表明,Enero能够在4.5秒内平均在现实世界中的动态网络拓扑以100个边缘进行操作。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
The deployment flexibility and maneuverability of Unmanned Aerial Vehicles (UAVs) increased their adoption in various applications, such as wildfire tracking, border monitoring, etc. In many critical applications, UAVs capture images and other sensory data and then send the captured data to remote servers for inference and data processing tasks. However, this approach is not always practical in real-time applications due to the connection instability, limited bandwidth, and end-to-end latency. One promising solution is to divide the inference requests into multiple parts (layers or segments), with each part being executed in a different UAV based on the available resources. Furthermore, some applications require the UAVs to traverse certain areas and capture incidents; thus, planning their paths becomes critical particularly, to reduce the latency of making the collaborative inference process. Specifically, planning the UAVs trajectory can reduce the data transmission latency by communicating with devices in the same proximity while mitigating the transmission interference. This work aims to design a model for distributed collaborative inference requests and path planning in a UAV swarm while respecting the resource constraints due to the computational load and memory usage of the inference requests. The model is formulated as an optimization problem and aims to minimize latency. The formulated problem is NP-hard so finding the optimal solution is quite complex; thus, this paper introduces a real-time and dynamic solution for online applications using deep reinforcement learning. We conduct extensive simulations and compare our results to the-state-of-the-art studies demonstrating that our model outperforms the competing models.
translated by 谷歌翻译
传统的多播路由方法在构建多播树时存在一些问题,例如对网络状态信息的访问有限,对网络的动态和复杂变化的适应性不佳以及不灵活的数据转发。为了解决这些缺陷,软件定义网络(SDN)中的最佳多播路由问题是根据多目标优化问题量身定制的,以及基于深Q网络(DQN)深度强化学习(DQN)的智能多播路由算法DRL-M4MR( DRL)方法旨在构建SDN中的多播树。首先,通过组合SDN的全局视图和控制,将多播树状态矩阵,链路带宽矩阵,链路延迟矩阵和链路延迟损耗矩阵设计为DRL代理的状态空间。其次,代理的动作空间是网络中的所有链接,而动作选择策略旨在将链接添加到四种情况下的当前多播树。第三,单步和最终奖励功能表格旨在指导智能以做出决定以构建最佳多播树。实验结果表明,与现有算法相比,DRL-M4MR的多播树结构可以在训练后获得更好的带宽,延迟和数据包损耗率,并且可以在动态网络环境中做出更智能的多播路由决策。
translated by 谷歌翻译
交通优化挑战,如负载平衡,流量调度和提高数据包交付时间,是广域网(WAN)中困难的在线决策问题。例如,需要复杂的启发式方法,以找到改善分组输送时间并最小化可能由链接故障或拥塞引起的中断的最佳路径。最近的加强学习(RL)算法的成功可以提供有用的解决方案,以建立更好的鲁棒系统,这些系统从无模式设置中学习。在这项工作中,我们考虑了一条路径优化问题,专门针对数据包路由,在大型复杂网络中。我们开发和评估一种无模型方法,应用多代理元增强学习(MAMRL),可以确定每个数据包的下一跳,以便将其传递到其目的地,最短的时间整体。具体地,我们建议利用和比较深度策略优化RL算法,以便在通信网络中启用分布式无模型控制,并呈现基于新的Meta学习的框架Mamrl,以便快速适应拓扑变化。为了评估所提出的框架,我们用各种WAN拓扑模拟。我们广泛的数据包级仿真结果表明,与古典最短路径和传统的加强学习方法相比,Mamrl即使网络需求增加也显着降低了平均分组交付时间;与非元深策略优化算法相比,我们的结果显示在连杆故障发生的同时出现相当的平均数据包交付时间时减少较少的剧集中的数据包丢失。
translated by 谷歌翻译
网络切片(NS)对于有效启用下一代网络中的发散网络应用至关重要。尽管如此,网络服务中的复杂服务质量(QoS)要求和多样性的异质性需要网络切片供应(NSP)优化的高计算时间。传统优化方法在满足网络应用程序的低潜伏期和高可靠性方面具有挑战性。为此,我们将实时NSP建模为在线网络切片配置(ONSP)问题。具体而言,我们将ONSP问题作为在线多目标整数编程优化(MOIPO)问题。然后,我们通过将近端策略优化(PPO)方法应用于交通需求预测来近似于Moipo问题的解决方案。我们的仿真结果表明,与最先进的Moipo求解器相比,该方法的有效性具有较低的SLA违规率和网络操作成本。
translated by 谷歌翻译
In the context of an efficient network traffic engineering process where the network continuously measures a new traffic matrix and updates the set of paths in the network, an automated process is required to quickly and efficiently identify when and what set of paths should be used. Unfortunately, the burden of finding the optimal solution for the network updating process in each given time interval is high since the computation complexity of optimization approaches using linear programming increases significantly as the size of the network increases. In this paper, we use deep reinforcement learning to derive a data-driven algorithm that does the path selection in the network considering the overhead of route computation and path updates. Our proposed scheme leverages information about past network behavior to identify a set of robust paths to be used for multiple future time intervals to avoid the overhead of updating the forwarding behavior of routers frequently. We compare the results of our approach to other traffic engineering solutions through extensive simulations across real network topologies. Our results demonstrate that our scheme fares well by a factor of 40% with respect to reducing link utilization compared to traditional TE schemes such as ECMP. Our scheme provides a slightly higher link utilization (around 25%) compared to schemes that only minimize link utilization and do not care about path updating overhead.
translated by 谷歌翻译
乘客和货物交付的可行性服务服务的无处不在的增长在运输系统领域内带来了各种挑战和机遇。因此,正在开发智能运输系统以最大限度地提高运营盈利能力,用户的便利性和环境可持续性。与riveShiening的最后一次交付的增长呼吁进行高效且凝聚力的系统,运输乘客和货物。现有方法使用静态路由方法来解决考虑到请求的需求和在路线规划期间车辆之间的货物转移。在本文中,我们为合并的商品和乘客运输提供了一种动态和需求意识的舰队管理框架,该乘客运输能够通过允许司机谈判到相互合适的价格中的决策过程中的乘客和司机。乘客接受/拒绝,(2)货物与车辆的匹配,以及货物的多跳转移,(3)基于该插入成本,在沿着它们的途径来动态地为每个车辆提供最佳路线,从而确定匹配的插入成本(4)使用深度加强学习(RL),(5)允许在每个车辆的分布推断,同时共同优化舰队目标,向预期的高乘客和商品需求调度怠速车辆。我们所提出的模型可在每个车辆内独立部署,因为这最大限度地减少了与分布式系统的增长相关的计算成本,并将其民主化决策对每个人进行决策。与各种车辆类型,商品和乘客效用的仿真表明,与不考虑联合负载运输或动态多跳路线规划的其他方法相比,我们的方法的有效性。
translated by 谷歌翻译
In the past few years, Deep Reinforcement Learning (DRL) has become a valuable solution to automatically learn efficient resource management strategies in complex networks. In many scenarios, the learning task is performed in the Cloud, while experience samples are generated directly by edge nodes or users. Therefore, the learning task involves some data exchange which, in turn, subtracts a certain amount of transmission resources from the system. This creates a friction between the need to speed up convergence towards an effective strategy, which requires the allocation of resources to transmit learning samples, and the need to maximize the amount of resources used for data plane communication, maximizing users' Quality of Service (QoS), which requires the learning process to be efficient, i.e., minimize its overhead. In this paper, we investigate this trade-off and propose a dynamic balancing strategy between the learning and data planes, which allows the centralized learning agent to quickly converge to an efficient resource allocation strategy while minimizing the impact on QoS. Simulation results show that the proposed method outperforms static allocation methods, converging to the optimal policy (i.e., maximum efficacy and minimum overhead of the learning plane) in the long run.
translated by 谷歌翻译
我们为处理顺序决策和外在不确定性的应用程序开发了增强学习(RL)框架,例如资源分配和库存管理。在这些应用中,不确定性仅由于未来需求等外源变量所致。一种流行的方法是使用历史数据预测外源变量,然后对预测进行计划。但是,这种间接方法需要对外源过程进行高保真模型,以确保良好的下游决策,当外源性过程复杂时,这可能是不切实际的。在这项工作中,我们提出了一种基于事后观察学习的替代方法,该方法避开了对外源过程进行建模的建模。我们的主要见解是,与Sim2real RL不同,我们可以在历史数据中重新审视过去的决定,并在这些应用程序中对其他动作产生反事实后果。我们的框架将事后最佳的行动用作政策培训信号,并在决策绩效方面具有强大的理论保证。我们使用框架开发了一种算法,以分配计算资源,以用于现实世界中的Microsoft Azure工作负载。结果表明,我们的方法比域特异性的启发式方法和SIM2REAL RL基准学习更好的政策。
translated by 谷歌翻译
事件处理是动态和响应互联网(物联网)的基石。该领域的最近方法基于代表性状态转移(REST)原则,其允许将事件处理任务放置在遵循相同原理的任何设备上。但是,任务应在边缘设备之间正确分布,以确保公平资源利用率和保证无缝执行。本文调查了深入学习的使用,以公平分配任务。提出了一种基于关注的神经网络模型,在不同场景下产生有效的负载平衡解决方案。所提出的模型基于变压器和指针网络架构,并通过Advantage演员批评批评学习算法训练。该模型旨在缩放到事件处理任务的数量和边缘设备的数量,不需要重新调整甚至再刷新。广泛的实验结果表明,拟议的模型在许多关键绩效指标中优于传统的启发式。通用设计和所获得的结果表明,所提出的模型可能适用于几个其他负载平衡问题变化,这使得该提案是由于其可扩展性和效率而在现实世界场景中使用的有吸引力的选择。
translated by 谷歌翻译
在本文中,我们介绍了有关典型乘车共享系统中决策优化问题的强化学习方法的全面,深入的调查。涵盖了有关乘车匹配,车辆重新定位,乘车,路由和动态定价主题的论文。在过去的几年中,大多数文献都出现了,并且要继续解决一些核心挑战:模型复杂性,代理协调和多个杠杆的联合优化。因此,我们还引入了流行的数据集和开放式仿真环境,以促进进一步的研发。随后,我们讨论了有关该重要领域的强化学习研究的许多挑战和机会。
translated by 谷歌翻译
深度强化学习(DRL)赋予了各种人工智能领域,包括模式识别,机器人技术,推荐系统和游戏。同样,图神经网络(GNN)也证明了它们在图形结构数据的监督学习方面的出色表现。最近,GNN与DRL用于图形结构环境的融合引起了很多关注。本文对这些混合动力作品进行了全面评论。这些作品可以分为两类:(1)算法增强,其中DRL和GNN相互补充以获得更好的实用性; (2)特定于应用程序的增强,其中DRL和GNN相互支持。这种融合有效地解决了工程和生命科学方面的各种复杂问题。基于审查,我们进一步分析了融合这两个领域的适用性和好处,尤其是在提高通用性和降低计算复杂性方面。最后,集成DRL和GNN的关键挑战以及潜在的未来研究方向被突出显示,这将引起更广泛的机器学习社区的关注。
translated by 谷歌翻译
资源分组的数据中心(RDDC)提出了一种以资源为中心的数据中心(DC),避免了资源碎片和使任意大小的资源池来分配给任务,而不是服务器规模化的资源碎片和高利用率架构。 RDDC通常对网络施加更大的需求,需要更多的基础设施和成本和功率,因此共同管理服务器和网络资源的新资源分配算法是必不可少的,以确保提供的分配不是由网络瓶颈,并且该请求可以是成功提供了最少的网络资源。我们首次将加强学习(RL)应用于此问题,并显示基于图形神经网络的RL策略可以学习端到端的资源分配策略,以至于最高22.0 \%,42.6接受比率,CPU和内存利用率分别为\%和22.6 \%,在缩放到RDDC拓扑时,以10 ^ 2 \次数超过培训期间看到的RDDC拓扑,并且可以在使用5.3美元的同时实现与最佳基线的可比性表现相比\倍数较少的网络资源。
translated by 谷歌翻译
近年来,随着空间航天器实体的大规模部署以及卫星在板载功能的增加,在过度网络动态的情况下,与TCP/IP相比,出现了比TCP/IP更强大的通信协议。 DTN节点缓冲区管理仍然是一个活跃的研究领域,因为DTN核心协议的当前实现仍然依赖于以下假设:在不同的网络节点中始终有足够的内存来存储和正向捆绑包。此外,经典排队理论不适用于DTN节点缓冲区的动态管理。因此,本文提出了一种集中式方法,以基于高级强化学习(RL)策略优势行动者 - 批评者(A2C)自动管理低地球(LEO)卫星星座中的认知DTN节点。该方法旨在探索培训地球同步地球轨道智能代理,以管理Leo卫星星座中的所有DTN节点。 A2C代理的目的是在考虑节点内存利用率的同时最大化交付成功率并最大程度地减少网络资源消耗成本。智能代理可以根据束优先级动态调整无线电数据速率并执行下降操作。为了衡量在LEO卫星星座场景中将A2C技术应用于DTN节点管理问题的有效性,本文将受过训练的智能代理策略与其他两种非RL政策进行了比较,包括随机和标准政策。实验表明,A2C策略平衡了交付成功率和成本,并提供了最高的奖励和最低的节点存储器利用率。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
对于正交多访问(OMA)系统,服务的用户设备(UES)的数量仅限于可用的正交资源的数量。另一方面,非正交多访问(NOMA)方案允许多个UES使用相同的正交资源。这种额外的自由度为资源分配带来了新的挑战。缓冲状态信息(BSI),例如等待传输的数据包的大小和年龄,可用于改善OMA系统中的调度。在本文中,我们研究了BSI对上行链路多载波NOMA场景中集中调度程序的性能的影响,UE具有各种数据速率和延迟要求。为了处理将UES分配给资源的大型组合空间,我们提出了一个基于Actor-Critic-Critic强化学习纳入BSI的新型调度程序。使用诺基亚的“无线套件”进行培训和评估。我们提出了各种新颖的技术来稳定和加快训练。建议的调度程序优于基准调度程序。
translated by 谷歌翻译