云数据中心的数字和大小都在成倍增长。这种增加导致网络活动激增,可以更好地避免交通拥堵。最终的挑战是两个方面:(i)设计算法,可以对给定数据中心的复杂流量模式进行定制;但是,与此同时(ii)在低级硬件上运行,具有有效拥塞控制(CC)所需的低潜伏期。在这项工作中,我们提出了一个基于强化学习(RL)的CC解决方案,该解决方案从某些交通情况中学习并成功地将其推广到他人。然后,我们将RL神经网络政策提炼成二进制决策树,以实现与RDMA实时推断所需的$ \ mu $ sec决策延迟。我们在真实网络中部署了NVIDIA NIC的蒸馏政策,并展示了最先进的性能,同时平衡所有测试的指标:带宽,延迟,公平和数据包下降。
translated by 谷歌翻译
我们使用加强学习(RL)来处理数据中心中网络拥塞控制的任务。成功的拥堵控制算法可以显着改善延迟和整体网络吞吐量。直到今天,尚无此类基于学习的算法在该领域显示出实际潜力。显然,最近最受欢迎的部署依赖于基于规则的启发式方法,这些启发式方法经过预定的一组基准测试。因此,这些启发式方法并不能很好地概括到新近观察的场景上。相反,我们设计了一种基于RL的算法,目的是将其推广到现实世界数据中心网络的不同配置。我们克服了诸如部分观察性,非平稳性和多目标的挑战。我们进一步提出了一种利用奖励函数的分析结构来近似其导数并提高稳定性的策略梯度算法。我们表明,该方案的表现优于其他流行的RL方法,并概括了训练中未见的场景。我们的实验是在模拟通信网络行为的现实模拟器上进行的,与今天在实际数据中心中部署的流行算法相比,在多个考虑的指标上同时表现出了改进的性能。我们的算法正在生产起来,以取代世界上一些最大的数据中心中的启发式方法。
translated by 谷歌翻译
未来的互联网涉及几种新兴技术,例如5G和5G网络,车辆网络,无人机(UAV)网络和物联网(IOT)。此外,未来的互联网变得异质并分散了许多相关网络实体。每个实体可能需要做出本地决定,以在动态和不确定的网络环境下改善网络性能。最近使用标准学习算法,例如单药强化学习(RL)或深入强化学习(DRL),以使每个网络实体作为代理人通过与未知环境进行互动来自适应地学习最佳决策策略。但是,这种算法未能对网络实体之间的合作或竞争进行建模,而只是将其他实体视为可能导致非平稳性问题的环境的一部分。多机构增强学习(MARL)允许每个网络实体不仅观察环境,还可以观察其他实体的政策来学习其最佳政策。结果,MAL可以显着提高网络实体的学习效率,并且最近已用于解决新兴网络中的各种问题。在本文中,我们因此回顾了MAL在新兴网络中的应用。特别是,我们提供了MARL的教程,以及对MARL在下一代互联网中的应用进行全面调查。特别是,我们首先介绍单代机Agent RL和MARL。然后,我们回顾了MAL在未来互联网中解决新兴问题的许多应用程序。这些问题包括网络访问,传输电源控制,计算卸载,内容缓存,数据包路由,无人机网络的轨迹设计以及网络安全问题。
translated by 谷歌翻译
交通优化挑战,如负载平衡,流量调度和提高数据包交付时间,是广域网(WAN)中困难的在线决策问题。例如,需要复杂的启发式方法,以找到改善分组输送时间并最小化可能由链接故障或拥塞引起的中断的最佳路径。最近的加强学习(RL)算法的成功可以提供有用的解决方案,以建立更好的鲁棒系统,这些系统从无模式设置中学习。在这项工作中,我们考虑了一条路径优化问题,专门针对数据包路由,在大型复杂网络中。我们开发和评估一种无模型方法,应用多代理元增强学习(MAMRL),可以确定每个数据包的下一跳,以便将其传递到其目的地,最短的时间整体。具体地,我们建议利用和比较深度策略优化RL算法,以便在通信网络中启用分布式无模型控制,并呈现基于新的Meta学习的框架Mamrl,以便快速适应拓扑变化。为了评估所提出的框架,我们用各种WAN拓扑模拟。我们广泛的数据包级仿真结果表明,与古典最短路径和传统的加强学习方法相比,Mamrl即使网络需求增加也显着降低了平均分组交付时间;与非元深策略优化算法相比,我们的结果显示在连杆故障发生的同时出现相当的平均数据包交付时间时减少较少的剧集中的数据包丢失。
translated by 谷歌翻译
Efficient data transfers over high-speed, long-distance shared networks require proper utilization of available network bandwidth. Using parallel TCP streams enables an application to utilize network parallelism and can improve transfer throughput; however, finding the optimum number of parallel TCP streams is challenging due to nondeterministic background traffic sharing the same network. Additionally, the non-stationary, multi-objectiveness, and partially-observable nature of network signals in the host systems add extra complexity in finding the current network condition. In this work, we present a novel approach to finding the optimum number of parallel TCP streams using deep reinforcement learning (RL). We devise a learning-based algorithm capable of generalizing different network conditions and utilizing the available network bandwidth intelligently. Contrary to rule-based heuristics that do not generalize well in unknown network scenarios, our RL-based solution can dynamically discover and adapt the parallel TCP stream numbers to maximize the network bandwidth utilization without congesting the network and ensure fairness among contending transfers. We extensively evaluated our RL-based algorithm's performance, comparing it with several state-of-the-art online optimization algorithms. The results show that our RL-based algorithm can find near-optimal solutions 40% faster while achieving up to 15% higher throughput. We also show that, unlike a greedy algorithm, our devised RL-based algorithm can avoid network congestion and fairly share the available network resources among contending transfers.
translated by 谷歌翻译
RDMA超过融合以太网(ROCE),由于其与常规以太网的织物的兼容性,对数据中心网络具有重要的吸引力。但是,RDMA协议仅在(几乎)无损网络上有效,这强调了拥塞控制对ROCE网络的重要作用。不幸的是,基于优先流量控制(PFC)的本地ROCE拥塞控制方案遭受了许多缺点,例如不公平,线路阻滞和僵局。因此,近年来,已经提出许多计划为ROCE网络提供额外的拥塞控制,以最大程度地减少PFC缺点。但是,这些方案是针对一般数据中心环境提出的。与使用商品硬件构建并运行通用工作负载的一般数据中心相反,高性能分布式培训平台部署高端加速器和网络组件,并专门使用集体(全能,全能,全能)运行培训工作负载)通信库进行通信。此外,这些平台通常具有一个私人网络,将其通信流量与其他数据中心流量分开。可扩展的拓扑意识集体算法固有地设计旨在避免造成的模式并最佳地平衡流量。这些独特的功能需要重新审视先前提出的通用数据中心环境的拥塞控制方案。在本文中,我们彻底分析了在分布式培训平台上运行时的一些SOTA ROCE拥塞控制方案与PFC。我们的结果表明,先前提出的ROCE拥塞控制计划对培训工作负载的端到端表现几乎没有影响,这激发了根据分布式培训平台和分布式培训平台和特征的设计优化但低空的拥塞控制计划的必要性工作负载。
translated by 谷歌翻译
评估网络协议的真实表现是具有挑战性的。随机控制试验(RCT)对大多数研究人员来说是昂贵的并且无法进入,而专业设计的模拟器则无法捕获真实网络中的复杂行为。我们呈现MaunAlim,一种数据驱动的模拟器,用于解决这一挑战的网络协议。由于数据收集期间使用的协议引入的偏差,从观察数据中学习网络行为是复杂的。 MakAlAIM在一组协议下使用来自初始RCT的迹线来学习因果网络模型,有效地去除数据中存在的偏差。然后,使用此模型,可以在同一迹线上模拟任何协议(即,用于反事实预测)。因果的关键是对来自来自RCT的训练数据引起的分布修正因的对抗性神经网络培训进行了新的使用。我们对实际和合成数据集的MAURALAIM的广泛评估以及来自河豚视频流系统的两种用例,包括来自河豚视频流系统的超过九个月的实际数据,表明它提供了准确的反事预测,将预测误差降低了44%和53%平均值与专家设计和标准的监督学习基线相比。
translated by 谷歌翻译
计算机架构和系统已优化了很长时间,以便高效执行机器学习(ML)模型。现在,是时候重新考虑ML和系统之间的关系,并让ML转换计算机架构和系统的设计方式。这有一个双重含义:改善设计师的生产力,以及完成良性周期。在这篇论文中,我们对应用ML进行计算机架构和系统设计的工作进行了全面的审查。首先,我们考虑ML技术在架构/系统设计中的典型作用,即快速预测建模或设计方法,我们执行高级分类学。然后,我们总结了通过ML技术解决的计算机架构/系统设计中的常见问题,并且所用典型的ML技术来解决它们中的每一个。除了在狭义中强调计算机架构外,我们采用数据中心可被认为是仓库规模计算机的概念;粗略的计算机系统中提供粗略讨论,例如代码生成和编译器;我们还注意ML技术如何帮助和改造设计自动化。我们进一步提供了对机会和潜在方向的未来愿景,并设想应用ML的计算机架构和系统将在社区中蓬勃发展。
translated by 谷歌翻译
Network models are an essential block of modern networks. For example, they are widely used in network planning and optimization. However, as networks increase in scale and complexity, some models present limitations, such as the assumption of markovian traffic in queuing theory models, or the high computational cost of network simulators. Recent advances in machine learning, such as Graph Neural Networks (GNN), are enabling a new generation of network models that are data-driven and can learn complex non-linear behaviors. In this paper, we present RouteNet-Fermi, a custom GNN model that shares the same goals as queuing theory, while being considerably more accurate in the presence of realistic traffic models. The proposed model predicts accurately the delay, jitter, and loss in networks. We have tested RouteNet-Fermi in networks of increasing size (up to 300 nodes), including samples with mixed traffic profiles -- e.g., with complex non-markovian models -- and arbitrary routing and queue scheduling configurations. Our experimental results show that RouteNet-Fermi achieves similar accuracy as computationally-expensive packet-level simulators and it is able to accurately scale to large networks. For example, the model produces delay estimates with a mean relative error of 6.24% when applied to a test dataset with 1,000 samples, including network topologies one order of magnitude larger than those seen during training.
translated by 谷歌翻译
为移动无线网络设计有效的路由策略是具有挑战性的,因为需要无缝将路由行为调整为空间多样化和时间变化的网络条件。在这项工作中,我们使用深层增强学习(DEEPRL)来学习此类网络的可扩展和可概括的单复制路由策略。我们做出以下贡献:i)我们设计了一个奖励功能,使DeepRL代理能够明确权衡竞争的网络目标,例如最大程度地减少延迟与每个数据包的传输数量; ii)我们提出了一组新型的关系邻域,路径和上下文功能,以独立于特定的网络拓扑表征移动无线网络和模型设备移动性; iii)我们使用一种灵活的培训方法,使我们可以将所有数据包和设备的数据组合到单个离线集中式培训设置中,以训练单个DEEPRL代理。为了评估通用性和可扩展性,我们在一个移动网络方案上训练我们的DEEPRL代理,然后在其他移动方案上进行测试,从而改变了设备和变速箱范围的数量。我们的结果表明,我们学到的单拷贝路由策略在延迟方面优于所有其他策略,即使在未经培训的情况下,即使在DeepRL代理的情况下也是如此。
translated by 谷歌翻译
本文提出了网络负载平衡问题,这是多项式增强学习(MARL)方法的一项挑战性的现实世界。传统的启发式解决方案,例如加权成本多路径(WCMP)和局部最短队列(LSQ),对不断变化的工作量分布和到达率的灵活性较小,并且在多个负载平衡器之间的平衡差。合作网络负载平衡任务被提出为DECPOMDP问题,该问题自然诱导了MARL方法。为了弥合现实差距用于应用基于学习的方法,所有方法均已直接训练和评估来自中度到大规模的仿真系统。对现实测试床的实验表明,独立和“自私”负载平衡策略不一定是全球最佳的,而拟议的MARL解决方案比不同的现实设置具有出色的性能。此外,分析了MAL方法在网络负载平衡中的潜在困难,这有助于吸引学习和网络社区的注意力。
translated by 谷歌翻译
5G及以后的移动网络将以前所未有的规模支持异质用例,从而要求自动控制和优化针对单个用户需求的网络功能。当前的蜂窝体系结构不可能对无线电访问网络(RAN)进行这种细粒度控制。为了填补这一空白,开放式运行范式及其规范引入了一个带有抽象的开放体系结构,该架构可以启用闭环控制并提供数据驱动和智能优化RAN在用户级别上。这是通过在网络边缘部署在近实时RAN智能控制器(接近RT RIC)上的自定义RAN控制应用程序(即XAPP)获得的。尽管有这些前提,但截至今天,研究界缺乏用于构建数据驱动XAPP的沙箱,并创建大型数据集以有效的AI培训。在本文中,我们通过引入NS-O-RAN来解决此问题,NS-O-RAN是一个软件框架,该框架将现实世界中的生产级近距离RIC与NS-3上的基于3GPP的模拟环境集成在一起,从而实现了XAPPS和XAPPS的开发自动化的大规模数据收集和深入强化学习驱动的控制策略的测试,以在用户级别的优化中进行优化。此外,我们提出了第一个特定于用户的O-RAN交通转向(TS)智能移交框架。它使用随机的合奏混合物,结合了最先进的卷积神经网络体系结构,以最佳地为网络中的每个用户分配服务基站。我们的TS XAPP接受了NS-O-RAN收集的超过4000万个数据点的培训,该数据点在近距离RIC上运行,并控制其基站。我们在大规模部署中评估了性能,这表明基于XAPP的交换可以使吞吐量和频谱效率平均比传统的移交启发式方法提高50%,而动机性开销较少。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
数字化和远程连接扩大了攻击面,使网络系统更脆弱。由于攻击者变得越来越复杂和资源丰富,仅仅依赖传统网络保护,如入侵检测,防火墙和加密,不足以保护网络系统。网络弹性提供了一种新的安全范式,可以使用弹性机制来补充保护不足。一种网络弹性机制(CRM)适应了已知的或零日威胁和实际威胁和不确定性,并对他们进行战略性地响应,以便在成功攻击时保持网络系统的关键功能。反馈架构在启用CRM的在线感应,推理和致动过程中发挥关键作用。强化学习(RL)是一个重要的工具,对网络弹性的反馈架构构成。它允许CRM提供有限或没有事先知识和攻击者的有限攻击的顺序响应。在这项工作中,我们审查了Cyber​​恢复力的RL的文献,并讨论了对三种主要类型的漏洞,即姿势有关,与信息相关的脆弱性的网络恢复力。我们介绍了三个CRM的应用领域:移动目标防御,防守网络欺骗和辅助人类安全技术。 RL算法也有漏洞。我们解释了RL的三个漏洞和目前的攻击模型,其中攻击者针对环境与代理商之间交换的信息:奖励,国家观察和行动命令。我们展示攻击者可以通过最低攻击努力来欺骗RL代理商学习邪恶的政策。最后,我们讨论了RL为基于RL的CRM的网络安全和恢复力和新兴应用的未来挑战。
translated by 谷歌翻译
互联网连接系统的指数增长产生了许多挑战,例如频谱短缺问题,需要有效的频谱共享(SS)解决方案。复杂和动态的SS系统可以接触不同的潜在安全性和隐私问题,需要保护机制是自适应,可靠和可扩展的。基于机器学习(ML)的方法经常提议解决这些问题。在本文中,我们对最近的基于ML的SS方法,最关键的安全问题和相应的防御机制提供了全面的调查。特别是,我们详细说明了用于提高SS通信系统的性能的最先进的方法,包括基于ML基于ML的基于的数据库辅助SS网络,ML基于基于的数据库辅助SS网络,包括基于ML的数据库辅助的SS网络,基于ML的LTE-U网络,基于ML的环境反向散射网络和其他基于ML的SS解决方案。我们还从物理层和基于ML算法的相应防御策略的安全问题,包括主要用户仿真(PUE)攻击,频谱感测数据伪造(SSDF)攻击,干扰攻击,窃听攻击和隐私问题。最后,还给出了对ML基于ML的开放挑战的广泛讨论。这种全面的审查旨在为探索新出现的ML的潜力提供越来越复杂的SS及其安全问题,提供基础和促进未来的研究。
translated by 谷歌翻译
高度动态的移动ad-hoc网络(MANET)仍然是开发和部署强大,高效和可扩展的路由协议的最具挑战性环境之一。在本文中,我们提出了DeepCQ +路由协议,以一种新颖的方式将新兴的多代理深度增强学习(Madrl)技术集成到现有的基于Q学习的路由协议及其变体中,并在各种拓扑结构中实现了持续更高的性能和移动配置。在保持基于Q学习的路由协议的整体协议结构的同时,DeepCQ +通过精心设计的Madrl代理替换静态配置的参数化阈值和手写规则,使得不需要这些参数的配置。广泛的模拟表明,与其基于Q学习的对应物相比,DeptCQ +产生的端到端吞吐量显着增加了端到端延迟(跳数)的明显劣化。在定性方面,也许更重要的是,Deepcq +在许多情况下维持了非常相似的性能提升,即在网络尺寸,移动条件和交通动态方面没有接受过培训。据我们所知,这是Madrl框架的第一次成功应用MANET路由问题,即使在训练有素的场景范围之外的环境中,即使在训练范围之外的环境中也能够高度的可扩展性和鲁棒性。这意味着我们的基于Marl的DeepCQ +设计解决方案显着提高了基于Q学习的CQ +基线方法的性能,以进行比较,并提高其实用性和解释性,因为现实世界的MANET环境可能会在训练范围的MANET场景之外变化。讨论了进一步提高性能和可扩展性的增益的额外技术。
translated by 谷歌翻译
交通信号控制(TSC)是一个高风险域,随着交通量在全球的增长而增长。越来越多的作品将加固学习(RL)应用于TSC;RL可以利用大量的流量数据来提高信号效率。但是,从未部署基于RL的信号控制器。在这项工作中,我们提供了对TSC进行RL之前必须解决的挑战的首次审查。我们专注于四个涉及(1)检测不确定性的挑战,(2)通信的可靠性,(3)合规性和解释性以及(4)异构道路使用者。我们表明,基于RL的TSC的文献在应对每个挑战方面取得了一些进展。但是,更多的工作应采用系统思维方法,以考虑其他管道组件对RL的影响。
translated by 谷歌翻译
Recent advances in distributed artificial intelligence (AI) have led to tremendous breakthroughs in various communication services, from fault-tolerant factory automation to smart cities. When distributed learning is run over a set of wirelessly connected devices, random channel fluctuations and the incumbent services running on the same network impact the performance of both distributed learning and the coexisting service. In this paper, we investigate a mixed service scenario where distributed AI workflow and ultra-reliable low latency communication (URLLC) services run concurrently over a network. Consequently, we propose a risk sensitivity-based formulation for device selection to minimize the AI training delays during its convergence period while ensuring that the operational requirements of the URLLC service are met. To address this challenging coexistence problem, we transform it into a deep reinforcement learning problem and address it via a framework based on soft actor-critic algorithm. We evaluate our solution with a realistic and 3GPP-compliant simulator for factory automation use cases. Our simulation results confirm that our solution can significantly decrease the training delay of the distributed AI service while keeping the URLLC availability above its required threshold and close to the scenario where URLLC solely consumes all network resources.
translated by 谷歌翻译
尽管开放式运输所带来的新机遇,但基于ML的网络自动化的进步已经缓慢,主要是因为大规模数据集和实验测试基础设施的不可用。这减缓了实际网络上的深度加强学习(DRL)代理的开发和广泛采用,延迟了智能和自主运行控制的进展。在本文中,我们通过提出用于开放式RAN基于DRL基闭环控制的设计,培训,测试和实验评估的实用解决方案和软件管道来解决这些挑战。我们介绍了Colo-RAN,这是一个具有软件定义的无线电循环的第一个公开的大型O-RAN测试框架。在ColoSseum无线网络仿真器的规模和计算能力上,Colo-RAN使用O-RAN组件,可编程基站和“无线数据厂”来实现ML研究。具体而言,我们设计并开发三种示例性XApp,用于基于DRL的RAN切片,调度和在线模型培训,并评估其在具有7个软化基站和42个用户的蜂窝网络上的性能。最后,我们通过在竞技场上部署一个室内可编程测试平台来展示Colo-RAN到不同平台的可移植性。我们的一类大型评估的广泛结果突出了基于DRL的自适应控制的益处和挑战。他们还提供关于无线DRL管道的开发的见解,从数据分析到DRL代理商的设计,以及与现场训练相关的权衡。 Colo-RAN和收集的大型数据集将公开向研究界公开提供。
translated by 谷歌翻译
在过去的十年中,由于分散控制应用程序的趋势和网络物理系统应用的出现,网络控制系统在过去十年中引起了广泛的关注。但是,由于无线网络的复杂性质,现实世界中无线网络控制系统的通信带宽,可靠性问题以及对网络动态的认识不足。将机器学习和事件触发的控制结合起来有可能减轻其中一些问题。例如,可以使用机器学习来克服缺乏网络模型的问题,通过学习系统行为或通过不断学习模型动态来适应动态变化的模型。事件触发的控制可以通过仅在必要时或可用资源时传输控制信息来帮助保护通信带宽。本文的目的是对有关机器学习的使用与事件触发的控制的使用进行综述。机器学习技术,例如统计学习,神经网络和基于强化的学习方法,例如深入强化学习,并结合事件触发的控制。我们讨论如何根据机器学习使用的目的将这些学习算法用于不同的应用程序。在对文献的审查和讨论之后,我们重点介绍了与基于机器学习的事件触发的控制并提出潜在解决方案相关的开放研究问题和挑战。
translated by 谷歌翻译