随着互联网流量的数量继续增加,路由算法的开发具有明显的重要性。在该调查中,如何采用机器学习技术如何采用更大的研究来提高路由算法的性能和可扩展性。我们调查了集中式和分散的ML路由架构,并使用各种ML技术广泛分为受监督的学习和加固学习。许多论文在他们优化网络路由的某些方面的能力方面表现出承诺。我们还在接受调查的路由算法中实施了两个路由协议,并验证了结果的功效。虽然大多数论文的结果显示了承诺,但其中许多是基于潜在的不切实际的网络配置的模拟。为了为结果提供进一步的效果,需要更多的现实结果。
translated by 谷歌翻译
交通优化挑战,如负载平衡,流量调度和提高数据包交付时间,是广域网(WAN)中困难的在线决策问题。例如,需要复杂的启发式方法,以找到改善分组输送时间并最小化可能由链接故障或拥塞引起的中断的最佳路径。最近的加强学习(RL)算法的成功可以提供有用的解决方案,以建立更好的鲁棒系统,这些系统从无模式设置中学习。在这项工作中,我们考虑了一条路径优化问题,专门针对数据包路由,在大型复杂网络中。我们开发和评估一种无模型方法,应用多代理元增强学习(MAMRL),可以确定每个数据包的下一跳,以便将其传递到其目的地,最短的时间整体。具体地,我们建议利用和比较深度策略优化RL算法,以便在通信网络中启用分布式无模型控制,并呈现基于新的Meta学习的框架Mamrl,以便快速适应拓扑变化。为了评估所提出的框架,我们用各种WAN拓扑模拟。我们广泛的数据包级仿真结果表明,与古典最短路径和传统的加强学习方法相比,Mamrl即使网络需求增加也显着降低了平均分组交付时间;与非元深策略优化算法相比,我们的结果显示在连杆故障发生的同时出现相当的平均数据包交付时间时减少较少的剧集中的数据包丢失。
translated by 谷歌翻译
预计下一代(NEVERG)网络将支持苛刻的触觉互联网应用,例如增强现实和连接的自动车辆。虽然最近的创新带来了更大的联系能力的承诺,它们对环境的敏感性以及不稳定的性能无视基于传统的基于模型的控制理由。零触摸数据驱动的方法可以提高网络适应当前操作条件的能力。诸如强化学习(RL)算法等工具可以仅基于观察历史来构建最佳控制策略。具体而言,使用深神经网络(DNN)作为预测器的深RL(DRL)已经被示出,即使在复杂的环境和高维输入中也能够实现良好的性能。但是,DRL模型的培训需要大量数据,这可能会限制其对潜在环境的不断发展统计数据的适应性。此外,无线网络是固有的分布式系统,其中集中式DRL方法需要过多的数据交换,而完全分布的方法可能导致较慢的收敛速率和性能下降。在本文中,为了解决这些挑战,我们向DRL提出了联合学习(FL)方法,我们指的是联邦DRL(F-DRL),其中基站(BS)通过仅共享模型的重量协作培训嵌入式DNN而不是训练数据。我们评估了两个不同版本的F-DRL,价值和策略,并显示出与分布式和集中式DRL相比实现的卓越性能。
translated by 谷歌翻译
Coflow是最近提出的网络抽象,以帮助提高数据并行计算作业的通信性能。在多阶段作业中,每个作业包括多个Coflows,由定向的非循环图(DAG)表示。有效地调度Coflows对于提高数据中心中的数据并行计算性能至关重要。与手动调度启发式相比,现有的工作Deepweave [1]利用强化学习(RL)框架自动生成高效的CoFlow调度策略。它采用图形神经网络(GNN)来编码一组嵌入向量中的作业信息,并将包含整个作业信息的平面嵌入载体馈送到策略网络。然而,这种方法的可扩展性差,因为它无法应对由任意尺寸和形状的DAG表示的作业,这需要大型策略网络来处理难以训练的高维嵌入载体。在本文中,我们首先利用了一条定向的无循环图神经网络(DAGNN)来处理输入并提出一种新型流水线-DAGNN,其可以有效地加速DAGNN的特征提取过程。接下来,我们馈送由可调度的Coflows组成的嵌入序列,而不是将所有Coflows的平面嵌入到策略网络上,并输出优先级序列,这使得策略网络的大小仅取决于特征的维度而不是产品的维度作业的DAG中的节点数量和节点数量,提高优先级调度策略的准确性,我们将自我注意机制纳入深度RL模型,以捕获嵌入序列不同部分之间的交互,以使输出优先级进行输出优先级分数相关。基于此模型,我们开发了一种用于在线多级作业的Coflow调度算法。
translated by 谷歌翻译
我们开发了一个多功能辅助救援学习(MARL)方法,以了解目标跟踪的可扩展控制策略。我们的方法可以处理任意数量的追求者和目标;我们显示出现的任务,该任务包括高达1000追踪跟踪1000个目标。我们使用分散的部分可观察的马尔可夫决策过程框架来模拟追求者作为接受偏见观察(范围和轴承)的代理,了解使用固定的未知政策的目标。注意机制用于参数化代理的价值函数;这种机制允许我们处理任意数量的目标。熵 - 正规的脱助政策RL方法用于培训随机政策,我们讨论如何在追求者之间实现对冲行为,尽管有完全分散的控制执行,但仍然导致合作较弱的合作形式。我们进一步开发了一个掩蔽启发式,允许训练较少的问题,少量追求目标和在更大的问题上执行。进行彻底的仿真实验,消融研究和对现有技术算法的比较,以研究对不同数量的代理和目标性能的方法和鲁棒性的可扩展性。
translated by 谷歌翻译
未来几年物联网设备计数的预期增加促使有效算法的开发,可以帮助其有效管理,同时保持功耗低。在本文中,我们提出了一种智能多通道资源分配算法,用于Loradrl的密集Lora网络,并提供详细的性能评估。我们的结果表明,所提出的算法不仅显着提高了Lorawan的分组传递比(PDR),而且还能够支持移动终端设备(EDS),同时确保较低的功耗,因此增加了网络的寿命和容量。}大多数之前作品侧重于提出改进网络容量的不同MAC协议,即Lorawan,传输前的延迟等。我们展示通过使用Loradrl,我们可以通过Aloha \ TextColor {Black}与Lorasim相比,我们可以实现相同的效率LORA-MAB在将复杂性从EDS移动到网关的同时,因此使EDS更简单和更便宜。此外,我们在大规模的频率干扰攻击下测试Loradrl的性能,并显示其对环境变化的适应性。我们表明,与基于学习的技术相比,Loradrl的输出改善了最先进的技术的性能,从而提高了PR的500多种\%。
translated by 谷歌翻译
在本文中,我们研究了网络多功能增强学习(MARL)的问题,其中许多代理被部署为部分连接的网络,并且每个代理只与附近的代理交互。网络Marl要求所有代理商以分散的方式作出决定,以优化具有网络之间邻居之间的限制通信的全局目标。受到事实的启发,即\ yexit {分享}在人类合作中发挥关键作用,我们提出了一个分层分散的MARL框架,使代理商能够学会与邻居动态共享奖励,以便鼓励代理商在全球合作客观的。对于每个代理,高级策略了解如何与邻居分析奖励以分解全局目标,而低级策略则会学会优化由邻域的高级策略引起的本地目标。两项政策形成双级优化,交替学习。我们经验证明LTOS在社交困境和网络MARL情景中表明现有的现有方法。
translated by 谷歌翻译
最近被证明通过深度加强学习(RL)或模仿学习(IL)来学习沟通是解决多智能传道路径查找(MAPF)的有效方法。然而,现有的基于通信的MAPF求解器专注于广播通信,代理将其消息广播给所有其他或预定义代理。它不仅是不切实际的,而且导致冗余信息甚至可能损害多功能协作。简洁的通信计划应该了解哪些信息与每个代理的决策过程有关和影响。为了解决这个问题,我们考虑一个请求 - 回复方案并提出决策因果通信(DCC),这是一个简单但有效的模型,使代理能够在培训和执行期间选择邻居进行通信。具体地,邻居才被确定为当存在该邻居的存在导致在中央代理上的决策调整时相关的邻居。此判决仅基于代理人的本地观察,因此适用于分散执行来处理大规模问题。富有障碍环境中的实证评估表明了我们方法的低通信开销的高成功率。
translated by 谷歌翻译
独立的强化学习算法没有理论保证,用于在多代理设置中找到最佳策略。然而,在实践中,先前的作品报告了在某些域中的独立算法和其他方面的良好性能。此外,文献中缺乏对独立算法的优势和弱点的全面研究。在本文中,我们对四个Pettingzoo环境进行了独立算法的性能的实证比较,这些环境跨越了三种主要类别的多助理环境,即合作,竞争和混合。我们表明,在完全可观察的环境中,独立的算法可以在协作和竞争环境中与多代理算法进行同步。对于混合环境,我们表明通过独立算法培训的代理商学会单独执行,但未能学会与盟友合作并与敌人竞争。我们还表明,添加重复性提高了合作部分可观察环境中独立算法的学习。
translated by 谷歌翻译
设想了一座低空地球轨道(LEO)卫星(SAT)的Mega-Constulation,以提供超出第五代(5G)蜂窝系统的全球覆盖网网络。 Leo SAT网络在时代的SAT网络拓扑中展示了许多用户的极长链接距离。这使得现有的多个访问协议,例如基于随机接入信道(RACH)的蜂窝协议,专为固定地面网络拓扑而设计,不适用于。为了克服这个问题,在本文中,我们提出了一种新颖的LEO SAT网络无随机访问解决方案,被称为随机接入信道协议(ERACH)。在与现有的基于模型和标准化协议的鲜明对比中,ERACH是一种无模型方法,通过使用多档次深度加强学习(Madrl),通过与非静止网络环境的互动出现。此外,通过利用已知的SAT轨道模式,ERACH不需要跨越用户的中心协调或额外的通信,而训练会聚通过规则的轨道模式稳定。与RACH相比,我们从各种模拟中展示了我们所提出的ERACH的平均网络吞吐量增加了54.6%,平均访问延迟较低的两倍,同时实现了0.989的jain的公平指数。
translated by 谷歌翻译
安全是空中交通时的主要问题。通过成对分离最小值确保无人驾驶飞机(无人机)之间的飞行安全性,利用冲突检测和分辨方法。现有方法主要处理成对冲突,但由于交通密度的预期增加,可能会发生两个以上的无人机的遇到。在本文中,我们将多UAV冲突解决模型作为多功能加强学习问题。我们实现了一种基于图形神经网络的算法,配合代理可以与共同生成分辨率的操作进行通信。该模型在具有3和4个当前代理的情况下进行评估。结果表明,代理商能够通过合作策略成功解决多UV冲突。
translated by 谷歌翻译
图形神经网络(GNNS)是一种范式转换的神经结构,以便于学习复杂的多智能经纪行为。最近的工作已经表现出显着的绩效,如植绒,多代理路径规划和合作覆盖。但是,通过基于GNN的学习计划导出的策略尚未部署到物理多机器人系统上的现实世界。在这项工作中,我们展示了一个系统的设计,允许完全分散地执行基于GNN的策略。我们创建基于ROS2的框架,并在本文中详细说明其细节。我们展示了我们在一个案例研究的框架,需要在机器人之间进行紧张的协调,并呈现出于依赖于adhoc通信的分散式多机器人系统的基于GNN的政策的成功实际部署的一类结果。可以在线找到这种情况的视频演示。https://www.youtube.com/watch?v=coh-wln4io4
translated by 谷歌翻译
事物互联网(物联网)和人工智能(AI)的快速进步催化了智能城市的自适应交通信号控制系统(ATCS)的开发。特别是,深度增强学习(DRL)方法产生最先进的性能,并且具有很大的实际应用潜力。在现有的基于DRL的ATC中,受控信号从附近车辆收集交通状态信息,然后可以基于收集的信息确定最佳动作(例如,切换阶段)。 DRL模型完全“信任”该车辆正在向信号发送真实信息,使ATC易受伪造信息的对抗攻击。鉴于此,本文首次制定了一种新颖的任务,其中一组车辆可以协同地发送伪造的信息,以“欺骗”基于DRL的ATC,以节省他们的总旅行时间。为了解决拟议的任务,我们开发了由道路状语编码器,车辆解释器和通信机制组成的通用和有效的车辆斗争框架。我们采用我们的方法来攻击建立的基于DRL的ATC,并证明拼拼载的总行程时间可以通过合理数量的学习剧集显着减少,并且如果拼的车辆的数量增加,勾结效果将减小。此外,还提供了对基于DRL的ATC的实际部署的见解和建议。研究结果可以帮助提高ATC的可靠性和鲁棒性,并更好地保护智能移动系统。
translated by 谷歌翻译
在人工多智能体系中,学习协作政策的能力是基于代理商的沟通技巧,他们必须能够编码从环境中收到的信息,并学习如何与手头任务所要求的其他代理分享它。我们介绍了一个深度加强学习方法,连接驱动的通信(CDC),促进了多种子体协作行为的出现,仅通过经验。代理被建模为加权图的节点,其状态相关的边缘编码可以交换的对方式。我们介绍了一种依赖于图形的关注机制,可以控制代理的传入消息如何加权。此机制完全核对图表所表示的系统的当前状态,并在捕获信息如何在图中流动的扩散过程中构建。图形拓扑未被假定已知先验,但在代理人的观察中动态依赖于代理人,并以端到端的方式与注意机制和政策同时学习。我们的经验结果表明,CDC能够学习有效的协作政策,并可以在合作导航任务上过度执行竞争学习算法。
translated by 谷歌翻译
政策梯度方法在多智能体增强学习中变得流行,但由于存在环境随机性和探索代理(即非公平性​​),它们遭受了高度的差异,这可能因信用分配难度而受到困扰。结果,需要一种方法,该方法不仅能够有效地解决上述两个问题,而且需要足够强大地解决各种任务。为此,我们提出了一种新的多代理政策梯度方法,称为强大的本地优势(ROLA)演员 - 评论家。 Rola允许每个代理人将个人动作值函数作为当地评论家,以及通过基于集中评论家的新型集中培训方法来改善环境不良。通过使用此本地批评,每个代理都计算基准,以减少对其策略梯度估计的差异,这导致含有其他代理的预期优势动作值,这些选项可以隐式提高信用分配。我们在各种基准测试中评估ROLA,并在许多最先进的多代理政策梯度算法上显示其鲁棒性和有效性。
translated by 谷歌翻译
在合作多智能体增强学习(Marl)中的代理商的创造和破坏是一个批判性的研究领域。当前的Marl算法通常认为,在整个实验中,组内的代理数量仍然是固定的。但是,在许多实际问题中,代理人可以在队友之前终止。这次早期终止问题呈现出挑战:终止的代理人必须从本集团的成功或失败中学习,这是超出其自身存在的成败。我们指代薪资奖励的传播价值作为遣返代理商作为追索的奖励作为追索权。当前的MARL方法通过将这些药剂放在吸收状态下,直到整组试剂达到终止条件,通过将这些药剂置于终止状态来处理该问题。虽然吸收状态使现有的算法和API能够在没有修改的情况下处理终止的代理,但存在实际培训效率和资源使用问题。在这项工作中,我们首先表明样本复杂性随着系统监督学习任务中的吸收状态的数量而增加,同时对变量尺寸输入更加强大。然后,我们为现有的最先进的MARL算法提出了一种新颖的架构,它使用注意而不是具有吸收状态的完全连接的层。最后,我们展示了这一新颖架构在剧集中创建或销毁的任务中的标准架构显着优于标准架构以及标准的多代理协调任务。
translated by 谷歌翻译
小型无人驾驶飞机的障碍避免对于未来城市空袭(UAM)和无人机系统(UAS)交通管理(UTM)的安全性至关重要。有许多技术用于实时强大的无人机指导,但其中许多在离散的空域和控制中解决,这将需要额外的路径平滑步骤来为UA提供灵活的命令。为提供无人驾驶飞机的操作安全有效的计算指导,我们探讨了基于近端政策优化(PPO)的深增强学习算法的使用,以指导自主UA到其目的地,同时通过连续控制避免障碍物。所提出的场景状态表示和奖励功能可以将连续状态空间映射到连续控制,以便进行标题角度和速度。为了验证所提出的学习框架的性能,我们用静态和移动障碍进行了数值实验。详细研究了与环境和安全操作界限的不确定性。结果表明,该拟议的模型可以提供准确且强大的指导,并解决了99%以上的成功率的冲突。
translated by 谷歌翻译
合作的感知在将车辆的感知范围扩展到超出其视线之外至关重要。然而,在有限的通信资源下交换原始感官数据是不可行的。为了实现有效的合作感知,车辆需要解决以下基本问题:需要共享哪些感官数据?,在哪个分辨率?,以及哪个车辆?为了回答这个问题,在本文中,提出了一种新颖的框架来允许加强学习(RL)基于车辆关联,资源块(RB)分配和通过利用基于四叉的点的协作感知消息(CPM)的内容选择云压缩机制。此外,引入了联合的RL方法,以便在跨车辆上加速训练过程。仿真结果表明,RL代理能够有效地学习车辆关联,RB分配和消息内容选择,同时在接收的感官信息方面最大化车辆的满足。结果还表明,与非联邦方法相比,联邦RL改善了培训过程,可以在与非联邦方法相同的时间内实现更好的政策。
translated by 谷歌翻译
多智能体增强学习(MARL)使我们能够在挑战环境中创造自适应代理,即使观察结果有限。现代Marl方法迄今为止集中于发现分解价值函数。虽然这种方法已被证明是成功的,但是由此产生的方法具有复杂的网络结构。我们采取了彻底不同的方法,并建立在独立Q-Meashers的结构上。灵感来自基于影响的抽象,我们从观察开始的观察开始,即观察动作历史的紧凑型表示可以足以学习接近最佳分散的政策。将此观察与Dueling架构,我们的算法LAN相结合,表示这些策略作为单独的个性优势功能w.r.t.一个集中的评论家。这些本地优势网络仅在单个代理的本地观察操作历史记录上。代理商表示的集中值函数条件以及环境的完整状态。在执行之前将其施加的值函数用作稳定器,该稳定器协调学习并在学习期间制定DQN目标。与其他方法相比,这使LAN能够在代理的数量中独立于其集中式网络的网络参数的数量,而不会施加像单调值函数等额外约束。在评估星际争霸多功能挑战基准测试时,LAN显示最先进的性能,并在两个以前未解决的地图`和`3S5Z_VS_3S6Z'中获得超过80%的胜利,导致QPLEL的10%的提高在14层地图上的平均性能。此外,当代理的数量变大时,LAN使用比QPlex甚至Qmix的参数明显更少。因此,我们表明LAN的结构形成了一个关键改进,有助于Marl方法保持可扩展。
translated by 谷歌翻译
强化学习(RL)已用于一系列模拟的现实任务,例如传感器协调,交通光控制和按需移动服务。然而,现实世界部署很少见,因为RL与现实世界环境的动态性质斗争,需要时间学习任务并适应环境的变化。转移学习(TL)可以帮助降低这些适应时间。特别地,在多蛋白RL系统中应用TL的显着潜力,其中多个代理可以彼此共享知识,以及加入系统的新代理。为了获得最大的代理商转移,转移角色(即,确定哪些代理作为源代理并且作为目标),以及在每个特定情况下应动态地选择相关的转移内容参数(例如,转移大小)。作为完全动态转移的第一步,在本文中,我们研究了TL转移参数与固定源和目标角色的影响。具体而言,我们将每个代理环境与代理人的认知信心标记,并且我们使用不同阈值级别和样本大小来过滤共享示例。我们在两种情况下调查了这些参数的影响,标准捕食者 - 猎物RL基准以及带有200个车辆代理的乘车共享系统和10,000名乘车请求的模拟。
translated by 谷歌翻译