增强学习(RL)和进化算法(EAS)的整合旨在同时利用样品效率以及两种范例的多样性和鲁棒性。最近,基于这一原则的混合学习框架在各种具有挑战性的机器人控制任务中取得了巨大的成功。然而,在这些方法中,通过与真实环境的相互作用来评估来自遗传群的策略,限制了他们在计算昂贵的问题中的适用性。在这项工作中,我们提出了代理辅助控制器(SC),一种新颖和高效的模块,可以集成到现有框架中,以通过部分更换昂贵的政策评估来缓解EAS的计算负担。应用该模块的关键挑战是防止优化过程被代理所引入的可能的虚假最小值误导。要解决此问题,我们为SC提供了两种策略来控制混合框架的工作流程。 Openai健身房平台的六个连续控制任务的实验表明,SC不仅可以显着降低健身评估的成本,还可以提高原始混合框架的性能与协作学习和进化过程。
translated by 谷歌翻译
最近已结合了进化算法(EAS)和深度加强学习(DRL)以集成两个解决方案的优势以获得更好的政策学习。然而,在现有的混合方法中,EA用于直接培训策略网络,这将导致对政策绩效的样本效率和不可预测的影响。为了更好地整合这两种方法并避免引入EA引起的缺点,我们致力于设计更有效和合理的结合EA和DRL的方法。在本文中,我们提出了进化行动选择 - 双胞胎延迟深度确定性政策梯度(EAS-TD3),是EA和DRL的新组合。在EAS中,我们专注于优化策略网络选择的动作,并尝试通过进化算法来指导策略学习的高质量行动。我们对挑战的连续控制任务进行了几个实验。结果表明,EAS-TD3在其他最先进的方法中显示出优异的性能。
translated by 谷歌翻译
在过去的几年中,深层神经进化和深厚的增强学习受到了很多关注。一些作品比较了它们,突出了他们的利弊,但是新兴趋势在于结合起来,从而从两全其美的世界中受益。在本文中,我们通过将文献组织成相关的作品组,并将每个组中的所有现有组合都组织成一个通用框架,从而对这种新兴趋势进行了调查。我们系统地涵盖了所有易于使用的论文,无论其出版状态如何,重点是组合机制,而不是实验结果。总的来说,我们总共涵盖了45种算法比2017年更新。我们希望这项工作将通过促进对方法之间的关系的理解,从而有利于该领域的增长,从而导致更深入的分析,概述缺失有用的比较并提出新机制的新组合。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the model-free control problem, bringing together all methods as black-box optimization problems. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. We present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison paves the way toward the hybridization of the various methods, and we offer some perspective on their future development in the literature on flow control problems.
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
尽管在许多控制任务中进行了大量的应用和深入的强化学习的成功,但它仍然存在许多关键问题和局限性,包括具有稀疏奖励的时间信用分配,缺乏有效的探索以及对对超级参数的脆弱融合,这对超级参与者非常敏感问题。持续控制中深厚的强化学习的问题以及进化算法在面对其中一些问题方面的成功,已经出现了进化增强学习的想法,这引起了许多争议。尽管在该领域的一些研究中取得了成功的结果,但针对这些问题及其局限性的适当解决方案尚待提出。本研究旨在研究进一步加强强化学习和进化计算的两个领域的效率,并朝着改善方法和现有挑战迈出一步。 “使用精英缓冲液的进化深度强化学习”算法通过互动学习能力和人脑中的假设结果的灵感引入了一种新的机制。在这种方法中,精英缓冲液的利用(这是受到人类思想的经验概括的启发),以及跨界和突变操作员的存在,以及连续一代的交互式学习,具有提高的效率,收敛性和收敛性,收敛性和在连续控制领域的正确进步。根据实验的结果,所提出的方法超过了具有高复杂性和维度的环境中的其他知名方法,并且在解决上述问题和局限性方面表现出色。
translated by 谷歌翻译
深度强化学习(DRL)和深度多机构的强化学习(MARL)在包括游戏AI,自动驾驶汽车,机器人技术等各种领域取得了巨大的成功。但是,众所周知,DRL和Deep MARL代理的样本效率低下,即使对于相对简单的问题设置,通常也需要数百万个相互作用,从而阻止了在实地场景中的广泛应用和部署。背后的一个瓶颈挑战是众所周知的探索问题,即如何有效地探索环境和收集信息丰富的经验,从而使政策学习受益于最佳研究。在稀疏的奖励,吵闹的干扰,长距离和非平稳的共同学习者的复杂环境中,这个问题变得更加具有挑战性。在本文中,我们对单格和多代理RL的现有勘探方法进行了全面的调查。我们通过确定有效探索的几个关键挑战开始调查。除了上述两个主要分支外,我们还包括其他具有不同思想和技术的著名探索方法。除了算法分析外,我们还对一组常用基准的DRL进行了全面和统一的经验比较。根据我们的算法和实证研究,我们终于总结了DRL和Deep Marl中探索的公开问题,并指出了一些未来的方向。
translated by 谷歌翻译
深度神经网络的强大学习能力使强化学习者能够直接从连续环境中学习有效的控制政策。从理论上讲,为了实现稳定的性能,神经网络假设I.I.D.不幸的是,在训练数据在时间上相关且非平稳的一般强化学习范式中,输入不存在。这个问题可能导致“灾难性干扰”和性能崩溃的现象。在本文中,我们提出智商,即干涉意识深度Q学习,以减轻单任务深度加固学习中的灾难性干扰。具体来说,我们求助于在线聚类,以实现在线上下文部门,以及一个多头网络和一个知识蒸馏正规化术语,用于保留学习上下文的政策。与现有方法相比,智商基于深Q网络,始终如一地提高稳定性和性能,并通过对经典控制和ATARI任务进行了广泛的实验。该代码可在以下网址公开获取:https://github.com/sweety-dm/interference-aware-ware-deep-q-learning。
translated by 谷歌翻译
Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
translated by 谷歌翻译
The high emission and low energy efficiency caused by internal combustion engines (ICE) have become unacceptable under environmental regulations and the energy crisis. As a promising alternative solution, multi-power source electric vehicles (MPS-EVs) introduce different clean energy systems to improve powertrain efficiency. The energy management strategy (EMS) is a critical technology for MPS-EVs to maximize efficiency, fuel economy, and range. Reinforcement learning (RL) has become an effective methodology for the development of EMS. RL has received continuous attention and research, but there is still a lack of systematic analysis of the design elements of RL-based EMS. To this end, this paper presents an in-depth analysis of the current research on RL-based EMS (RL-EMS) and summarizes the design elements of RL-based EMS. This paper first summarizes the previous applications of RL in EMS from five aspects: algorithm, perception scheme, decision scheme, reward function, and innovative training method. The contribution of advanced algorithms to the training effect is shown, the perception and control schemes in the literature are analyzed in detail, different reward function settings are classified, and innovative training methods with their roles are elaborated. Finally, by comparing the development routes of RL and RL-EMS, this paper identifies the gap between advanced RL solutions and existing RL-EMS. Finally, this paper suggests potential development directions for implementing advanced artificial intelligence (AI) solutions in EMS.
translated by 谷歌翻译
需要下一代无线网络以同时满足各种服务和标准。为了解决即将到来的严格条件,开发了具有柔性设计,分解虚拟和可编程组件以及智能闭环控制等特征的新型开放式访问网络(O-RAN)。面对不断变化的情况,O-Ran切片被研究为确保网络服务质量(QoS)的关键策略。但是,必须动态控制不同的网络切片,以避免由环境快速变化引起的服务水平一致性(SLA)变化。因此,本文介绍了一个新颖的框架,能够通过智能提供的提供资源来管理网络切片。由于不同的异质环境,智能机器学习方法需要足够的探索来处理无线网络中最严厉的情况并加速收敛。为了解决这个问题,提出了一种新解决方案,基于基于进化的深度强化学习(EDRL),以加速和优化无线电访问网络(RAN)智能控制器(RIC)模块中的切片管理学习过程。为此,O-RAN切片被表示为Markov决策过程(MDP),然后最佳地解决了资源分配,以使用EDRL方法满足服务需求。在达到服务需求方面,仿真结果表明,所提出的方法的表现优于DRL基线62.2%。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
大自然的一个迷人方面在于它能够产生大型和多样化的生物体,这些生物都在他们的利基中都很高兴。相比之下,大多数AI算法专注于向给定问题找到一个有效的解决方案。除了表现外,旨在实现多样性是处理勘探开发权衡的便捷方式,在学习中发挥着核心作用。当返回的集合包含对所考虑的问题的几个工作解决方案时,它还允许增加鲁棒性,使其适用于机器人等真实应用。质量 - 多样性(QD)方法是为此目的设计的进化算法。本文提出了一种新颖的QD - PG,它结合了政策梯度算法的强度和质量多样性方法,在连续控制环境中产生了各种和高性能的神经政策的集合。这项工作的主要贡献是引入多样性政策梯度(DPG),该梯度(DPG)利用时刻级别的信息以采样有效的方式培养更多样化的策略。具体而言,QD-PG从地图 - E LITES网格中选择神经控制器,并使用两个基于梯度的突变运算符来提高质量和多样性,从而产生稳定的人口更新。我们的结果表明,QD - PG产生了各种解决方案的集合,解决了具有挑战性的勘探和控制问题,同时是比其进化竞争对手更高的样本效率的两个数量级。
translated by 谷歌翻译
演员 - 评论家(AC)算法以求解钢筋学习问题而闻名,但它们也遭受了低采样效率。基于AC的策略优化过程是迭代的,并且需要经常访问代理环境系统来通过推出策略,收集奖励和状态(即样本)来评估和更新策略,并从中学习。它最终需要大量的样本来学习最佳政策。为了提高采样效率,我们提出了一种策略来优化培训数据集,该数据集含有从AC过程中收集的显着较少的样本。数据集优化由仅限最佳剧集操作,策略参数 - 健身模型和遗传算法模块。与控制自主动态系统的许多当代AC算法相比,由优化的训练数据集训练的最佳策略网络表现出优越的性能。标准基准测试的评估表明,该方法提高了采样效率,可确保更快地收敛到Optima,并且比其对应物更具数据效率。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
最近几十年来,已经采用了用于解决各种多主体优化问题(MOPS)的多主体进化算法(MOEAS)的显着进步。但是,这些逐渐改善的MOEAS并不一定配备了精致的可扩展和可学习的解决问题的策略,这些策略能够应对缩放型拖把带来的新的和宏伟的挑战,并不断提高各种方面的复杂性或规模,主要包括昂贵的方面,包括昂贵的方面。功能评估,许多目标,大规模搜索空间,时变环境和多任务。在不同的情况下,它需要不同的思考来设计新的强大MOEAS,以有效地解决它们。在这种情况下,对可学习的MOEAS进行的研究,以机器学习技术进行缩放的拖把,在进化计算领域受到了广泛的关注。在本文中,我们从可扩展的拖把和可学习的MOEAS的分类学开始,然后分析将拖把构成对传统MOEAS的挑战的分析。然后,我们综合概述了可学习的MOEAS的最新进展,以求解各种扩展拖把,主要集中在三个有吸引力的有前途的方向上(即,可学习的环境选择的可学习的进化鉴别器,可学习的进化生物的可学习生殖发生器,以及可学习的进化转移,用于分享或分享或分享或进行分享或可学习的转移。不同问题域之间的经验)。在本文中提供了有关可学习的MOEAS的见解,以参考该领域的努力的一般踪迹。
translated by 谷歌翻译
神经体系结构搜索(NAS)最近在深度学习社区中变得越来越流行,主要是因为它可以提供一个机会,使感兴趣的用户没有丰富的专业知识,从而从深度神经网络(DNNS)的成功中受益。但是,NAS仍然很费力且耗时,因为在NAS的搜索过程中需要进行大量的性能估计,并且训练DNNS在计算上是密集的。为了解决NAS的主要局限性,提高NAS的效率对于NAS的设计至关重要。本文以简要介绍了NAS的一般框架。然后,系统地讨论了根据代理指标评估网络候选者的方法。接下来是对替代辅助NAS的描述,该NAS分为三个不同类别,即NAS的贝叶斯优化,NAS的替代辅助进化算法和NAS的MOP。最后,讨论了剩余的挑战和开放研究问题,并在这个新兴领域提出了有希望的研究主题。
translated by 谷歌翻译