量子计算在解决特定问题方面具有优异的优势,例如整数分解和Simon的问题。对于机器学习中的更多一般任务,通过应用变分量子电路,最近已经提出了越来越多的量子算法,特别是在监督学习和无监督的学习中。但是,在加固学习中已经完成了一点工作,可以说是更重要和挑战性的。以前的Quantum加固学习的工作主要集中在行动空间是离散的离散控制任务。在这项工作中,我们开发了一种基于软演员 - 评论家的量子强化学习算法 - 用于连续控制的最先进方法之一。具体地,我们使用由变形量子电路和经典人工神经网络组成的混合量子级策略网络。在标准强化学习基准测试中测试,我们认为这种Quantum版本的软演员 - 评论家与原始的软演员 - 评论家相当,使用远不可调节的参数。此外,我们分析了不同超参数和策略网络架构的影响,指出了量子增强学习的建筑设计的重要性。
translated by 谷歌翻译
Deep Reinforcement Learning is emerging as a promising approach for the continuous control task of robotic arm movement. However, the challenges of learning robust and versatile control capabilities are still far from being resolved for real-world applications, mainly because of two common issues of this learning paradigm: the exploration strategy and the slow learning speed, sometimes known as "the curse of dimensionality". This work aims at exploring and assessing the advantages of the application of Quantum Computing to one of the state-of-art Reinforcement Learning techniques for continuous control - namely Soft Actor-Critic. Specifically, the performance of a Variational Quantum Soft Actor-Critic on the movement of a virtual robotic arm has been investigated by means of digital simulations of quantum circuits. A quantum advantage over the classical algorithm has been found in terms of a significant decrease in the amount of required parameters for satisfactory model training, paving the way for further promising developments.
translated by 谷歌翻译
量子机学习(QML)被认为是近术语量子设备最有前途的应用之一。然而,量子机器学习模型的优化呈现出众多挑战,从硬件的缺陷和导航指数上缩放的希尔伯特空间中的缺陷产生了巨大的挑战。在这项工作中,我们评估了深度增强学习中的当代方法的潜力,以增加量子变分电路中的增强基于梯度的优化例程。我们发现强化学习增强了优化器,始终突出噪声环境中的渐变血统。所有代码和备用重量都可用于复制结果或在https://github.com/lockwo/rl_qvc_opt上部署模型。
translated by 谷歌翻译
在这项工作中,我们利用量子深的增强学习作为方法,以在三个模拟的复杂性的模拟环境中为简单的,轮式机器人学习导航任务。我们显示了与经典基线相比,在混合量子古典设置中训练有良好建立的深钢筋学习技术的参数化量子电路的相似性能。据我们所知,这是用于机器人行为的量子机学习(QML)的首次演示。因此,我们将机器人技术建立为QML算法的可行研究领域,此后量子计算和量子机学习是自治机器人技术未来进步的潜在技术。除此之外,我们讨论了当前的方法的限制以及自动机器人量子机学习领域的未来研究方向。
translated by 谷歌翻译
尽管政策梯度方法的普及日益越来越大,但它们尚未广泛用于样品稀缺应用,例如机器人。通过充分利用可用信息,可以提高样本效率。作为强化学习中的关键部件,奖励功能通常仔细设计以引导代理商。因此,奖励功能通常是已知的,允许访问不仅可以访问标量奖励信号,而且允许奖励梯度。为了从奖励梯度中受益,之前的作品需要了解环境动态,这很难获得。在这项工作中,我们开发\ Textit {奖励政策梯度}估计器,这是一种新的方法,可以在不学习模型的情况下整合奖励梯度。绕过模型动态允许我们的估算器实现更好的偏差差异,这导致更高的样本效率,如经验分析所示。我们的方法还提高了在不同的Mujoco控制任务上的近端策略优化的性能。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(RL)已经取得了长足的进步。同时,最先进的RL算法在培训时间融合方面需要大量的计算预算。最近的工作已经开始通过量子计算的角度来解决这个问题,这有望为几项传统上的艰巨任务做出理论上的速度。在这项工作中,我们研究了一类混合量子古典RL算法,我们共同称为变异量子Q-NETWORKS(VQ-DQN)。我们表明,VQ-DQN方法受到导致学习政策分歧的不稳定性的约束,研究了基于经典模拟的既定结果的重复性,并执行系统的实验以识别观察到的不稳定性的潜在解释。此外,与大多数现有的量子增强学习中现有工作相反,我们在实际量子处理单元(IBM量子设备)上执行RL算法,并研究模拟和物理量子系统之间因实施不足而进行的行为差异。我们的实验表明,与文献中相反的主张相反,与经典方法相比,即使在没有物理缺陷的情况下进行模拟,也不能最终决定是否已知量子方法,也可以提供优势。最后,我们提供了VQ-DQN作为可再现的测试床的强大,通用且经过充分测试的实现,以实现未来的实验。
translated by 谷歌翻译
量子计算的最新进展已显示出许多问题领域的有希望的计算优势。作为越来越关注的领域之一,混合量子古典机器学习系统已经证明了解决各种数据驱动的学习任务的能力。最近的作品表明,参数化的量子电路(PQC)可用于以可证明的学习优势来解决具有挑战性的强化学习(RL)任务。尽管现有的作品产生了基于PQC的方法的潜力,但PQC体系结构的设计选择及其对学习任务的影响通常没有得到充实。在这项工作中,我们介绍了基于PQC的模型EQAS-PQC,这是一种进化的量子体系结构搜索框架,该模型使用基于人群的遗传算法来通过探索量子操作的搜索空间来发展PQC体系结构。实验结果表明,我们的方法可以显着改善混合量子古典模型在解决基准增强问题方面的性能。我们还对量子操作的概率分布进行建模,以表现出色的体系结构,以识别对性能至关重要的基本设计选择。
translated by 谷歌翻译
Quantum Computing在古典计算机上解决困难的计算任务的显着改进承诺。然而,为实际使用设计量子电路不是琐碎的目标,并且需要专家级知识。为了帮助这一努力,提出了一种基于机器学习的方法来构建量子电路架构。以前的作品已经证明,经典的深度加强学习(DRL)算法可以成功构建量子电路架构而没有编码的物理知识。但是,这些基于DRL的作品不完全在更换设备噪声中的设置,从而需要大量的培训资源来保持RL模型最新。考虑到这一点,我们持续学习,以提高算法的性能。在本文中,我们介绍了深度Q-Learning(PPR-DQL)框架的概率策略重用来解决这个电路设计挑战。通过通过各种噪声模式进行数值模拟,我们证明了具有PPR的RL代理能够找到量子栅极序列,以比从划痕训练的代理更快地生成双量标铃声状态。所提出的框架是一般的,可以应用于其他量子栅极合成或控制问题 - 包括量子器件的自动校准。
translated by 谷歌翻译
软演员 - 评论家(SAC)是最先进的偏离策略强化学习(RL)算法之一,其在基于最大熵的RL框架内。 SAC被证明在具有良好稳定性和稳健性的持续控制任务的列表中表现得非常好。 SAC了解一个随机高斯政策,可以最大限度地提高预期奖励和政策熵之间的权衡。要更新策略,SAC可最大限度地减少当前策略密度与软值函数密度之间的kl分歧。然后用于获得这种分歧的近似梯度的回报。在本文中,我们提出了跨熵策略优化(SAC-CEPO)的软演员 - 评论家,它使用跨熵方法(CEM)来优化SAC的政策网络。初始思想是使用CEM来迭代地对软价函数密度的最接近的分布进行采样,并使用结果分布作为更新策略网络的目标。为了降低计算复杂性,我们还介绍了一个解耦的策略结构,该策略结构将高斯策略解耦为一个策略,了解了学习均值的均值和另一个策略,以便只有CEM训练平均政策。我们表明,这种解耦的政策结构确实会聚到最佳,我们还通过实验证明SAC-CEPO实现对原始囊的竞争性能。
translated by 谷歌翻译
资产分配(或投资组合管理)是确定如何最佳将有限预算的资金分配给一系列金融工具/资产(例如股票)的任务。这项研究调查了使用无模型的深RL代理应用于投资组合管理的增强学习(RL)的性能。我们培训了几个RL代理商的现实股票价格,以学习如何执行资产分配。我们比较了这些RL剂与某些基线剂的性能。我们还比较了RL代理,以了解哪些类别的代理表现更好。从我们的分析中,RL代理可以执行投资组合管理的任务,因为它们的表现明显优于基线代理(随机分配和均匀分配)。四个RL代理(A2C,SAC,PPO和TRPO)总体上优于最佳基线MPT。这显示了RL代理商发现更有利可图的交易策略的能力。此外,基于价值和基于策略的RL代理之间没有显着的性能差异。演员批评者的表现比其他类型的药物更好。同样,在政策代理商方面的表现要好,因为它们在政策评估方面更好,样品效率在投资组合管理中并不是一个重大问题。这项研究表明,RL代理可以大大改善资产分配,因为它们的表现优于强基础。基于我们的分析,在政策上,参与者批评的RL药物显示出最大的希望。
translated by 谷歌翻译
Model-free deep reinforcement learning (RL) algorithms have been demonstrated on a range of challenging decision making and control tasks. However, these methods typically suffer from two major challenges: very high sample complexity and brittle convergence properties, which necessitate meticulous hyperparameter tuning. Both of these challenges severely limit the applicability of such methods to complex, real-world domains. In this paper, we propose soft actor-critic, an offpolicy actor-critic deep RL algorithm based on the maximum entropy reinforcement learning framework. In this framework, the actor aims to maximize expected reward while also maximizing entropy. That is, to succeed at the task while acting as randomly as possible. Prior deep RL methods based on this framework have been formulated as Q-learning methods. By combining off-policy updates with a stable stochastic actor-critic formulation, our method achieves state-of-the-art performance on a range of continuous control benchmark tasks, outperforming prior on-policy and off-policy methods. Furthermore, we demonstrate that, in contrast to other off-policy algorithms, our approach is very stable, achieving very similar performance across different random seeds.
translated by 谷歌翻译
无模型的深度增强学习(RL)已成功应用于挑战连续控制域。然而,较差的样品效率可防止这些方法广泛用于现实世界领域。我们通过提出一种新的无模型算法,现实演员 - 评论家(RAC)来解决这个问题,旨在通过学习关于Q函数的各种信任的政策家庭来解决价值低估和高估之间的权衡。我们构建不确定性惩罚Q-Learning(UPQ),该Q-Learning(UPQ)使用多个批评者的合并来控制Q函数的估计偏差,使Q函数平稳地从低于更高的置信范围偏移。随着这些批评者的指导,RAC采用通用价值函数近似器(UVFA),同时使用相同的神经网络学习许多乐观和悲观的政策。乐观的政策会产生有效的探索行为,而悲观政策会降低价值高估的风险,以确保稳定的策略更新和Q函数。该方法可以包含任何违规的演员 - 评论家RL算法。我们的方法实现了10倍的样本效率和25 \%的性能改进与SAC在最具挑战性的人形环境中,获得了11107美元的集中奖励1107美元,价格为10 ^ 6美元。所有源代码都可以在https://github.com/ihuhuhu/rac获得。
translated by 谷歌翻译
有效的强化学习需要适当的平衡探索和剥削,由动作分布的分散定义。但是,这种平衡取决于任务,学习过程的当前阶段以及当前的环境状态。指定动作分布分散的现有方法需要依赖问题的超参数。在本文中,我们建议使用以下原则自动指定动作分布分布:该分布应具有足够的分散,以评估未来的政策。为此,应调整色散以确保重播缓冲区中的动作和产生它们的分布模式的足够高的概率(密度),但是这种分散不应更高。这样,可以根据缓冲区中的动作有效评估策略,但是当此策略收敛时,动作的探索性随机性会降低。上述原则在挑战性的基准蚂蚁,Halfcheetah,Hopper和Walker2D上进行了验证,并取得了良好的效果。我们的方法使动作标准偏差收敛到与试验和错误优化产生的相似的值。
translated by 谷歌翻译
学习评估和改善政策是加强学习(RL)的核心问题。传统的RL算法学习为单个策略定义的值函数。最近探索的竞争选择是学习许多策略的单个价值功能。在这里,我们结合了基于参数的价值函数的参与者批判性架构和策略评估网络的策略嵌入,以学习评估(并从而有助于改善)的单个价值函数,以改善深度神经网络(NN)代表的任何策略。该方法产生竞争性的实验结果。在无限多个状态的连续控制问题中,我们的价值函数通过同时学习一小部分“探测状态”和从探测状态在策略返回中产生的动作的映射来最大程度地减少其预测错误。该方法以极少数状态的形式提取有关环境的重要抽象知识,足以完全指定许多政策的行为。策略仅通过改变探测状态的动作,遵循值函数的预测的梯度来改善。令人惊讶的是,只有通过分别知道如何在3和5的5个这样的国家中采取行动,才有可能克隆在游泳者V3和Hopper-V3环境中近乎最佳政策的行为。值得注意的是,我们经过评估NN策略的培训的价值功能也与政策体系结构的变化也不变:我们表明,它允许零拍学习线性策略的竞争力与培训中最佳政策竞争。我们的代码是公开的。
translated by 谷歌翻译
在训练加强学习(RL)代理的过程中,随着代理商的行为随着时间的变化而变化,培训数据的分布是非平稳的。因此,有风险,代理被过度专门针对特定的分布,其性能在更大的情况下受到了影响。合奏RL可以通过学习强大的策略来减轻此问题。但是,由于新引入的价值和策略功能,它遭受了大量的计算资源消耗。在本文中,为了避免臭名昭著的资源消费问题,我们设计了一个新颖而简单的合奏深度RL框架,将多个模型集成到单个模型中。具体而言,我们提出了\下划线{m} inimalist \ usewissline {e} nsemble \ useverlline {p} olicy \ usewissline {g} radient框架(mepg),通过利用修改后的辍学者,引入了简约的bellman更新。 MEPG通过保持Bellman方程式两侧的辍学一致性来持有合奏属性。此外,辍学操作员还增加了MEPG的概括能力。此外,我们从理论上表明,MEPG中的政策评估阶段维持了两个同步的深高斯流程。为了验证MEPG框架的概括能力,我们在健身房模拟器上执行实验,该实验表明,MEPG框架的表现优于或达到与当前最新的无效合奏方法和不增加模型的方法相似的性能水平其他计算资源成本。
translated by 谷歌翻译
一种被称为优先体验重播(PER)的广泛研究的深钢筋学习(RL)技术使代理可以从与其时间差异(TD)误差成正比的过渡中学习。尽管已经表明,PER是离散作用域中深度RL方法总体性能的最关键组成部分之一,但许多经验研究表明,在连续控制中,它的表现非常低于参与者 - 批评算法。从理论上讲,我们表明,无法有效地通过具有较大TD错误的过渡对演员网络进行训练。结果,在Q网络下计算的近似策略梯度与在最佳Q功能下计算的实际梯度不同。在此激励的基础上,我们引入了一种新颖的经验重播抽样框架,用于演员批评方法,该框架还认为稳定性和最新发现的问题是Per的经验表现不佳。引入的算法提出了对演员和评论家网络的有效和高效培训的改进的新分支。一系列广泛的实验验证了我们的理论主张,并证明了引入的方法显着优于竞争方法,并获得了与标准的非政策参与者 - 批评算法相比,获得最先进的结果。
translated by 谷歌翻译
在本文中,我们提出了一种用于增强学习(RL)的最大熵框架,以克服在无模型基于样本的学习中实现最大熵RL的软演员 - 评论权(SAC)算法的限制。尽管在未来的最大熵RL指南学习政策中,未来的高熵达到国家,所提出的MAX-MIN熵框架旨在学会访问低熵的国家,并最大限度地提高这些低熵状态的熵,以促进更好的探索。对于一般马尔可夫决策过程(MDP),基于勘探和剥削的解剖学,在提议的MAX-MIN熵框架下构建了一种有效的算法。数值结果表明,该算法对目前最先进的RL算法产生了剧烈性能改进。
translated by 谷歌翻译
Quantum computing (QC) promises significant advantages on certain hard computational tasks over classical computers. However, current quantum hardware, also known as noisy intermediate-scale quantum computers (NISQ), are still unable to carry out computations faithfully mainly because of the lack of quantum error correction (QEC) capability. A significant amount of theoretical studies have provided various types of QEC codes; one of the notable topological codes is the surface code, and its features, such as the requirement of only nearest-neighboring two-qubit control gates and a large error threshold, make it a leading candidate for scalable quantum computation. Recent developments of machine learning (ML)-based techniques especially the reinforcement learning (RL) methods have been applied to the decoding problem and have already made certain progress. Nevertheless, the device noise pattern may change over time, making trained decoder models ineffective. In this paper, we propose a continual reinforcement learning method to address these decoding challenges. Specifically, we implement double deep Q-learning with probabilistic policy reuse (DDQN-PPR) model to learn surface code decoding strategies for quantum environments with varying noise patterns. Through numerical simulations, we show that the proposed DDQN-PPR model can significantly reduce the computational complexity. Moreover, increasing the number of trained policies can further improve the agent's performance. Our results open a way to build more capable RL agents which can leverage previously gained knowledge to tackle QEC challenges.
translated by 谷歌翻译
随着真实世界量子计算的出现,参数化量子计算可以用作量子古典机器学习系统中的假设家庭的想法正在增加牵引力的增加。这种混合系统已经表现出潜力在监督和生成学习中解决现实世界任务,最近的作品已经在特殊的人工任务中建立了他们可提供的优势。然而,在加强学习的情况下,可以说是最具挑战性的,并且学习提升将是极为有价值的,在解决甚至标准的基准测试方面没有成功地取得了成功,也没有在典型算法上表达理论上的学习优势。在这项工作中,我们均达到两者。我们提出了一种使用很少的Qubits的混合量子古典强化学习模型,我们展示了可以有效地培训,以解决若干标准基准环境。此外,我们展示和正式证明,参数化量子电路解决了用于古典模型的棘手的某些学习任务的能力,包括当前最先进的深神经网络,在离散对数问题的广泛的经典硬度下。
translated by 谷歌翻译
演员 - 评论家RL广泛用于各种机器人控制任务。通过从变分推理(VI)的角度来看演员 - 评论仪RL,训练策略网络以获得给定最优标准的动作的近似。然而,在实践中,演员 - 评论家RL可能会因摊销缺口而产生次优政策估计,并勘探不足。在这项工作中,受到先前使用Hamiltonian Monte Carlo(HMC)在VI中的启发,我们建议将演员 - 评论家RL的政策网络与HMC纳入其中,被称为{\ IT Hamiltonian政策}。因此,我们建议根据HMC从基础政策中发展行动,我们提出的方法具有许多好处。首先,HMC可以改善策略分布,以更好地近似后,因此降低摊销间隙。其次,HMC还可以将勘探更多到具有更高Q值的动作空间区域,提高勘探效率。此外,我们提出了一种新的LEAPFROG运算符来模拟HAMILTONIAN Dynamics。最后,在安全的RL问题中,我们发现所提出的方法不仅可以改善实现的回报,还可以通过丢弃可能的不安全行动来减少安全约束违规行为。在连续控制基线的综合实验实验中,包括Mujoco和Pybullet Roboschool,我们表明该方法是对以前的演员批评方法的数据有效且易于实施的改进。
translated by 谷歌翻译