在这项研究中,我们将人工智力的普遍增强学习(URL)代理模型扩展到量子环境。经典探索随机知识寻求代理,KL-KSA的实用功能是从密度矩阵上量子信息理论的距离措施。量子处理断层扫描(QPT)算法形成了用于建模环境动态的易解的程序。基于基于算法复杂度以及计算资源复杂性的可变成本函数来选择最佳QPT策略。我们而不是提供机器,我们估计了高级语言的成本指标,以允许现实的实验。整个代理设计封装在自我复制Quine中,基于最佳策略选择方案的预测值突变成本函数。因此,具有帕累托 - 最佳QPT政策的多个代理商使用遗传编程而发展,模仿各种资源权衡的物理理论的发展。这一正式框架被称为量子知识寻求代理(QKSA)。尽管其重要性,但很少有量子强化学习模型与量子机器学习中的电流推力相反。 QKSA是类似于古典URL模型的框架的第一个提议。类似于AIXI-TL如何是SOLOMONOFF通用归纳的资源有限的活动版本,QKSA是一个资源有限的参与观察者框架,用于最近提出的基于量子力学的基于量子学的算法的重建。 QKSA可以应用于仿真和研究量子信息理论的方面。具体地,我们证明它可以用于加速量子变分算法,该算法包括断层重建作为其积分子程序。
translated by 谷歌翻译
近年来,机器学习的巨大进步已经开始对许多科学和技术的许多领域产生重大影响。在本文的文章中,我们探讨了量子技术如何从这项革命中受益。我们在说明性示例中展示了过去几年的科学家如何开始使用机器学习和更广泛的人工智能方法来分析量子测量,估计量子设备的参数,发现新的量子实验设置,协议和反馈策略,以及反馈策略,以及通常改善量子计算,量子通信和量子模拟的各个方面。我们重点介绍了公开挑战和未来的可能性,并在未来十年的一些投机愿景下得出结论。
translated by 谷歌翻译
FIG. 1. Schematic diagram of a Variational Quantum Algorithm (VQA). The inputs to a VQA are: a cost function C(θ), with θ a set of parameters that encodes the solution to the problem, an ansatz whose parameters are trained to minimize the cost, and (possibly) a set of training data {ρ k } used during the optimization. Here, the cost can often be expressed in the form in Eq. ( 3), for some set of functions {f k }. Also, the ansatz is shown as a parameterized quantum circuit (on the left), which is analogous to a neural network (also shown schematically on the right). At each iteration of the loop one uses a quantum computer to efficiently estimate the cost (or its gradients). This information is fed into a classical computer that leverages the power of optimizers to navigate the cost landscape C(θ) and solve the optimization problem in Eq. ( 1). Once a termination condition is met, the VQA outputs an estimate of the solution to the problem. The form of the output depends on the precise task at hand. The red box indicates some of the most common types of outputs.
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
组合优化是运营研究和计算机科学领域的一个公认领域。直到最近,它的方法一直集中在孤立地解决问题实例,而忽略了它们通常源于实践中的相关数据分布。但是,近年来,人们对使用机器学习,尤其是图形神经网络(GNN)的兴趣激增,作为组合任务的关键构件,直接作为求解器或通过增强确切的求解器。GNN的电感偏差有效地编码了组合和关系输入,因为它们对排列和对输入稀疏性的意识的不变性。本文介绍了对这个新兴领域的最新主要进步的概念回顾,旨在优化和机器学习研究人员。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
在当前的嘈杂中间尺度量子(NISQ)时代,量子机学习正在成为基于程序门的量子计算机的主要范式。在量子机学习中,对量子电路的门进行了参数化,并且参数是根据数据和电路输出的测量来通过经典优化来调整的。参数化的量子电路(PQC)可以有效地解决组合优化问题,实施概率生成模型并进行推理(分类和回归)。该专着为具有概率和线性代数背景的工程师的观众提供了量子机学习的独立介绍。它首先描述了描述量子操作和测量所必需的必要背景,概念和工具。然后,它涵盖了参数化的量子电路,变异量子本质层以及无监督和监督的量子机学习公式。
translated by 谷歌翻译
量子计算有可能彻底改变和改变我们的生活和理解世界的方式。该审查旨在提供对量子计算的可访问介绍,重点是统计和数据分析中的应用。我们从介绍了了解量子计算所需的基本概念以及量子和经典计算之间的差异。我们描述了用作量子算法的构建块的核心量子子程序。然后,我们审查了一系列预期的量子算法,以便在统计和机器学习中提供计算优势。我们突出了将量子计算应用于统计问题的挑战和机遇,并讨论潜在的未来研究方向。
translated by 谷歌翻译
学习涉及时变和不断发展的系统动态的控制政策通常对主流强化学习算法构成了巨大的挑战。在大多数标准方法中,通常认为动作是一组刚性的,固定的选择,这些选择以预定义的方式顺序应用于状态空间。因此,在不诉诸于重大学习过程的情况下,学识渊博的政策缺乏适应动作集和动作的“行为”结果的能力。此外,标准行动表示和动作引起的状态过渡机制固有地限制了如何将强化学习应用于复杂的现实世界应用中,这主要是由于所得大的状态空间的棘手性以及缺乏概括的学术知识对国家空间未知部分的政策。本文提出了一个贝叶斯味的广义增强学习框架,首先建立参数动作模型的概念,以更好地应对不确定性和流体动作行为,然后将增强领域的概念作为物理启发的结构引入通过“极化体验颗粒颗粒建立) “维持在学习代理的工作记忆中。这些粒子有效地编码了以自组织方式随时间演变的动态学习体验。在强化领域之上,我们将进一步概括策略学习过程,以通过将过去的记忆视为具有隐式图结构来结合高级决策概念,在该结构中,过去的内存实例(或粒子)与决策之间的相似性相互联系。定义,因此,可以应用“关联记忆”原则来增强学习代理的世界模型。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
量子哈密顿学习和量子吉布斯采样的双重任务与物理和化学中的许多重要问题有关。在低温方案中,这些任务的算法通常会遭受施状能力,例如因样本或时间复杂性差而遭受。为了解决此类韧性,我们将量子自然梯度下降的概括引入了参数化的混合状态,并提供了稳健的一阶近似算法,即量子 - 固定镜下降。我们使用信息几何学和量子计量学的工具证明了双重任务的数据样本效率,因此首次将经典Fisher效率的开创性结果推广到变异量子算法。我们的方法扩展了以前样品有效的技术,以允许模型选择的灵活性,包括基于量子汉密尔顿的量子模型,包括基于量子的模型,这些模型可能会规避棘手的时间复杂性。我们的一阶算法是使用经典镜下降二元性的新型量子概括得出的。两种结果都需要特殊的度量选择,即Bogoliubov-Kubo-Mori度量。为了从数值上测试我们提出的算法,我们将它们的性能与现有基准进行了关于横向场ISING模型的量子Gibbs采样任务的现有基准。最后,我们提出了一种初始化策略,利用几何局部性来建模状态的序列(例如量子 - 故事过程)的序列。我们从经验上证明了它在实际和想象的时间演化的经验上,同时定义了更广泛的潜在应用。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
自由能原理及其必然的积极推论构成了一种生物启发的理论,该理论假设生物学作用保留在一个受限制的世界首选状态中,即它们最小化自由能。根据这一原则,生物学家学习了世界的生成模型和未来的计划行动,该模型将使代理保持稳态状态,以满足其偏好。该框架使自己在计算机中实现,因为它理解了使其计算负担得起的重要方面,例如变异推断和摊销计划。在这项工作中,我们研究了深度学习的工具,以设计和实现基于主动推断的人造代理,对自由能原理进行深入学习的呈现,调查工作与机器学习和主动推理领域相关,以及讨论实施过程中涉及的设计选择。该手稿探究了积极推理框架的新观点,将其理论方面扎根于更务实的事务中,为活跃推理的新手提供了实用指南,并为深度学习从业人员的起点提供了研究,以调查自由能源原则的实施。
translated by 谷歌翻译
即将开发我们呼叫所体现的系统的新一代越来越自主和自学习系统。在将这些系统部署到真实上下文中,我们面临各种工程挑战,因为它以有益的方式协调所体现的系统的行为至关重要,确保他们与我们以人为本的社会价值观的兼容性,并且设计可验证安全可靠的人类-Machine互动。我们正在争辩说,引发系统工程将来自嵌入到体现系统的温室,并确保动态联合的可信度,这种情况意识到的情境意识,意图,探索,探险,不断发展,主要是不可预测的,越来越自主的体现系统在不确定,复杂和不可预测的现实世界环境中。我们还识别了许多迫切性的系统挑战,包括可信赖的体现系统,包括强大而人为的AI,认知架构,不确定性量化,值得信赖的自融化以及持续的分析和保证。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译