Meta Learning automates the search for learning algorithms. At the same time, it creates a dependency on human engineering on the meta-level, where meta learning algorithms need to be designed. In this paper, we investigate self-referential meta learning systems that modify themselves without the need for explicit meta optimization. We discuss the relationship of such systems to in-context and memory-based meta learning and show that self-referential neural networks require functionality to be reused in the form of parameter sharing. Finally, we propose fitness monotonic execution (FME), a simple approach to avoid explicit meta optimization. A neural network self-modifies to solve bandit and classic control tasks, improves its self-modifications, and learns how to learn, purely by assigning more computational resources to better performing solutions.
translated by 谷歌翻译
在Meta-Learning中,网络培训了外部算法,以学习需要获取,存储和利用任务的每个新实例的不可预测信息的任务。然而,由于其演进的神经结构和突触塑性机制,动物能够自动拾取这种认知任务。在这里,我们发展了神经网络,基于神经科学建模框架的一组相当简单的元学习任务,赋予了神经网络。由此产生的进化网络可以通过其进化的神经组织和可塑性结构的自发操作自动获取新的简单认知任务。我们建议参加自然学习中涉及的多数循环可能会对智能行为的出现提供有用的见解。
translated by 谷歌翻译
短期可塑性(STP)是一种将腐烂记忆存储在大脑皮质突触中的机制。在计算实践中,已经使用了STP,但主要是在尖峰神经元的细分市场中,尽管理论预测它是对某些动态任务的最佳解决方案。在这里,我们提出了一种新型的经常性神经单元,即STP神经元(STPN),它确实实现了惊人的功能。它的关键机制是,突触具有一个状态,通过与偶然性的自我连接在时间上传播。该公式使能够通过时间返回传播来训练可塑性,从而导致一种学习在短期内学习和忘记的形式。 STPN的表现优于所有测试的替代方案,即RNN,LSTMS,其他具有快速重量和可区分可塑性的型号。我们在监督和强化学习(RL)以及协会​​检索,迷宫探索,Atari视频游戏和Mujoco Robotics等任务中证实了这一点。此外,我们计算出,在神经形态或生物电路中,STPN最大程度地减少了模型的能量消耗,因为它会动态降低个体突触。基于这些,生物学STP可能是一种强大的进化吸引子,可最大程度地提高效率和计算能力。现在,STPN将这些神经形态的优势带入了广泛的机器学习实践。代码可从https://github.com/neuromorphiccomputing/stpn获得
translated by 谷歌翻译
Modern machine learning requires system designers to specify aspects of the learning pipeline, such as losses, architectures, and optimizers. Meta-learning, or learning-to-learn, instead aims to learn those aspects, and promises to unlock greater capabilities with less manual effort. One particularly ambitious goal of meta-learning is to train general-purpose in-context learning algorithms from scratch, using only black-box models with minimal inductive bias. Such a model takes in training data, and produces test-set predictions across a wide range of problems, without any explicit definition of an inference model, training loss, or optimization algorithm. In this paper we show that Transformers and other black-box models can be meta-trained to act as general-purpose in-context learners. We characterize phase transitions between algorithms that generalize, algorithms that memorize, and algorithms that fail to meta-train at all, induced by changes in model size, number of tasks, and meta-optimization. We further show that the capabilities of meta-trained algorithms are bottlenecked by the accessible state size (memory) determining the next prediction, unlike standard models which are thought to be bottlenecked by parameter count. Finally, we propose practical interventions such as biasing the training distribution that improve the meta-training and meta-generalization of general-purpose learning algorithms.
translated by 谷歌翻译
我们分析了学习型号(如神经网络)本身是优化器时发生的学习优化的类型 - 我们将作为MESA优化的情况,我们在本文中介绍的新闻。我们认为,MESA优化的可能性为先进机器学习系统的安全和透明度提出了两个重要问题。首先,在什么情况下学习模型是优化的,包括当他们不应该?其次,当学习模型是优化器时,它的目标是什么 - 它将如何与损失函数不同,它训练的损失 - 并且如何对齐?在本文中,我们对这两个主要问题进行了深入的分析,并提供了未来研究的主题概述。
translated by 谷歌翻译
深度强化学习已经证明了通过梯度下降调整的神经网络的潜力,以解决良好的环境中的复杂任务。但是,这些神经系统是缓慢的学习者,生产专门的药物,没有任何机制,无法继续学习培训课程。相反,生物突触可塑性是持久和多种多样的,并被认为在执行功能中起关键作用,例如工作记忆和认知灵活性,可能支持更高效和更通用的学习能力。受此启发的启发,我们建议建立具有动态权重的网络,能够不断执行自反射修改,这是其当前突触状态和动作奖励反馈的函数,而不是固定的网络配置。最终的模型,Metods(用于元优化的动力突触)是一种广泛适用的元强制学习系统,能够在代理策略空间中学习有效而强大的控制规则。具有动态突触的单层可以执行单次学习,将导航原则概括为看不见的环境,并表现出强大的学习自适应运动策略的能力,并与以前的元强化学习方法进行了比较。
translated by 谷歌翻译
深入学习的强化学习(RL)的结合导致了一系列令人印象深刻的壮举,许多相信(深)RL提供了一般能力的代理。然而,RL代理商的成功往往对培训过程中的设计选择非常敏感,这可能需要繁琐和易于易于的手动调整。这使得利用RL对新问题充满挑战,同时也限制了其全部潜力。在许多其他机器学习领域,AutomL已经示出了可以自动化这样的设计选择,并且在应用于RL时也会产生有希望的初始结果。然而,自动化强化学习(AutorL)不仅涉及Automl的标准应用,而且还包括RL独特的额外挑战,其自然地产生了不同的方法。因此,Autorl已成为RL中的一个重要研究领域,提供来自RNA设计的各种应用中的承诺,以便玩游戏等游戏。鉴于RL中考虑的方法和环境的多样性,在不同的子领域进行了大部分研究,从Meta学习到进化。在这项调查中,我们寻求统一自动的领域,我们提供常见的分类法,详细讨论每个区域并对研究人员来说是一个兴趣的开放问题。
translated by 谷歌翻译
人工神经网络(ANN)通常仅限于通过学习一组静态参数来完成预定的任务。相比之下,生物神经网络(BNN)可以通过根据其观察值不断更新其连接权重来适应各种新任务,这与学习有效学习规则的范式相符,例如静态参数,例如元参数。在广泛的生物学启发的学习规则中,Hebbian可塑性使用本地信号更新神经网络权重,而无需明确的目标功能指导,并密切模拟了BNN的学习。然而,使用大规模元参数的典型塑料环境违反了基因组瓶颈的性质,并使概括能力恶化。这项工作提出了一个新的学习范式,将这些依赖连接的可塑性规则分解为神经元依赖性规则,因此可容纳$ o(n^2)$可学习参数,只有$ o(n)$ meta-parameters。分解的可塑性以及不同类型的神经调节术都适用于从头开始的递归神经网络,以适应不同的任务。我们的算法在挑战随机的2D迷宫环境中进行了测试,在这些环境中,代理商必须利用过去的经验来提高其性能,而无需任何明确的客观功能和人类干预,即通过互动来学习。结果表明,满足基因组瓶颈的规则比以前的基于模型和基于可塑性的元学习更好地适应了分布式任务。
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
This paper surveys the recent attempts, both from the machine learning and operations research communities, at leveraging machine learning to solve combinatorial optimization problems. Given the hard nature of these problems, state-of-the-art algorithms rely on handcrafted heuristics for making decisions that are otherwise too expensive to compute or mathematically not well defined. Thus, machine learning looks like a natural candidate to make such decisions in a more principled and optimized way. We advocate for pushing further the integration of machine learning and combinatorial optimization and detail a methodology to do so. A main point of the paper is seeing generic optimization problems as data points and inquiring what is the relevant distribution of problems to use for learning on a given task.
translated by 谷歌翻译
The reinforcement learning paradigm is a popular way to address problems that have only limited environmental feedback, rather than correctly labeled examples, as is common in other machine learning contexts. While significant progress has been made to improve learning in a single task, the idea of transfer learning has only recently been applied to reinforcement learning tasks. The core idea of transfer is that experience gained in learning to perform one task can help improve learning performance in a related, but different, task. In this article we present a framework that classifies transfer learning methods in terms of their capabilities and goals, and then use it to survey the existing literature, as well as to suggest future directions for transfer learning work.
translated by 谷歌翻译
元梯度方法(Xu等,2018; Zahavy等,2020)为非平稳加强学习问题中的超参数选择和适应性提供了有希望的解决方案。但是,尚未系统地研究此类环境中元梯度的特性。在这项工作中,我们在非平稳环境中对元级别的新清晰度进行了新的清晰度。具体而言,我们问:(i)应向学习的优化者提供多少信息,以使一生中更快地适应和概括,(ii)在此过程中学习了什么元访问功能,以及(iii)是否)元梯度方法在高度非平稳的环境中提供了更大的优势。为了研究提供给元淘汰的信息的影响,如最近的作品(Flennerhag等,2021; Almeida等,2021),我们用学识渊博的元参数功能替换了固定更新规则的调谐元参数选定的上下文功能。上下文功能携带有关代理性能和环境变化的信息,因此可以告知学习的元参数计划。我们发现,添加更多的上下文信息通常是有益的,从而导致元参数值更快地适应并在一生中提高绩效。我们通过对结果的元参数计划和上下文特征的学习功能进行定性分析来支持这些结果。最后,我们发现没有上下文,在高度非平稳的环境中,元梯度并不能比基线提供一致的优势。我们的发现表明,情境化的元梯度可以在非平稳设置中的元梯度中提取高性能方面发挥关键作用。
translated by 谷歌翻译
Atari games have been a long-standing benchmark in the reinforcement learning (RL) community for the past decade. This benchmark was proposed to test general competency of RL algorithms. Previous work has achieved good average performance by doing outstandingly well on many games of the set, but very poorly in several of the most challenging games. We propose Agent57, the first deep RL agent that outperforms the standard human benchmark on all 57 Atari games. To achieve this result, we train a neural network which parameterizes a family of policies ranging from very exploratory to purely exploitative. We propose an adaptive mechanism to choose which policy to prioritize throughout the training process. Additionally, we utilize a novel parameterization of the architecture that allows for more consistent and stable learning.
translated by 谷歌翻译
Hierarchical methods in reinforcement learning have the potential to reduce the amount of decisions that the agent needs to perform when learning new tasks. However, finding a reusable useful temporal abstractions that facilitate fast learning remains a challenging problem. Recently, several deep learning approaches were proposed to learn such temporal abstractions in the form of options in an end-to-end manner. In this work, we point out several shortcomings of these methods and discuss their potential negative consequences. Subsequently, we formulate the desiderata for reusable options and use these to frame the problem of learning options as a gradient-based meta-learning problem. This allows us to formulate an objective that explicitly incentivizes options which allow a higher-level decision maker to adjust in few steps to different tasks. Experimentally, we show that our method is able to learn transferable components which accelerate learning and performs better than existing prior methods developed for this setting. Additionally, we perform ablations to quantify the impact of using gradient-based meta-learning as well as other proposed changes.
translated by 谷歌翻译
元钢筋学习(Meta-RL)算法使得能够快速适应动态环境中的少量样本的任务。通过代理策略网络中的动态表示(通过推理关于任务上下文,模型参数更新或两者)获得的动态表示来实现这样的壮举。然而,由于在策略网络上满足不同的政策,因此获得了超越简单基准问题的快速适应的丰富动态表示是具有挑战性的。本文通过将神经调节引入模块化组件来解决挑战,以增加调节神经元活动的标准策略网络,以便为任务适应提供有效的动态表示。策略网络的建议扩展是在越来越复杂的多个离散和连续控制环境中进行评估。为了证明在Meta-R1中的延伸的一般性和益处,将神经调序的网络应用于两个最先进的META-RL算法(胱瓦和珍珠)。结果表明,与基线相比,通过神经调节增强的Meta-R1产生明显更好的结果和更丰富的动态表示。
translated by 谷歌翻译
元梯度提供了一种一般方法,以优化增强学习算法(RL)算法的元参数。元梯度的估计对于这些元算法的性能至关重要,并且已经在MAML式短距离元元RL问题的情况下进行了研究。在这种情况下,先前的工作调查了对RL目标的Hessian的估计,并通过进行抽样校正来解决信贷分配问题,以解决预先适应行为。但是,我们表明,例如由DICE及其变体实施的Hessian估计始终会增加偏差,还可以为元梯度估计增加差异。同时,在重要的长马设置中,元梯度估计的研究较少,在这种情况下,通过完整的内部优化轨迹的反向传播是不可行的。我们研究了截短的反向传播和采样校正引起的偏见和差异权衡,并与进化策略进行了比较,这是最近流行的长期替代策略。虽然先前的工作隐含地选择了这个偏见变化空间中的点,但我们解散了偏见和差异的来源,并提出了将现有估计器相互关联的经验研究。
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
神经网络(NN)的重量矩阵(WM)是其程序。许多传统NN的程序是通过梯度下降中的某些错误函数中学到的,然后保持固定。但是,在运行时可以继续迅速修改自身的WM。原则上,这样的NN可以学习元学习,并从递归自我改善的意义上学习meta-meta-learn来学习,等等。自从90年代以来,已经提出了NN架构可能能够实施这种行为的架构,但几乎没有实践研究。在这里,我们基于快速重量程序员和密切相关的线性变压器的最新成功进行重新审视。我们提出了一个可扩展的自我参照WM(SRWM),该WM(SRWM)学会使用外部产品和Delta Update规则来修改自身。我们通过程序生成的游戏环境评估了有监督的少数学习和多任务增强学习中的SRWM。我们的实验证明了拟议的SRWM的实际适用性和竞争性能。我们的代码是公开的。
translated by 谷歌翻译
我们通过在计算图的空间中搜索计算基于值的无模型RL代理以优化的计算函数来提出一种用于元学习增强学习算法的方法。学到的算法是域 - 不可思议的,可以推广到训练期间未见的新环境。我们的方法既可以从头开始学习,又可以从已知的现有算法(例如DQN)学习,从而实现可解释的修改,从而改善性能。从头开始学习简单的经典控制和网格世界任务,我们的方法重新发现了时间差异(TD)算法。我们从DQN进行了引导,我们重点介绍了两种学到的算法,这些算法比其他经典控制任务,GridWorld类型任务和Atari游戏获得了良好的概括性能。对学习算法行为的分析表明,与最近提出的RL算法相似,该算法解决了基于价值的方法的高估。
translated by 谷歌翻译