虽然多智能体增强学习被用作学习代理之间的紧急沟通的有效手段,但现有的工作几乎专注于与离散符号的沟通。人类的沟通通常在连续声道上发生(和出现);人类婴儿通过与他们的照顾者连续的信号传导来获得语言。因此,我们问:我们是否能够通过加强学习培训的连续沟通渠道在代理之间观察到的紧急语言?如果是这样,渠道特征对新兴语言的影响是什么?我们提出了一种环境和培训方法,以作为对这些问题进行初步探索的手段。我们使用一个简单的消息环境,其中“扬声器”代理需要将概念传达给“侦听器”。扬声器配备了一个声码器,将符号映射到连续波形,这通过有损的连续通道,听众需要将连续信号映射到概念。使用Deep Q-Learning,我们表明基本的组成性以读取的语言表示出现。我们发现在传送未经证明的概念组合时,噪音在通信渠道中必不可少。我们展示我们可以通过将倾向于“听到”或“口语”英语的护理人员来实现紧急沟通。最后,我们描述了我们的平台是如何作为未来工作的起点,这些工作采用深度加强学习和多种子体系统的组合来研究我们在语言学习和出现中持续信令的问题。
translated by 谷歌翻译
We consider the problem of multiple agents sensing and acting in environments with the goal of maximising their shared utility. In these environments, agents must learn communication protocols in order to share information that is needed to solve the tasks. By embracing deep neural networks, we are able to demonstrate endto-end learning of protocols in complex environments inspired by communication riddles and multi-agent computer vision problems with partial observability. We propose two approaches for learning in these domains: Reinforced Inter-Agent Learning (RIAL) and Differentiable Inter-Agent Learning (DIAL). The former uses deep Q-learning, while the latter exploits the fact that, during learning, agents can backpropagate error derivatives through (noisy) communication channels. Hence, this approach uses centralised learning but decentralised execution. Our experiments introduce new environments for studying the learning of communication protocols and present a set of engineering innovations that are essential for success in these domains.
translated by 谷歌翻译
在强化学习培训的设置代理神经学可以通过分立令牌相互通信,实现作为一个团队有哪些代理将无法独自做到。然而,使用一个热向量作为离散的通信的当前标准从获取作为零次理解通信这样的更理想的方面令牌防止剂。通过嵌入一词从自然语言处理技术的启发,我们提出了神经代理架构,使他们能够通过从了解到,连续的空间衍生离散令牌进行通信。我们显示了在决策理论框架,我们的技术优化通信在大范围的场景,而一个热令牌是唯一最佳的下严格的假设。在自我发挥的实验,我们验证了我们的培训的工作人员学习集群令牌语义有意义的方式,让他们在其他技术无法嘈杂的环境中交流。最后,我们证明这两种,用我们的方法代理可以有效地应对新的人际交往和人类可以理解未标记的应急代理通信,跑赢使用一个热的沟通。
translated by 谷歌翻译
为了解决艰巨的任务,人类提出问题以从外部来源获取知识。相反,经典的加强学习者缺乏这种能力,并且常常诉诸探索性行为。这会加剧,因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识,我们首先介绍了两个新环境:基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外,代理还可以查询专门针对这些环境的外部知识源来收集信息。其次,我们提出了“寻求知识”(AFK)代理,该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆,指针机制和情节探索奖金来解决(1)无关的信息,(2)一个较大的查询语言空间,(3)延迟奖励有意义的查询。广泛的实验表明,AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
人类利用组成性从过去的经验概括到实际或虚构的新颖经验。为此,我们将我们的经验分为基本原子成分。然后,这些原子成分可以通过新颖的方式重新组合,以支持我们想象和参与新经验的能力。我们将其视为学习概括构图的能力。而且,我们将提到利用这种能力作为组成学习行为(CLB)的行为。学习CLB的一个核心问题是解决结合问题(BP)(首先,通过学习将支持性刺激成分与观察到多个刺激的观察,然后将它们结合在单个情节体验中)。尽管人类轻松地表现是智力的另一个壮举,但最先进的人造代理人并非如此。因此,为了建立能够与人类合作的人工代理,我们建议开发一种新颖的基准测试,以通过求解BP的域 - 不可稳定版本来研究代理商展示CLB的能力。我们从引用游戏的语言出现和基础框架中汲取灵感,并提出了参考游戏,标题为“元参考游戏”的元学习扩展,并使用此框架来构建我们的基准测试,我们将符号行为基准(S2B)命名。但是,尽管在本文中,它有可能测试更多符号行为,而不是仅仅是CLB,但我们仅专注于测试CLB的单格语言接地任务。我们使用最先进的RL代理商为其提供基线结果,并表明我们提出的基准是一个令人信服的挑战,我们希望我们能促使研究社区发展出更有能力的人工代理。
translated by 谷歌翻译
In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centralised fashion in a simulated or laboratory setting, where global state information is available and communication constraints are lifted. Learning joint actionvalues conditioned on extra state information is an attractive way to exploit centralised learning, but the best strategy for then extracting decentralised policies is unclear. Our solution is QMIX, a novel value-based method that can train decentralised policies in a centralised end-to-end fashion. QMIX employs a network that estimates joint action-values as a complex non-linear combination of per-agent values that condition only on local observations. We structurally enforce that the joint-action value is monotonic in the per-agent values, which allows tractable maximisation of the joint action-value in off-policy learning, and guarantees consistency between the centralised and decentralised policies. We evaluate QMIX on a challenging set of StarCraft II micromanagement tasks, and show that QMIX significantly outperforms existing value-based multi-agent reinforcement learning methods.
translated by 谷歌翻译
We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multiagent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.
translated by 谷歌翻译
深度强化学习(RL)导致了许多最近和开创性的进步。但是,这些进步通常以培训的基础体系结构的规模增加以及用于训练它们的RL算法的复杂性提高,而均以增加规模的成本。这些增长反过来又使研究人员更难迅速原型新想法或复制已发表的RL算法。为了解决这些问题,这项工作描述了ACME,这是一个用于构建新型RL算法的框架,这些框架是专门设计的,用于启用使用简单的模块化组件构建的代理,这些组件可以在各种执行范围内使用。尽管ACME的主要目标是为算法开发提供一个框架,但第二个目标是提供重要或最先进算法的简单参考实现。这些实现既是对我们的设计决策的验证,也是对RL研究中可重复性的重要贡献。在这项工作中,我们描述了ACME内部做出的主要设计决策,并提供了有关如何使用其组件来实施各种算法的进一步详细信息。我们的实验为许多常见和最先进的算法提供了基准,并显示了如何为更大且更复杂的环境扩展这些算法。这突出了ACME的主要优点之一,即它可用于实现大型,分布式的RL算法,这些算法可以以较大的尺度运行,同时仍保持该实现的固有可读性。这项工作提出了第二篇文章的版本,恰好与模块化的增加相吻合,对离线,模仿和从演示算法学习以及作为ACME的一部分实现的各种新代理。
translated by 谷歌翻译
多机构增强学习(MARL)已成为解决分散决策问题的有用方法。近年来提出的许多突破性算法一直在稳步增长。在这项工作中,我们仔细研究了这一快速发展,重点是在合作Marl的大量研究中采用的评估方法。通过对先前工作进行详细的荟萃分析,涵盖了从2016年至2022年接受出版的75篇论文,我们引起了人们对真正进步率的质疑的令人担忧的趋势。我们在更广泛的背景下进一步考虑了这些趋势,并从单一AGENT RL文献中获得了有关类似问题的灵感,这些建议以及仍然适用于MARL的建议。将这些建议与我们分析的新见解相结合,我们提出了合作MARL的标准化绩效评估方案。我们认为,这样的标准协议,如果被广泛采用,将大大提高未来研究的有效性和信誉,使复制和可重复性更加容易,并提高该领域的能力,通过能够通过能够准确评估进度的速度进行跨不同作品的合理比较。最后,我们在我们的项目网站上公开发布荟萃分析数据,以供未来的评估研究:https://sites.google.com/view/marl-andard-protocol
translated by 谷歌翻译
在这项工作中,我们将深度加强施加到导航三维环境的问题,并在唯一可用信息是来自环境的原始声音的情况下推断出人类扬声器音频源的位置,作为模拟的人类侦听器放在环境中会听到它。为此目的,我们使用Unity游戏引擎创建两个虚拟环境,其中一个呈现基于音频的导航问题,一个呈现音频源定位问题。我们还根据PPO在线强化学习算法创建一个自主代理,并试图培训它来解决这些环境。我们的实验表明,即使在有限数量的训练数据或在训练期间没有遇到的方式,也可以通过定量度量来实现这两种环境中的足够性能和泛化能力。我们还表明,在环境之间可以实现一定程度的代理知识转移。
translated by 谷歌翻译
多代理深度增强学习(Marl)缺乏缺乏共同使用的评估任务和标准,使方法之间的比较困难。在这项工作中,我们提供了一个系统评估,并比较了三种不同类别的Marl算法(独立学习,集中式多代理政策梯度,价值分解)在各种协作多智能经纪人学习任务中。我们的实验是在不同学习任务中作为算法的预期性能的参考,我们为不同学习方法的有效性提供了见解。我们开源EPYMARL,它将Pymarl CodeBase扩展到包括其他算法,并允许灵活地配置算法实现细节,例如参数共享。最后,我们开源两种环境,用于多智能经纪研究,重点关注稀疏奖励下的协调。
translated by 谷歌翻译
Ad Hoc团队合作问题描述了代理商必须与以前看不见的代理商合作以实现共同目标的情况。对于在这些场景中成功的代理商,它必须具有合适的合作技能。可以通过使用域知识来设计代理人的行为来实现协作技巧的合作技能。但是,在复杂的域中,可能无法使用域知识。因此,值得探索如何直接从数据中学习合作技能。在这项工作中,我们在临时团队合作问题的背景下申请元加强学习(Meta-RL)制定。我们的经验结果表明,这种方法可以在两个合作环境中产生具有不同合作环境的强大合作社:社会合议和语言解释。(这是扩展抽象版的全文。)
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
为了建立可以与他人有效合作的代理商,最近的研究培训了人工代理在刘易斯式参照团中互相沟通。然而,这通常会导致成功但无法诠释的沟通。我们认为这是由于游戏目标:在共享视觉上下文中沟通单个对象易于过度装备,并且不鼓励语言超出具体参考。相比之下,人类语言传达了丰富的抽象想法。为了促进此类技能,我们提出了需要通过代表抽象视觉概念的对象集传达概括的游戏,可选地具有每个代理的单独的上下文。根据文献中的几个指标,我们发现这些游戏大大提高了学习语言的系统性和可口译性。最后,我们提出了一种通过学习对语言的近似组成重建来识别嵌入在紧急语言中的逻辑操作的方法。
translated by 谷歌翻译
解决时间扩展的任务是大多数增强学习(RL)算法的挑战[ARXIV:1906.07343]。我们研究了RL代理商学会提出自然语言问题的能力,以了解其环境并在新颖,时间扩展的环境中实现更大的概括性能。我们通过赋予该代理商的能力向全知的甲骨文提出“是,不”问题来做到这一点。这使代理商可以获得有关手头任务的指导,同时限制了对新信息的访问。为了在时间扩展的任务的背景下研究这种自然语言问题的出现,我们首先在迷你网格环境中训练代理商。然后,我们将受过训练的代理转移到另一个更艰难的环境中。与无法提出问题的基线代理相比,我们观察到概括性能的显着提高。通过将其对自然语言在其环境中的理解,代理可以推理其环境的动态,以至于在新型环境中部署时可以提出新的,相关的问题。
translated by 谷歌翻译
基于文本的游戏(TBG)是复杂的环境,允许用户或计算机代理进行文本交互并实现游戏目标。为基于文本的游戏构建面向目标的计算机代理是一项挑战,尤其是当我们使用逐步反馈作为模型的唯一文本输入时。此外,代理商很难通过从更大的文本输入空间中评估灵活的长度和形式。在本文中,我们对应用于基于文本的游戏字段的深度学习方法进行了广泛的分析。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
部署后,AI代理会遇到超出其自动解决问题能力的问题。利用人类援助可以帮助代理人克服其固有的局限性,并坚决应对陌生的情况。我们提出了一个通用的交互式框架,该框架使代理商能够从对任务和环境有知识的助手那里请求和解释丰富的上下文有用的信息。我们在模拟的人类辅助导航问题上证明了框架的实用性。在我们的方法中学到的援助要求政策的帮助下,导航代理与完全自主行为相比,在以前看不见的环境中发生的任务上的成功率提高了7倍。我们表明,代理商可以根据上下文来利用不同类型的信息,并分析学习援助要求政策的好处和挑战,当助手可以递归地将任务分解为子任务。
translated by 谷歌翻译
本文考虑了合作多智能经纪增强学习,重点是在多对独立学习者以不同频率交互的情况下进行的紧急通信。在此上下文中,可以出现多种不同的和不兼容的语言。当代理遇到替代语言的扬声器时,在可以有效地逆转之前,需要一段适应时期。这种适应导致新语言的出现和忘记以前的语言。原则上,这是灾难性遗忘问题的示例,可以通过使代理能够学习和维护多种语言来减轻。我们从持续的学习文献中获取灵感,并用多头神经网络装备了我们的代理,使我们的代理能够成为多语言。我们的方法在基于参考MNIST的通信游戏中经验验证,并且被证明能够维护现有方法不能的多种语言。
translated by 谷歌翻译