布雷特认为,神经编码隐喻是大脑所做事情的无效基础。在这里,我们认为这是一个不充分的指南,用于构建人工智能,学习在复杂,不断变化的环境中实现短期和长期目标。
translated by 谷歌翻译
发现和利用环境中的因果结构对于智能代理来说是一项艰巨的挑战。在这里,我们探讨通过元强化学习是否可以出现因果反应。我们通过无模型强化学习训练一个经常性的网络来解决一系列问题,每个问题都包含因果结构。我们发现受过训练的代理人可以在新情况下进行因果推理以获得奖励。代理人可以选择信息干预,从观察数据中得出因果推论,并进行反事实预测。虽然也存在已建立的正式因果推理算法,但在本文中我们表明这种推理可以从无模型强化学习中获得,并且表明复杂环境中的因果推理可能会受益于此处提供的更多端到端的基于学习的方法。通过为代理人提供执行和解释实验的能力,这项工作还为强化学习中的结构探索提供了新的策略。
translated by 谷歌翻译
强化学习领域(RL)面临着越来越具有组合复杂性的挑战性领域。对于RL代理来解决这些挑战,它必须能够有效地进行规划。先前的工作通常结合非特定的计划算法(例如树搜索)来利用环境的显式模型。最近,已经提出了一种新的方法家族,通过在函数逼近器(例如树形结构神经网络)中通过归纳偏差提供结构来学习如何规划,通过无模型RL算法进行端到端训练。 。在本文中,我们更进一步,并且凭经验证明,除了卷积网络和LSTM之类的标准神经网络组件之外没有特殊结构的完全无模型方法,可以学习展示通常与基于模型的计划器相关的许多特征。我们衡量我们的代理人在规划方面的有效性,以便在组合和不可逆转的状态空间,其数据效率以及利用额外思考时间的能力方面进行推广。我们发现我们的代理具有许多人可能期望在规划算法中找到的特征。此外,它超越了最先进的组合领域,如推箱子,并且优于其他无模型方法,利用强大的归纳偏向规划。
translated by 谷歌翻译
我们介绍了一种深度强化学习(RL)的方法,通过结构化感知和关系推理提高了传统方法的效率,泛化能力和可解释性。它使用自我注意来迭代地推理场景中的关系并引导模型。 - 免费政策。我们的研究结果表明,在一个名为Box-World的新型导航和规划任务中,我们的代理人找到了可解决的解决方案,这些解决方案在样本复杂性方面提高了基线,能够推广到比在训练期间更复杂的场景,以及整体性能。在“星际争霸II”学习环境中,我们的经纪人在六款迷你游戏中实现了最先进的性能 - 超过了四位人类大师的表现。通过考虑建筑感应偏差,我们的工作为克服深度RL中的重要但顽固的挑战开辟了新的方向。
translated by 谷歌翻译
基于记忆的神经网络通过利用长时间记忆信息的能力来建模时态数据。然而,目前还不清楚是否能够用他们记忆中的信息进行复杂的关系推理。在这里,我们首先确认我们的直觉,即标准内存架构可能会在严重涉及理解实体连接方式的任务中挣扎 - 即涉及关系推理的任务。然后,我们通过使用一个新的内存模块 - 一个\ textit {关系内存核心}(RMC)来改善这些缺陷 - 它采用了多头点产品注意力,允许记忆进行交互。最后,我们在一系列任务中测试RMC,这些任务可以从顺序信息中更有能力的关系推理中获益,并且在RL域(例如Mini PacMan),程序评估和语言建模中显示出巨大的收益,从而实现最先进的结果。 WikiText-103,Project Gutenberg和GigaWorddatasets。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译
关系推理是一般智能行为的核心组成部分,但已证明神经网络难以学习。在本文中,我们描述了如何使用关系网络(RN)作为一个简单的即插即用模块来解决从根本上依赖于关系推理的问题。我们在三个任务上测试了增强型网络:使用名为CLEVR的具有挑战性的数据集进行视觉问题回答,我们在其上实现了最先进的超人类表现;使用bAbI套件的基于文本的问题回答;关于动态物理系统的复杂推理。然后,使用名为Sort-of-CLEVR的acuted数据集,我们表明强大的卷积网络没有解决关系问题的一般能力,但是当用RN增强时可以增加这种能力。我们的工作展示了如何配备RN模块的深度学习架构可以隐含地发现和学习关于实体及其关系的理论。
translated by 谷歌翻译
音乐摘要可以提高数据集的处理,存储和共享效率。面向机器的方法与人类消费无关,甚至可以进一步优化这些方面。这些摘要已经在一些MIR任务中成功验证。我们现在通过从语法学角度评估音乐通用摘要的影响来概括先前的结论。我们估计原始和合成歌曲的高斯分布并计算它们的相对熵,以便测量由摘要引起的信息损失。我们的结果表明,在依赖于特征包模型的情况下,相对熵是总结性能的良好预测器。基于这一观察,我们进一步提出了一种简单而富有表现力的摘要,它最大限度地减少了相对于原始歌曲的相对熵,客观上优于以前的方法,更适合避免潜在的版权问题。
translated by 谷歌翻译
Generative Adversarial Networks have shown remarkable success in learning a distribution that faithfully recovers a reference distribution in its entirety. However, in some cases, we may want to only learn some aspects (e.g., cluster or manifold structure), while modifying others (e.g., style, orientation or dimension). In this work, we propose an approach to learn generative models across such incomparable spaces, and demonstrate how to steer the learned distribution towards target properties. A key component of our model is the Gromov-Wasserstein distance, a notion of discrepancy that compares distributions relationally rather than absolutely. While this framework subsumes current generative models in identically reproducing distributions, its inherent flexibility allows application to tasks in manifold learning, relational learning and cross-domain learning.
translated by 谷歌翻译
本文涉及在图形模型中估计模型参数。将其描述为信息几何优化问题,并引入包含额外元参数的解剖梯度下降策略。我们表明,我们的方法是图形模型中用于学习的着名EM方法的强有力替代方案。实际上,我们基于自然梯度的策略导致学习最终目标函数的最佳参数,而不是试图拟合可能与真实不对应的分布。我们支持我们的理论发现与金融市场中的趋势检测问题,并表明学习模型表现出更好的传统实践方法,并且不易过度拟合。
translated by 谷歌翻译