我们引入了一个用于分层结构行为的组合模仿学习和执行(CompILE)的框架。 CompILE使用novelunsupercted,完全可区分的序列分割模块从演示数据中学习可重用,可变长度的行为段。然后可以重新组合和执行这些学习行为以执行新任务。在训练时间,CompILE将观察到的行为自动编码为潜码的序列,每个潜码对应于输入序列中的可变长度段。一旦训练,我们的模型推广到较长的序列和训练期间未见的环境实例。我们在具有挑战性的2D多任务环境中评估我们的模型,并显示CompILE可以无人监督的方式找到正确的任务边界和事件编码,而无需注释演示数据。 CompILE发现的潜在代码和相关行为策略可以由分层代理使用,其中高级策略选择潜在代码空间中的动作,而低级特定于任务的策略仅仅是学习的解码器。我们发现,我们的代理人只能获得稀疏的奖励,而没有任务特定政策的代理商就会挣扎。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
多智能体系统的行为动态具有丰富有序的结构,可用于理解这些系统,并改善人工智能学习如何在其中运行。在这里,我们介绍了用于多智能体学习的关系前向模型(RFM),这些网络可以学习如何在多智能体环境中对代理的未来行为进行准确的预测。因为这些模型对环境中存在的离散实体和关系进行操作,所以它们产生可解释的中间体表达能够深入了解推动代理人行为的因素,以及调解社交互动的强度和价值的事件。此外,我们展示了代理内部的RFM模块,与非增强基线相比,可以实现更快的学习系统。随着我们开发和交互的自治系统越来越多地成为多智能体,开发利用分析工具来表征代理如何以及为何做出决策的工具越来越必要。此外,开发快速且易于学会彼此协调的人工制剂以及在共享环境中与人类协调是至关重要的。
translated by 谷歌翻译
我们介绍了一种深度强化学习(RL)的方法,通过结构化感知和关系推理提高了传统方法的效率,泛化能力和可解释性。它使用自我注意来迭代地推理场景中的关系并引导模型。 - 免费政策。我们的研究结果表明,在一个名为Box-World的新型导航和规划任务中,我们的代理人找到了可解决的解决方案,这些解决方案在样本复杂性方面提高了基线,能够推广到比在训练期间更复杂的场景,以及整体性能。在“星际争霸II”学习环境中,我们的经纪人在六款迷你游戏中实现了最先进的性能 - 超过了四位人类大师的表现。通过考虑建筑感应偏差,我们的工作为克服深度RL中的重要但顽固的挑战开辟了新的方向。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译
图是有用的结构,可以模拟几个重要的现实问题。最近,学习图表引起了相当多的关注,从而提出了学习这些数据结构的新方法。其中一个研究产生了NetGAN,这是一种通过随机游走生成图形的新方法。虽然NetGAN在生成图形和链接预测的任务中的准确性方面已经显示出有希望的结果,但是从中开始随机游走的顶点的选择可能导致不一致和高度变量结果,特别是当步行时间很短时。作为randomstarting的替代方案,本研究旨在建立一种从一组密集顶点初始化随机行走的新方法。我们的目的是通过不同大小的随机游走,基于其对其邻域的整个顶点的影响的倒数来估计阳极的重要性。所提出的方法管理实现了显着更好的准确性,更少的方差和减少了更小的方法。
translated by 谷歌翻译
通过引入有序测试案例,Lexicase选择可以实现非常好的解决方案质量。然而,词典选择的计算复杂性可能会禁止其在许多应用中的使用。在本文中,我们介绍了BatchTournament Selection(BTS),这是一种锦标赛和词汇选择的混合体,其比词汇选择快一个数量级,同时提供具有竞争力的解决方案质量。对许多回归数据集的测试表明,BTS在平均绝对误差方面与词典选择相比较,同时加速高达25倍。令人惊讶的是,BTS和玻璃酶选择在多样性和性能方面几乎没有差异。这表明批次和有序测试案例是完全不同的机制,它们具有促进个体专业化的相同的一般原则。这项工作引入了一种有效的算法,揭示了词典成功背后的主要原则,可能为算法开辟新的可能性。
translated by 谷歌翻译
我们调查了自DARPA挑战以来开发的自动驾驶汽车文献中发表的关于自动驾驶汽车的研究,这些汽车配备了可归类为SAE 3级或更高等级的自治系统。自动驾驶汽车自治系统的结构通常被组织到感知系统和决策系统中。感知系统通常分为许多子系统,负责执行诸如装配 - 驾驶 - 汽车定位,静态障碍物映射,移动障碍物检测和跟踪,道路测绘,交通信号检测和识别等任务。决策系统通常被划分为许多子系统,负责任务,例如路线规划,路径规划,行为选择,运动规划和控制。在本次调查中,我们展示了自动驾驶汽车自治系统的典型架构。我们还回顾了相关的感知和决策方法的研究。此外,我们还详细描述了UFES汽车自动化系统的架构,IARA 。最后,我们列出了由科技公司开发并在媒体上报道的着名的自主研究汽车。
translated by 谷歌翻译
预测构建软件的时间对于软件工程经理来说是一项非常复杂的任务。有一些复杂的因素会直接影响开发团队的生产力。与要开发的系统的复杂性直接相关的因素大大改变了与软件工厂完成工作所需的时间。该工作建议使用基于人工神经网络和模糊系统的混合系统来帮助构建基于规则的专家系统,以支持根据存在于其中的元件的复杂性来预测软件开发的时间。由系统获得的集合模糊规则通过提供基于模糊规则的可解释估计的基础来帮助管理和控制软件开发。该模型被提交给真实数据库进行测试,其结果是在构建软件构建可预测性的辅助机制方面的结果。
translated by 谷歌翻译
本文研究如何利用不同形式的人类互动,通过学习人类演示和干预来实时安全地训练自主系统。我们实现了自治系统循环学习的两个组成部分,这是我们组合多种人类交互方式的框架。当前的努力采用人类演示来通过模仿学习来教导期望的行为,然后利用干预数据来校正由模仿学习者产生的不期望的行为以安全地训练新的任务,只需几分钟的训练。我们使用具有连续滚转,俯仰,偏航和油门命令的四旋翼飞行器以及在高保真模拟环境中从向下摄像机捕获的图像,在自主式栖息任务中演示此方法。与单独演示相比,我们的方法可以提高相同数量的人工交互的任务完成性能,同时还需要平均32%的数据来实现该性能。这提供了证据,即组合多种人类交互模式可以提高自主系统的训练速度和总体性能。
translated by 谷歌翻译