多智能体系统的行为动态具有丰富有序的结构,可用于理解这些系统,并改善人工智能学习如何在其中运行。在这里,我们介绍了用于多智能体学习的关系前向模型(RFM),这些网络可以学习如何在多智能体环境中对代理的未来行为进行准确的预测。因为这些模型对环境中存在的离散实体和关系进行操作,所以它们产生可解释的中间体表达能够深入了解推动代理人行为的因素,以及调解社交互动的强度和价值的事件。此外,我们展示了代理内部的RFM模块,与非增强基线相比,可以实现更快的学习系统。随着我们开发和交互的自治系统越来越多地成为多智能体,开发利用分析工具来表征代理如何以及为何做出决策的工具越来越必要。此外,开发快速且易于学会彼此协调的人工制剂以及在共享环境中与人类协调是至关重要的。
translated by 谷歌翻译
Machine learning (ML) techniques are enjoying rapidly increasing adoption. However, designing and implementing the systems that support ML models in real-world deployments remains a significant obstacle, in large part due to the radically different development and deployment profile of modern ML methods, and the range of practical concerns that come with broader adoption. We propose to foster a new systems machine learning research community at the intersection of the traditional systems and ML communities, focused on topics such as hardware systems for ML, software systems for ML, and ML optimized for metrics beyond predictive accuracy. To do this, we describe a new conference, SysML, that explicitly targets research at the intersection of systems and machine learning with a program committee split evenly between experts in systems and ML, and an explicit focus on topics at the intersection of the two.
translated by 谷歌翻译
最近,图形神经网络在各个研究领域引起了极大的关注并取得了突出的成果。这些算法中的大多数都具有感兴趣对象的成对关系。然而,在许多重新应用中,对象之间的关系是高阶的,超出了一定的配置。为了有效地学习高阶图结构数据的深度嵌入,我们在图神经网络的家庭中引入了两个端到端可训练算子,即超图卷积和超图注意。虽然超图卷积定义了在超图上执行卷积的基本公式,但超图注意通过利用注意模块进一步增强了表示学习的能力。通过这两个算子,图形神经网络很容易扩展到更灵活的模型,并应用于观察到非成对关系的各种应用。半监督节点分类的广泛实验结果证明了超图卷积和超图注意的有效性。
translated by 谷歌翻译
深度强化学习(DeepRL)模型在众多任务中超越了人类的表现。与恒星表现形成鲜明对比的是学习政策的模糊性。国家行动的直接映射使得很难解释代理人决策背后的基本原理。与之前的可视化DeepRL策略的后验方法相比,我们提出了一种基于Rainbow的端到端可训练框架,Rainbow是一个代表性的深Q网络(DQN)代理。我们的方法自动检测输入域中的重要区域,这使得能够表征非直观行为的一般策略和表示。因此,我们称之为Region SensitiveRainbow(RS-Rainbow)。 RS-Rainbow利用一种简单而有效的机制将先天可视化能力融入学习模型,不仅提高了可解释性,而且使代理能够利用增强状态表示来提高性能。在没有额外监督的情况下,可以了解专注于游戏玩法的不同方面的专用特征探测器。在Atari 2600的挑战性平台上进行了大量实验,证明了RS-Rainbow的优越性。特别是,我们的代理人只需要25%的训练框架就能达到最先进的技术水平,而无需进行大规模的大规模平行训练。
translated by 谷歌翻译
在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
人工智能(AI)最近经历了复兴,在视觉,语言,控制和决策等关键领域取得了重大进展。部分原因在于廉价数据和廉价的计算资源,它们符合深度学习的自然优势。然而,在许多不同压力下发展的人类智能的许多定义特征仍然是当前方法所无法实现的。特别是,超越一个人的经验 - 从人类智慧中获得人类智慧的标志 - 仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件,部分审查和部分统一。认为组合概括必须是人工智能达到人类能力的首要任务,结构化表征和计算是实现这一目标的关键。就像生物学使用自然和培养合作一样,我们拒绝“手工工程”和“端到端”学习之间的错误选择,而是主张从其互补优势中获益的方法。我们探索在深度学习架构中如何使用关系归纳偏差可以促进对实体,关系和组成它们的规则的学习。我们为AI工具包提供了一个新的构建模块,它具有强大的关系引导偏差 - 图形网络 - 它概括和扩展了在图形上运行的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和生产结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂,可解释和灵活的推理模式奠定基础。作为本文的参考,我们发布了一个用于构建图形网络的开源软件库,并演示了如何在实践中使用它们。
translated by 谷歌翻译
Most of existing correlation filter-based tracking approaches only estimatesimple axis-aligned bounding boxes, and very few of them is capable ofrecovering the underlying similarity transformation. To tackle this challengingproblem, in this paper, we propose a new correlation filter-based tracker witha novel robust estimation of similarity transformation on the largedisplacements. In order to efficiently search in such a large 4-DoF space inreal-time, we formulate the problem into two 2-DoF sub-problems and apply anefficient Block Coordinates Descent solver to optimize the estimation result.Specifically, we employ an efficient phase correlation scheme to deal with bothscale and rotation changes simultaneously in log-polar coordinates. Moreover, avariant of correlation filter is used to predict the translational motionindividually. Our experimental results demonstrate that the proposed trackerachieves very promising prediction performance compared with thestate-of-the-art visual object tracking methods while still retaining theadvantages of high efficiency and simplicity in conventional correlationfilter-based tracking methods.
translated by 谷歌翻译
我们建立了基于Kaplan-Meier的最近邻和核生存概率估计的第一个非渐近误差界,其中特征向量位于度量空间中。我们的界限意味着这些非参数估计的强一致性率,并且高达对数因子,与现有的条件CDF估计的下限相匹配。我们的证明策略还为Nelson-Aalen累积危险估计器的最近邻和核变体提供了非渐近保证。我们通过实验比较了这四种数据集的方法。我们发现,对于核心生存估计,核心的选择是使用随机生存森林学习的。
translated by 谷歌翻译
由于不准确的检测和识别,自主车辆可能做出错误的决定。因此,智能车辆可以将自己的数据与其他车辆相结合,提高感知能力,从而提高检测精度和驾驶安全性。然而,多车协同感知要求现实世界场景的整合和原始传感器数据交换的流量远远超过现有车载网络的带宽。据我们所知,我们是第一个对原始数据级合作感知进行研究的人。提高自驾系统的检测能力。在这项工作中,依靠LiDAR 3D点云,我们完成了从连接车辆的不同位置和角度收集的传感器数据。提出了一种基于点云的三维物体检测方法,用于对齐点云的多样性。 KITTI和我们收集的数据集的实验结果表明,所提出的系统通过扩展感知区域优于感知,提高了检测精度并促进了增强结果。最重要的是,我们证明可以通过现有的车载网络技术传输用于协作感知的pointclouds数据。
translated by 谷歌翻译
虽然目前的通用游戏(GGP)系统促进了用于游戏的人工智能(AI)的有用研究,但它们通常是特定的,并且计算效率低。在本文中,我们描述了一个名为Ludii的“ludemic”通用游戏系统的初始版本,该系统具有为AI研究人员以及相关领域的游戏设计师,历史学家,教育工作者和从业者提供有效工具的潜力。 Ludiidefines游戏作为ludemes的结构,即高级,易于理解的游戏概念。我们通过概述其主要优点来建立Ludii的基础:通用性,可扩展性,可理解性和效率。实验上,Ludii优于Tiltyard GGP存储库中所有可用游戏的基于命题网络的最有效的Game DescriptionLanguage(GDL)reasoners之一。
translated by 谷歌翻译