抽象地,象棋和扑克等零和游戏的功能是对代理商进行评估,例如将它们标记为“胜利者”和“失败者”。如果游戏具有近似传递性,那么自我游戏会产生强度增加的序列。然而,非传递性游戏,如摇滚剪刀,可以表现出战略周期,并且不再有透明的目标 - 我们希望代理人增加力量,但对谁不清楚。在本文中,我们引入了一个用于在零和游戏中制定目标的几何框架,以构建产生开放式学习的目标的自适应序列。该框架允许我们推断非传递性游戏中的人口表现,并且能够开发一种新算法(纠正的Nash响应,PSRO_rN),该算法使用游戏理论小生境构建不同的有效代理群体,产生比现有算法更强的代理集合。我们将PSRO_rN应用于两个高度非传递性的资源分配游戏,并发现PSRO_rN一直优于现有的替代方案。
translated by 谷歌翻译
通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
We introduce FeUdal Networks (FuNs): a novel architecture for hierarchicalreinforcement learning. Our approach is inspired by the feudal reinforcementlearning proposal of Dayan and Hinton, and gains power and efficacy bydecoupling end-to-end learning across multiple levels -- allowing it to utilisedifferent resolutions of time. Our framework employs a Manager module and aWorker module. The Manager operates at a lower temporal resolution and setsabstract goals which are conveyed to and enacted by the Worker. The Workergenerates primitive actions at every tick of the environment. The decoupledstructure of FuN conveys several benefits -- in addition to facilitating verylong timescale credit assignment it also encourages the emergence ofsub-policies associated with different goals set by the Manager. Theseproperties allow FuN to dramatically outperform a strong baseline agent ontasks that involve long-term credit assignment or memorisation. We demonstratethe performance of our proposed system on a range of tasks from the ATARI suiteand also from a 3D DeepMind Lab environment.
translated by 谷歌翻译
深层强化学习代理通过直接最大化累积奖励来实现最先进的结果。但是,环境包含各种各样的可能的训练信号。在本文中,我们介绍了通过执行学习同时最大化许多其他伪奖励功能的anagent。所有这些任务都有一个共同的表现形式,就像无监督学习一样,在没有外在学习者的情况下继续发展。我们还引入了一种新的机制,用于将这种表示集中在外在奖励上,以便学习可以快速适应实际任务的最相关方面。我们的经纪人明显优于以前最先进的Atari,平均880%专家的人类表现,以及具有挑战性的第一人称,三维\ emph {Labyrinth}任务套件,平均加速学习10美元在迷宫中获得$和平均87%的专家表现。
translated by 谷歌翻译
计算机视觉的一个关键目标是从二维世界观测中恢复潜在的三维结构。在本文中,我们学习了强大的三维结构深度生成模型,并通过概率推理从三维和二维图像中恢复这些结构。我们在几个数据集(包括ShapeNet [2])上展示了高质量的样本和报告日志可能性,并建立了文献中的第一个基准。我们还展示了如何从2D图像端到端地训练这些模型及其参考网络。这首次证明了学习以纯粹无监督的方式推断世界的3D表示的可行性。
translated by 谷歌翻译
In this work we introduce a differentiable version of the CompositionalPattern Producing Network, called the DPPN. Unlike a standard CPPN, thetopology of a DPPN is evolved but the weights are learned. A Lamarckianalgorithm, that combines evolution and learning, produces DPPNs to reconstructan image. Our main result is that DPPNs can be evolved/trained to compress theweights of a denoising autoencoder from 157684 to roughly 200 parameters, whileachieving a reconstruction accuracy comparable to a fully connected networkwith more than two orders of magnitude more parameters. The regularizationability of the DPPN allows it to rediscover (approximate) convolutional networkarchitectures embedded within a fully connected architecture. Suchconvolutional architectures are the current state of the art for many computervision applications, so it is satisfying that DPPNs are capable of discoveringthis structure rather than having to build it in by design. DPPNs exhibitbetter generalization when tested on the Omniglot dataset after being trainedon MNIST, than directly encoded fully connected autoencoders. DPPNs aretherefore a new framework for integrating learning and evolution.
translated by 谷歌翻译
卷积神经网络定义了一个特别强大的模型类,但仍然受到缺乏以计算和参数有效方式在空间上不变为输入数据的能力的限制。在这项工作中,我们引入了一个新的可学习模块,即空间变换器,它可以明确地允许对网络内的数据进行空间操作。这种不同的模块可以插入到现有的卷积结构中,使神经网络能够主动空间转换特征图,以特征图本身为条件,无需任何培训监督或修改优化过程。我们展示了空间变换器的使用导致模型学习了平移,缩放,旋转和更通用的变形的不变性,从而在几个基准上产生了最新的性能,并且用于许多变换类。
translated by 谷歌翻译
在这项工作中,我们提出了一个端到端的文本定位系统 - 本地化和识别自然场景图像中的文本 - 和基于文本的图像检索。该系统基于区域提议机制的检测和深度卷积神经网络的识别。我们的管道采用了一种新颖的互补方案生成技术组合,以确保高回忆,以及快速后续的过滤阶段,以提高精度。对于提议的认知和排序,我们训练非常大的卷积神经网络,以同时在整个提议区域上执行单词识别,从过去的基于字符分类器的系统出发。这些网络仅接受由合成文本生成引擎生成的数据的训练,不需要人类标记数据。分析我们的管道阶段,我们展示了最先进的性能。我们在多个标准对端文本定位基准和基于文本的图像检索数据集上进行了严格的实验,显示出对所有先前方法的巨大改进。最后,我们演示了文本定位系统的实际应用,允许通过文本查询即时搜索数千小时的新闻素材。
translated by 谷歌翻译
In this work we present a framework for the recognition of natural scenetext. Our framework does not require any human-labelled data, and performs wordrecognition on the whole image holistically, departing from the character basedrecognition systems of the past. The deep neural network models at the centreof this framework are trained solely on data produced by a synthetic textgeneration engine -- synthetic data that is highly realistic and sufficient toreplace real data, giving us infinite amounts of training data. This excess ofdata exposes new possibilities for word recognition models, and here weconsider three models, each one "reading" words in a different way: via 90k-waydictionary encoding, character sequence encoding, and bag-of-N-grams encoding.In the scenarios of language based and completely unconstrained textrecognition we greatly improve upon state-of-the-art performance on standarddatasets, using our fast, simple machinery and requiring zero data-acquisitioncosts.
translated by 谷歌翻译
本文的重点是加快卷积神经网络的评估。虽然在各种计算机视觉和机器学习任务中提供了令人印象深刻的结果,但这些网络的计算要求很高,限制了它们的可部署性卷积层通常消耗大量的处理时间,因此在这项工作中,我们提出了两种简单的方案,用于对这些层进行大幅度加速。这是通过利用跨通道或滤波器冗余来构建滤波器的低秩基础来实现的,该滤波器在空间域中是秩-1。我们的方法与架构无关,可以很容易地应用于现有的CPU和GPU卷积框架,这些框架具有无可比拟的加速性能。我们通过设计用于场景文本字符识别的真实世界网络来证明这一点,显示可能的2.5倍加速,精度没有损失,4.5倍加速,精度下降不到1%,仍然在标准基准测试中达到最先进水平。
translated by 谷歌翻译