在本文中,我们提出了可利用性下降,一种新的算法,用于通过针对最坏情况的直接策略优化来计算具有不完全信息的双玩家零和广义形式游戏中的近似均衡。我们证明,当遵循这种优化时,玩家策略的可利用性渐近地收敛为零,因此当两个玩家都采用这种优化时,联合策略会收敛到纳西均衡。与虚构游戏(XFP)和反事实后悔化(CFR)不同,我们的融合结果与被优化的政策而不是平均政策有关。我们的实验表明,在四个基准游戏中,收敛率与XFP和CFR相当。使用函数逼近,我们发现我们的算法在两个游戏中执行表格版本,据我们所知,这是在这类算法中不完全信息游戏中的第一个这样的结果。
translated by 谷歌翻译
Optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent of a score function representing discounted return. In this paper, we examine the role of these policy gradient and actor-critic algorithms in partially-observable multiagent environments. We show several candidate policy update rules and relate them to a foundation of regret minimization and multiagent learning techniques for the one-shot and tabular cases, leading to previously unknown convergence guarantees. We apply our method to model-free multiagent reinforcement learning in adversarial sequential decision problems (zero-sum imperfect information games), using RL-style function approximation. We evaluate on commonly used benchmark Poker domains, showing performance against fixed policies and empirical convergence to approximate Nash equilibria in self-play with rates similar to or better than a baseline model-free algorithm for zero-sum games, without any domain-specific state space reductions.
translated by 谷歌翻译
从交互样本中学习不完美信息游戏的策略是一个具有挑战性的问题。这种设置的常用方法MonteCarlo Counterfactual Regret Minimization(MCCFR)由于高方差而具有较慢的长期收敛率。在本文中,我们引入了适用于MCCFR的任何采样变体的方差减少技术(VR-MCCFR)。使用此技术,每次迭代估计值和更新被重新构建为采样值和状态 - 动作基线的函数,类似于它们用于政策梯度强化学习。新的制定允许估计从同一集中的其他估计中引导,沿着采样的轨迹传播基线的好处;即使从其他估计引导,估计仍然是无偏见的。最后,我们证明给定一个完美的基线,值估计的方差可以减少到零。实验评估表明,VR-MCCFR带来了一个数量级的加速,而经验方差降低了三个数量级。减小的方差允许第一次CFR +与采样一起使用,将加速增加到两个数量级。
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
In this work we introduce a differentiable version of the CompositionalPattern Producing Network, called the DPPN. Unlike a standard CPPN, thetopology of a DPPN is evolved but the weights are learned. A Lamarckianalgorithm, that combines evolution and learning, produces DPPNs to reconstructan image. Our main result is that DPPNs can be evolved/trained to compress theweights of a denoising autoencoder from 157684 to roughly 200 parameters, whileachieving a reconstruction accuracy comparable to a fully connected networkwith more than two orders of magnitude more parameters. The regularizationability of the DPPN allows it to rediscover (approximate) convolutional networkarchitectures embedded within a fully connected architecture. Suchconvolutional architectures are the current state of the art for many computervision applications, so it is satisfying that DPPNs are capable of discoveringthis structure rather than having to build it in by design. DPPNs exhibitbetter generalization when tested on the Omniglot dataset after being trainedon MNIST, than directly encoded fully connected autoencoders. DPPNs aretherefore a new framework for integrating learning and evolution.
translated by 谷歌翻译
近年来,在强化学习中使用深度表示已经取得了很多成功。尽管如此,这些应用程序中的许多仍然使用常规架构,例如卷积网络,LSTM或自动编码器。在本文中,我们提出了一种新的神经网络架构,用于无模型增强学习。我们的决斗网络代表两个独立的估算器:一个用于状态值函数,一个用于状态依赖的动作优势函数。这种因子分解的主要好处是可以在不对基础强化学习算法进行任何改变的情况下概括整个行动。我们的结果表明,这种架构可以在存在许多类似值的行为的情况下进行更好的策略评估。此外,决斗架构使我们的RL代理能够超越Atari 2600域的最新技术。
translated by 谷歌翻译
我们提供了一个统一的框架,用于理解来自自我中心RGB相机的原始图像序列中的3D手和物体相互作用。给定单个RGB图像,我们的模型联合估计3D手和物体姿势,模拟它们的相互作用,并通过神经网络单一前馈传递识别物体和动作类。我们提出了一种不依赖于外部检测算法的单一体系结构,而是单个图像上的trainedend-end。我们进一步合并和传播时域中的信息,以推断手和物体轨迹之间的相互作用并识别行动。完整模型将每帧3D手和帧对象姿势预测的帧和输出序列与整个序列的对象和动作类别的估计一起作为输入。即使与深度数据和地面实况注释相关的方法相比,我们也展示了算法的最新性能。
translated by 谷歌翻译
目前,数字地图对于自动驾驶是必不可少的。然而,由于GNSS的低精度和可靠性,特别是在城市地区,融合独立记录会话和不同地区的轨迹是一项具有挑战性的任务。为了避免直接结合GNSS测量用于地理参考的缺陷,航空影像的使用似乎很有希望。此外,更准确的地理参考提高了全球地图精度并允许估计传感器校准误差。在本文中,我们提出了一种新的地理参考方法,用于使用极点和道路标记将轨迹与航拍图像对齐。为了将来自传感器观察的提取特征与航空影像地标稳健地匹配,基于RANSAC的匹配方法应用于滑动窗口。为此,我们假设轨迹通常参考图像,这可以通过来自低成本GNSS接收器的粗略GNSS测量来实现。最后,我们通过最小化包括所有确定的匹配的几何成本函数,将初始轨迹精确地对准航拍图像。对德国卡尔斯鲁厄的数据记录进行的评估显示,我们的算法产生的轨迹准确地参考了所使用的航空影像。
translated by 谷歌翻译
多域学习(MDL)旨在获得跨多个域的最小平均风险的模型。我们的经验动机是自动显微镜,其中培养的细胞在暴露于已知和未知的化学扰动后成像,并且每个数据集显示显着的实验性偏差。本文提出了一种多域对抗性学习方法MuLANN,用于在asemi监督的环境中利用具有重叠但不同的类集的多个数据集。我们的贡献包括:i)使用H-散度获得的MDL平均和最差域风险的界限; ii)新的lossto适应半监督的多领域学习和领域适应; iii)方法的实验验证,改进两个标准图像基准上的theart状态,以及新的生物图像数据集Cell。
translated by 谷歌翻译
我们为3D医学图像注册引入了端到端的深度学习框架。与现有方法相比,我们的框架结合了两种注册方法:仿射配准和矢量动量参数化固定速度场(vSVF)模型。具体来说,它包括三个阶段。在第一阶段,多步仿射网络预测仿射变换参数。在第二阶段,我们使用类似Unet的网络来生成动量,从中可以计算速度场的流动平滑。最后,在第三阶段,我们采用自可迭代的基于地图的vVVF组件,以基于变换图的当前估计提供非参数细化。一旦模型被训练,注册就在一个正向通道中完成。为了评估性能,我们对骨关节炎倡议(OAI)数据集的膝关节的3D磁共振图像(MRI)进行了纵向和跨主题实验。结果表明,我们的框架实现了与最先进的医学图像配准方法相当的性能,但它更快,更好地控制了转换规律性,包括产生近似对称变换的能力,以及结合仿射和非参数注册。
translated by 谷歌翻译