在使用连续控制的运动范式中深度强化学习的最新进展已经引起了游戏制作者对使用主动布娃娃的数字演员的潜力的兴趣。目前,开发这些想法的可用选项要么是研究人员有限的代码库,要么是专有的封闭系统。我们使用Unity ML-Agents工具包提供Marathon Environments,这是一套在Unity游戏引擎上实现的开源,连续控制基准测试。我们通过这些基准证明了连续控制研究可以转移到商业游戏引擎。此外,我们通过重现高级连续控制研究展示了这些环境的稳健性,例如从运动捕捉数据学习走路,跑步和回退;学习驾驭复杂的地形;并通过实现视频游戏输入控制系统。我们通过使用OpenAI.Baselines中的替代算法进行培训,展示了更强大的功能。最后,weshare策略可以显着缩短培训时间。
translated by 谷歌翻译
机器学习和统计学中的一项重要任务是通过支持离散点集的经验测度来近似概率测量。 Stein Points是用于该任务的一类算法,其通过顺序地最小化经验度量与目标之间的Stein差异来进行,因此需要解决非凸优化问题以获得每个新点。本文无需通过基于Markovchain样本路径选择每个新点来解决此优化问题。这显着降低了SteinPoints的计算成本,并导致一套简单易用的算法。新算法在一组具有挑战性的贝叶斯参考问题上得到了说明,并建立了严格的一致性理论保证。
translated by 谷歌翻译
强化学习(RL)问题通常具有欺骗性的局部最优,而纯粹为奖励信号优化的学习方法往往无法克服它们的学习策略。已经提出深度神经进化和新奇搜索作为直接从像素学习RL策略的基于梯度的方法的有效替代。在本文中,我们通过字符串编辑度距来介绍和评估新颖性搜索对代理行为序列的使用,作为促进创新的手段。我们还介绍了一种方法,即在RL社区的最新发展中激发了一种新的检测和人口重新取样方法,该方法使用与新颖性搜索相同的机制来促进和制定创新政策。我们的方法使用简单但有效的遗传算法(GA)扩展了最先进的深度神经进化方法,该算法旨在有效地学习深度RL策略网络权重。使用Atari 2600基准测试的四个游戏进行了实验。结果提供了进一步证据表明GA与基于梯度的算法竞争深度RL。结果还表明,对动作序列的新颖性搜索是选择压力的有效来源,可以将其整合到用于深度RL的现有旋转算法中。
translated by 谷歌翻译
我们提出了标签梯度对齐,这是一种用于半监督学习的新算法,它为未标记的数据和训练标签上的列车分配标签。我们通过将点(x,y)映射到(x,y)处的模型的梯度来在输入空间上定义语义上有意义的距离度量。然后我们制定一个优化问题,其目标是最小化该空间中标记数据和未标记数据之间的距离,并通过推算标签上的梯度下降来解决它。我们使用Oliver等人提出的标准化架构来评估标签梯度对齐。 (2018)并且在半监督的CIFAR-10分类中证明了最先进的准确性。
translated by 谷歌翻译
命题典型性逻辑(PTL)是最近提出的逻辑,通过使用典型算子来丰富经典命题逻辑,捕获给定句子所持有的最典型(别名正常或常规)情况。 PTL的语义是按照着名的KLM优先推理方法研究的排序模型,因此KLM风格的后果关系可以嵌入到PTL中。尽管典型操作者采用的语义引入了单调特征,但明显的Tarskian对PTL蕴涵的定义仍然是单调的,因此在许多情况下都不合适。我们的第一个重要结果是一个不可能性定理,它表明,一组最初看起来都适合于典型性的蕴涵概念的提议不能同时得到满足。更仔细的检查表明,这一结果最好被解释为主张开发不止一种PTL蕴涵的论据。本着这种解释的精神,我们研究了PTL的三种不同(语义)蕴涵版本,每一种都基于Lehmann和Magidor对KLM风格条件引入的理性闭包的定义,并构建了不同的最小概念。
translated by 谷歌翻译
本文提出使用端到端卷积神经网络通过体积回归直接重建人体的三维几何。所提出的方法不需要拟合形状模型,并且可以在各种输入类型中工作。 ,无论是地标,图像或分割面具。另外,仍然重建不可见部分(自遮挡或其他部分),而深度图回归不是这种情况。我们提出的结果表明,我们的方法可以在给定适当的训练数据集的情况下处理姿势变化和详细重建。
translated by 谷歌翻译
Darwiche和Pearl的开创性1997年文章概述了迭代信念修正逻辑的一些基本原则。这些原则,即DPpostulates,已经以多种替代方式得到补充。大多数提出的建议都产生了一种“还原论”,即通过世界秩序来识别信仰状态。然而,这一立场最近被批评为不可接受的强势。其他提议,例如“可支配的运营商”的特殊原则(P),又称“独立”,仍然值得称赞。在本文中,假设DP假设和(P)具有许多新的条件。虽然DP假设约束先验条件和后验条件信念集之间的关系,但我们的新原则显着地控制了从两个后验条件信念集之间的关系。不同规定的共同先验。我们证明了包含词典和限制修正的结果族的运算符可以表示为与“适当序数区间”(POI)赋值相关的相关信念,这种结构比简单的世界排序更精细。通过注意这些运算符满足大量AGM时代假设(包括超扩展)的迭代版本,这些对于一般的可接受运营商来说是不合理的。
translated by 谷歌翻译
计算统计和机器学习中的一项重要任务是使后验分布$ p(x)$近似,并在一组代表点$ \ {x_i \} _ {i = 1} ^ n $上支持经验测量。本文主要关注点的选择本质上是确定性的方法,当$ n $很小时,重点是实现准确的近似。为此,我们要提出“斯坦因点”。我们的想法是利用贪婪或条件梯度方法迭代地最小化经验度量与$ p(x)$之间的内核Stein差异。我们的实证结果表明,SteinPoints能够在适度的计算成本下准确逼近后验。此外,提供理论结果以建立该方法的收敛性。
translated by 谷歌翻译
3D face reconstruction is a fundamental Computer Vision problem ofextraordinary difficulty. Current systems often assume the availability ofmultiple facial images (sometimes from the same subject) as input, and mustaddress a number of methodological challenges such as establishing densecorrespondences across large facial poses, expressions, and non-uniformillumination. In general these methods require complex and inefficientpipelines for model building and fitting. In this work, we propose to addressmany of these limitations by training a Convolutional Neural Network (CNN) onan appropriate dataset consisting of 2D images and 3D facial models or scans.Our CNN works with just a single 2D facial image, does not require accuratealignment nor establishes dense correspondence between images, works forarbitrary facial poses and expressions, and can be used to reconstruct thewhole 3D facial geometry (including the non-visible parts of the face)bypassing the construction (during training) and fitting (during testing) of a3D Morphable Model. We achieve this via a simple CNN architecture that performsdirect regression of a volumetric representation of the 3D facial geometry froma single 2D image. We also demonstrate how the related task of facial landmarklocalization can be incorporated into the proposed framework and help improvereconstruction quality, especially for the cases of large poses and facialexpressions. Testing code will be made available online, along with pre-trainedmodels http://aaronsplace.co.uk/papers/jackson2017recon
translated by 谷歌翻译
Stein's method for measuring convergence to a continuous target distribution relies on an operator characterizing the target and Stein factor bounds on the solutions of an associated differential equation. While such operators and bounds are readily available for a diversity of univariate targets, few multivariate targets have been analyzed. We introduce a new class of characterizing operators based on Itô diffu-sions and develop explicit multivariate Stein factor bounds for any target with a fast-coupling Itô diffusion. As example applications, we develop computable and convergence-determining diffusion Stein discrepancies for log-concave, heavy-tailed, and multimodal targets and use these quality measures to select the hyperparameters of biased Markov chain Monte Carlo (MCMC) samplers, compare random and deterministic quadrature rules, and quantify bias-variance tradeoffs in approximate MCMC. Our results establish a near-linear relationship between diffusion Stein discrepancies and Wasserstein distances, improving upon past work even for strongly log-concave targets. The exposed relationship between Stein factors and Markov process coupling may be of independent interest.
translated by 谷歌翻译