人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
我们提出了一种用于自适应文本到语音(TTS)的元学习方法。在训练期间,我们学习使用共享条件WaveNet核心的多扬声器模型以及每个扬声器的独立学习嵌入。训练的目的不是生成具有固定权重的神经网络,然后将其部署为TTS系统。相反,目标是生成一个网络,在部署时需要很少的数据来快速适应新闻报道。我们介绍并基准三种策略:(i)学习Speakerembedding同时保持WaveNet核心固定,(ii)使用随机梯度下降微调整个体系结构,以及(iii)使用训练有素的神经网络编码器预测Speakerembedding。实验表明,这些方法成功地适应了多扬声器神经网络音调扬声器,只需几分钟来自新扬声器的音频数据,就可以获得样本自然度和语音相似性的最新结果。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
Generative Adversarial Networks have shown remarkable success in learning a distribution that faithfully recovers a reference distribution in its entirety. However, in some cases, we may want to only learn some aspects (e.g., cluster or manifold structure), while modifying others (e.g., style, orientation or dimension). In this work, we propose an approach to learn generative models across such incomparable spaces, and demonstrate how to steer the learned distribution towards target properties. A key component of our model is the Gromov-Wasserstein distance, a notion of discrepancy that compares distributions relationally rather than absolutely. While this framework subsumes current generative models in identically reproducing distributions, its inherent flexibility allows application to tasks in manifold learning, relational learning and cross-domain learning.
translated by 谷歌翻译
本文涉及在图形模型中估计模型参数。将其描述为信息几何优化问题,并引入包含额外元参数的解剖梯度下降策略。我们表明,我们的方法是图形模型中用于学习的着名EM方法的强有力替代方案。实际上,我们基于自然梯度的策略导致学习最终目标函数的最佳参数,而不是试图拟合可能与真实不对应的分布。我们支持我们的理论发现与金融市场中的趋势检测问题,并表明学习模型表现出更好的传统实践方法,并且不易过度拟合。
translated by 谷歌翻译
我们在最近普及的分散执行(CTDE)制度的集中培训中探索基于价值的多智能体强化学习(MARL)任务解决方案。然而,VDN和QMIX是代表性的例子,它将联合行动 - 价值函数的因子分解为分散执行的个体化。 VDN和QMIX仅解决可分解的MARL任务的分数,因为它们在诸如可加性和单调性之类的因素中具有结构约束。在本文中,我们提出了一种新的MARL分解方法,即QTRAN,它没有这种结构约束,并采用了一种新的方法将原始的联合作用 - 值函数转换为易于分解的函数,具有相同的优化。 QTRAN保证比VDN或QMIX更通用的因子分解,因此比以前的方法覆盖了更广泛的MARL任务类。多域Gaussian-squeeze和modifiedpredator-prey任务的Ourexperiments展示了QTRAN在游戏中的特殊大规模优越性能,其收益更加积极地惩罚非合作行为。
translated by 谷歌翻译
我们给出了过度约束的回归问题的第一维降维方法。 Tukey损失函数$ \ | y \ | _M = \ sum_i M(y_i)$有剩余误差的$ M(y_i)\ approx | y_i | ^ p $ $ $ y_i $小于规定阈值$ \ tau $,但是$ M(y_i)$对于错误$ | y_i |变为常量> \ tau $。我们的结果取决于一个新的结构结果,建设性地证明,对于任何$ d $ -dimensional子空间$ L \ subset \ mathbb {R} ^ n $,有一个固定的有界大小的坐标子集,包含每个$ y \ in L $,关于Tukey损失函数的所有大坐标,$ y $。我们的方法将给定的Tukey回归问题减少到较小的加权版本,whosesolution对于原始问题是可证明的良好近似解。我们的减少是快速,简单和易于实现的,并且我们使用现有的启发式解算器为小版本提供了证明其实用性的经验结果。我们还给出了指数时间算法,给出了可证明的解决方案,并且硬度结果表明在最坏的情况下不太可能出现显着的加速。
translated by 谷歌翻译
执法部门或大众媒体机构经常需要面对隐瞒提供隐私保护。共享敏感内容,其中遮蔽或减少技术可能未能完全消除所有可识别的痕迹,可能导致危及生命的后果。因此,能够系统地测量给定技术的面部遮蔽性能是至关重要的。在本文中,我们建议测量三种模拟技术的有效性:高斯模糊,中值模糊和像素化。通过在两种情况下识别编辑的面部来进行编辑:将遮蔽的面部分类为一组身份,并将遮蔽的面部与清晰面部的相似性进行比较。威胁建模还被认为是为每种研究的遮蔽技术提供漏洞分析。基于ourevaluation,我们表明基于像素化的面部遮蔽方法是最有效的。
translated by 谷歌翻译
我们研究了用于深度神经网络的更广泛的Winograd族卷积算法。我们提出了显式的Winograd卷积算法一般情况(使用了高于1的度数的多项式)。它允许我们在常用的Winograd卷积算法的性能方面构建更多不同的版本,并提高卷积计算的准确性和性能。我们发现在$ fp16 $中,这种方法使我们能够获得更好的图像识别精度,同时保持与单个输出点计算的相同数量的一般乘法,因为常用的Winograd算法适用于尺寸为$ 3 \ times 3 $且输出大小等于$ 4 \ times的内核$ 4。我们证明,在$ bf16 $中,可以更快地执行卷积计算,保持图像识别的准确性与直接卷积方法相同。我们测试了我们的方法,从Imaginet验证集中获得了2000美元$图像的子集。我们给出了三个精度计算结果$ fp32 $,$ fp16 $和$ bf16 $。
translated by 谷歌翻译
深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译