在这里,我们提出了一种新的方法来调节SampleRNN生成模型进行语音转换(VC)。用于VC的传统方法通过在源声学特征和目标声学特征之间进行转换来修改所接受的说话者身份。我们的方法侧重于保留语音内容,并依赖于生成网络来学习语音风格。我们首先使用多说话者语音语料库训练以语言特征,音高轮廓和说话人身份为条件的多扬声器样本RNNN模型。使用从源扬声器提取的语言特征和音调轮廓以及目标说话者身份来生成语音转换语音。我们证明我们的系统能够进行多对多语音转换,而无需并行数据,从而实现广泛的应用。主观评价表明,超越传统的VC方法。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
The deep reinforcement learning community has made several independentimprovements to the DQN algorithm. However, it is unclear which of theseextensions are complementary and can be fruitfully combined. This paperexamines six extensions to the DQN algorithm and empirically studies theircombination. Our experiments show that the combination providesstate-of-the-art performance on the Atari 2600 benchmark, both in terms of dataefficiency and final performance. We also provide results from a detailedablation study that shows the contribution of each component to overallperformance.
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
互联网的非索引部分(Darknet)已成为合法和非法匿名活动的避风港。鉴于这些网络的规模,可靠地监控其活动必然依赖于自动工具,尤其是NLP工具。然而,人们对通过Darknet传达的特征文本以及这个领域的NLP工具如何做得很少知之甚少。本文解决了这一差距,并对暗网中合法和非法文本的特征进行了深入调查,并将其与具有类似内容的清晰网站进行比较,作为控制条件。以药物相关网站为测试案例,我们发现销售合法和非法药物的文本具有多种语言特征,可以区分彼此,以及控制条件,其中包括POS标签的分布,以及其命名实体的覆盖范围。在维基百科。
translated by 谷歌翻译
在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
在过去几年中,人们越来越关注学习基于物理基础的语言理解任务的模型,例如popularblocks world domain。这些工作通常将此问题视为单一进程,其中人工操作员发出指令,并评估自动代理执行它的能力。在本文中,我们采用第一个steptowards来增加这种交互的带宽,并建议一个包含建议,关于任务的高级观察的协议,这可以帮助消除代理的预测。我们评估我们对块世界任务的方法,并表明即使是简单的建议也可以帮助实现显着的性能提升。为了帮助减少提供建议所需的工作量,我们还要探索可以改善结果的模型自生建议。
translated by 谷歌翻译
机器人装配代表了一组用于执行学习和变量合规控制的基准问题,其具有复杂的接触操纵。将强化学习应用于物理机器人的关键挑战之一是样本的复杂性,需要大量的学习经验。我们通过模型引导探索将迭代重构模型纳入学习过程,从而缓解了这个样本复杂性问题。然而,拟合物理环境的局部模型是一个主要困难。在这项工作中,aKalman滤波器用于将自适应线性动力学与来自分析描述的粗糙模型相结合,并证明比现有方法提供更准确的预测。实验结果表明,所提出的模型拟合策略可以结合到模型预测控制器中,为学习加速产生良好的探索行为,同时保留不确定环境下无模型强化学习的优势。除了样本复杂性之外,在操作期间不可避免的机器人过载也会限制学习效率。为了解决这个问题,我们提出了一种方法来限制合规控制系统中最大可能的潜在能量,从而将接触力保持在合理范围内。
translated by 谷歌翻译
自动生成图像的描述性标题是计算机视觉领域中一个经过深入研究的领域。然而,现有的评估方法侧重于测量两个句子之间的相似性,而忽略了字幕的细粒度语义。在我们描绘人物与品牌产品交互的图像设置中,品牌产品的主题,谓词,对象和名称是生成的标题的重要评估标准。使用这些约束生成图像标题是我们在这项工作中要解决的新挑战。通过同时预测描述人 - 产品交互属性的整数值,我们在多任务学习环境中优化深度神经网络架构,从而显着提高了字幕质量。此外,我们引入了一个新的度量,允许我们评估生成的字幕是否符合我们的要求(即主题,谓词,对象和产品名称),并描述一系列关于字幕质量的实验以及如何通过方法解决图像评级的注释问题称为软目标。我们还表明,我们的新颖的以子句为中心的度量标准也适用于其他图像字幕数据集,例如流行的MSCOCO数据集。
translated by 谷歌翻译