人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
我们提出了一种用于自适应文本到语音(TTS)的元学习方法。在训练期间,我们学习使用共享条件WaveNet核心的多扬声器模型以及每个扬声器的独立学习嵌入。训练的目的不是生成具有固定权重的神经网络,然后将其部署为TTS系统。相反,目标是生成一个网络,在部署时需要很少的数据来快速适应新闻报道。我们介绍并基准三种策略:(i)学习Speakerembedding同时保持WaveNet核心固定,(ii)使用随机梯度下降微调整个体系结构,以及(iii)使用训练有素的神经网络编码器预测Speakerembedding。实验表明,这些方法成功地适应了多扬声器神经网络音调扬声器,只需几分钟来自新扬声器的音频数据,就可以获得样本自然度和语音相似性的最新结果。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
随着基于机器学习(ML)的系统的广泛部署,用于各种应用,包括医疗,军事,汽车,基因组以及多媒体和社交网络,存在很大的破坏对抗性学习(AL)攻击的可能性。在本文中,我们提供了AL的当代调查,特别侧重于防御对统计分类器的攻击。在介绍了相关术语以及攻击者和维护者可能的目标和范围之后,我们调查了最近关于测试时间规避(TTE),数据中毒(DP)和逆向工程(RE)攻击的工作,特别是针对相同的防御措施。在这样做的过程中,我们将异常分类与异常检测(AD),无监督与监督,以及基于统计假设的防御与没有明确无效(无攻击)假设的分类进行区分;我们确定了超参数特定方法所需要的,其计算复杂性,以及评估它的性能测量和获得的质量。 Wethen深入挖掘,提供新的见解,挑战传统的AL威胁,针对尚未解决的问题,包括:1)强大的分类与AD作为防御策略; 2)相信攻击成功增加了强度,忽略了对AD的易感性; 3)小扰动最远逃避攻击:谬误还是要求? 4)普遍假设的有效性,即TTE攻击者知道示例被攻击的地面真值类; 5)黑,灰,白盒攻击作为防御评估的标准; 6)基于查询的RE对AD防御的敏感性。然后,我们呈现针对图像的TTE,RE和后门DP攻击的几种防御的基准比较。本文最后讨论了未来的工作。
translated by 谷歌翻译
在过去几年中,演示攻击检测(PAD)已成为面部识别系统的基础部分。尽管已经对反欺骗研究付出了很多努力,但真实场景中的泛化仍然是一个挑战。在本文中,我们提出了一个新的开源评估框架,研究了面部PAD方法的泛化能力,这里创造了asface-GPAD。该框架有助于创建侧重于泛化问题的新协议,建立公平的评估程序和PAD解决方案之间的比较。我们还引入了一个大型聚合和分类数据集,以解决公共数据集之间不兼容的问题。最后,我们提出了一个基准,增加了两个新的评估协议:一个用于测量面部分辨率变化引入的影响,另一个用于评估对抗性操作条件的影响。
translated by 谷歌翻译
事实核查是新闻业的一项重要任务;由于最近越来越多的关注和努力打击信息,其重要性得到了高度重视。在本文中,我们提出了一个自动事实检查平台,它给出了一个主张,它从文档集中检索相关的文本证据,预测每一个证据是否支持或驳斥该声明,并返回最终判决。我们描述了系统和用户界面的体系结构,重点关注为提高用户友好性和透明度而做出的选择。我们在新闻环境中对事实检查平台进行用户研究:我们将其与新闻文章的集合进行整合,并使用他们工作流程中记者的反馈来评估平台。我们发现平台的预测值在58%以上是正确的,59%的返回证据是相关的。
translated by 谷歌翻译
分布式单词向量空间被认为难以解释,这阻碍了对自然语言处理(NLP)模型的理解。在这项工作中,我们引入了一种新的方法来解释单词向量空间中的任意样本。为此,我们训练一个神经模型来概念化单词向量,这意味着它激活了它在给定向量中识别的高阶概念。对于先前的方法,我们的模型在原始向量空间中运行,并且能够学习单词向量和概念之间的非线性关系。此外,我们表明,与流行的余弦相似性相比,它产生的熵概念激活曲线要少得多。
translated by 谷歌翻译
本文重新审视了贝叶斯CMA-ES并为normalWishart提供了更新。它强调了正常和正常逆Wishart之间的区别。经过一些计算,我们证明唯一的区别在于预期的协方差。我们证明了正态Wishart先验模型中的预期协方差应该更低,因为逆的凸性。我们提出了一个混合模型,它推广了正常的Wishart和正态逆Wishart模型。我们最终提出了各种数值实验来比较两种方法以及广义方法。
translated by 谷歌翻译
密度估计是统计的核心领域之一,其目的是估计观测数据背后的概率密度函数。它作为统计推理,可视化和机器学习中许多任务的构建块。密度估计在无监督学习领域被广泛采用,特别是对于聚类的应用。随着大数据在几乎所有数据科学领域普及,分析具有许多特征和变量的高维数据似乎成为学术界和工业界的主要关注点。高维数据不仅来自统计推断的理论方面,还来自机器学习和数据分析的算法/计算考虑。本文回顾了一系列用于高维数据的非参数密度估计算法,其中一些最近发表并提供了有趣的数学见解。非参数密度估计的重要应用领域,如{modalclustering},也包括在本文中。作者提出了与密度估计和高维数据分析相关的几个研究方向。
translated by 谷歌翻译
评估翻译模型是努力与细节之间的权衡。在光谱的一端,有一些基于自动计数的方法,如PPU,另一方面是人类的语言评估,可以说它们提供更多信息,但也需要不成比例的高努力。为了缩小光谱范围,我们提出了一种关于如何自动将人类和机器翻译之间的系统差异暴露给人类专家的一般方法。在对抗设置的启发下,我们训练了一个神经文本分类器来区分人类与机器的翻译。训练后执行和扩展的分类器应该识别两个类之间的系统差异,我们用神经可解释性方法揭示这些差异。我们的概念性实现DiaMaT是开源的。应用于由最先进的神经变换器模型翻译的数据集,DiaMaT实现了75%的分类准确度,并在当前关于人类平价的讨论中揭示了人与变形金刚之间的有意义差异。
translated by 谷歌翻译