Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
本文介绍了一种新的开放式域名问答框架,其中猎犬和读者互相迭代地互动。框架与机器读取模型的体系结构无关,只需要访问读取器的令牌级隐藏表示。 Theretriever使用快速最近邻搜索来缩放到包含数百万个段落的语料库。门控循环单元在读取器状态的每个步进条件下更新查询,并且重新构造的查询用于通过检索器对段落进行排序。我们进行分析并显示有用的互动有助于从信息中检索信息性段落。最后,我们展示了我们的多步推理框架在应用于各种大型开放域数据集的两个广泛使用的读者架构Dr.DrQA和BiDAF时带来了一致的改进 - TriviaQA-unfiltered,QuasarT,SearchQA和SQuAD-Open。
translated by 谷歌翻译
假设我们希望从“用户喜欢项目p或项目q?”形式的配对比较来估计用户的偏好向量w,其中用户和项目都嵌入在低维欧几里德空间中,其距离反映了用户和项目的相似性。这些观察结果出现在许多设置中,包括心理测量学和心理学实验,搜索任务,广告和推荐系统。在这样的任务中,查询可能非常恶劣并且受到不同级别的响应噪声的影响;因此,我们的目标是根据先前比较的结​​果选择最具信息量的对。我们提供了关于贪婪信息最大化在这种情况下的益处和挑战的新理论见解,并开发了最大化信息增益下限的双重策略,并且分别简单地分析和计算。我们使用来自区域世界数据集的模拟响应来验证我们的策略,通过它们与贪婪信息最大化相似的性能,以及它们优越的偏好估计,最先进的选择方法以及随机查询。
translated by 谷歌翻译
我们提出了一种基于束调整的算法,用于从单目视频中恢复准确的3D人体姿势和网格。与之前在单帧上运算的算法不同,我们表明在整个序列上重建一个人可以提供额外的约束来解决歧义。这是因为视频通常会给出一个人的多个视图,但整体的身体形状不会改变,3D位置也会缓慢变化。我们的方法不仅改进了标准的基于mocap的数据集,例如人类3.6M - 我们展示了定量改进 - 而且还改进了具有挑战性的野生数据集,例如Kinetics.Building在我们的算法上,我们提出了一个超过3的新数据集来自Kinetics的百万帧YouTube视频,自动生成3D姿势和网格物体。我们展示了通过在3DPW和HumanEVA数据集上进行评估,在该数据上重新训练单帧3D姿态估计器可以提高真实世界和mocap数据的准确性。
translated by 谷歌翻译
由于大数据革命和不断增长的计算能力,人工智能(AI)在过去几年中取得了令人印象深刻的复兴,现在在研究和工业领域都无处不在。创意部门一直是人工智能技术的早期采用者,这种情况一直如此。事实上,最近的技术发展突破了创意应用中智能系统的界限:2016年发布的备受好评的电影“Sunspring”完全是由人工智能技术编写的,也是有史以来第一部名为“Hello World”的音乐专辑,使用人工智能生产的产品已于今年发布。同时,创造性过程的探索性特征为AI提出了重要的技术挑战,例如,在传统的“大数据”方法或者处理,分析和匹配数据的能力下,人工智能技术在有限的数据源下是准确的。从多种形式(文本,声音,图像等)同时进行。本白皮书的目的是了解人工智能的未来技术进步及其对创造性产业日益增长的影响。本文讨论了以下问题:AI在创意产业中的运作方式?它的作用是什么? AI将如何在未来十年内转变创意产业?本白皮书旨在提供关于创意产业中人工智能行为范围的现实视角,提出该技术如何为此类背景下的研究和开发工作做出贡献的愿景,并确定研究和发展挑战。
translated by 谷歌翻译
我们引入了一种新的自适应裁剪技术,用于训练具有用户级差异隐私的学习模型,从而无需进行广泛的参数调整。此问题的先前方法使用FederatedStochastic Gradient Descent或Federated Averaging算法以及noisedupdates,并使用MomentsAccountant计算差异隐私保证。这些方法依赖于为模型选择每个用户更新的范数,需要仔细调整。最佳值取决于学习速率,模型架构,对每个用户数据的传递次数以及可能的各种其他参数。我们表明,基于对剪切规范的分布的目标分位数的不同的私有估计,自适应地设置应用于每个用户的更新的剪辑范数,足以消除对这种广泛的参数调整的需要。
translated by 谷歌翻译
我们提出了一种新的网络架构,用于基于标准自旋霍尔磁隧道结的自旋神经元,允许它们同时并行地计算多个关键卷积神经网络功能,从而节省空间和时间。整流线性单元传递函数和局部汇集函数的近似值与卷积运算本身同时计算。在MNIST数据集上执行概念验证模拟,对于所有卷积,激活和池化操作的组合,以低于1 nJ的成本实现高达98%的准确度。模拟对热噪声具有显着的鲁棒性,即使在非常小的磁性层下也能很好地运行。
translated by 谷歌翻译
可取消的生物特征识别(CB)作为生物特征模板保护方法的手段是指在原始模板上的不可逆但相似的保持变换。利用相似性保持属性,可以在变换域中执行模板和查询实例之间的匹配,而不会危害精度性能。不幸的是,这种特性引发了一类攻击,即基于相似性的攻击(SA)。 SA生成一个preimage,一个转换模板的逆,可用于模拟和交叉匹配。在本文中,我们提出了一种基于遗传算法的基于相似性的攻击框架(GASAF)来证明具有相似性保持特性的CB方案是基于相似性的攻击。除此之外,还设计了一组新指标来衡量基于相似性的攻击的有效性。我们在两个有代表性的CB方案上进行实验,即BioHashing和Bloom-filter。实验结果证明了这种攻击下的脆弱性。
translated by 谷歌翻译
人类做出决定并与其他人一起行动,以实现短期和长期目标。由于计算科学和自动化等领域的不断进步,人类现在还与不同复杂程度的非人类进行交互,作为日常活动的一部分;正在开展大量工作,将越来越智能的机器人整合到人类工作中。玩。随着这些药剂的认知,感官和运动能力的增加,合理地认为用于人类援助的智能机器与人类共同行动 - 即,两个或更多的代理人适应他们的行为和他们对彼此的理解以及进步共同的目标或目标。人机伙伴关系中熟练联合行动的机制,条件和机会对多个社区都很有意义。尽管如此,人机联合行动尚未得到充分研究,尤其是在人类和智能机器在实时,日常生活体验过程中以持续的方式相互作用的情况下。在这项工作中,我们贡献了一个虚拟现实环境,其中人和代理人可以调整他们的预测,设计和他们的沟通,以便进行简单的觅食任务。在与单个参与者的acase研究中,我们提供了一个人 - 代理协调和决策的例子,涉及人和机器代理的预测学习,并控制机器代理部分的学习,其中音频通信信号用于提示它的人类伙伴,为获得共同的奖励服务。这些比较表明了在虚拟现实环境中研究人机协调的有效性,并确定了进一步的研究,这些研究将扩展我们对持久的人机联合行动的理解。
translated by 谷歌翻译
有大量复杂的动态系统对我们的日常生活和社会至关重要但却难以理解,即使今天有可能感知和收集大量的实验数据,它们也是如此复杂和不断发展,以至于它们的动力不太可能将被详细了解。然而,通过计算工具,我们可以尝试最好地利用当前技术和可用数据。我们认为,最有用的模型将在有限的知识或多个假设的背景下考虑系统复杂性和可用数据之间的不平衡。生物细胞的复杂系统是在系统生物学中研究的这种系统的一个主要例子,并且激发了本文提出的方法。它们是作为DARPA快速威胁评估(RTA)计划的一部分而开发的,该计划涉及对影响人体细胞的毒素或药物的作用机制(MoA)的理解。结合使用高斯过程和抽象网络建模,我们提出了三种基本的不同的基于机器学习的方法来学习因果关系,并从高维时间序列数据中合成因果网络。虽然其他类型的数据可用并且已经在我们的RTA工作中进行了分析和整合,但我们关注的是本文中从高通量微阵列实验获得的转录组学(即基因表达)数据,以说明我们的算法的能力和局限性。我们的算法使得不同但总体上相对较少的生物学假设,因此它们适用于其他类型的生物数据,甚至可能适用于其他复杂系统,这些系统具有高维度但不具有生物学性质。
translated by 谷歌翻译