人类是高保真模仿的专家 - 通常在一次尝试中非常模仿演示。人类使用此功能快速解决atask实例,并引导学习新任务。在自主代理中实现这些可能性是一个悬而未决的问题。在本文中,我们介绍了非政策RL算法(MetaMimic)来缩小这一差距。 MetaMimic可以学习(i)高保真一次性模仿各种新技能的政策,以及(ii)使代理人能够更有效地解决任务的政策。 MetaMimic依赖于将所有经验存储在存储器中并重放这些经验以通过非策略RL学习大规模深度神经网络策略的原理。在我们所知的情况下,本文介绍了用于深度RL的最大现有神经网络,并且表明需要具有归一化的较大网络来实现对于具有挑战性的操纵任务的一次性高保真模仿。结果还表明,尽管任务奖励稀少,并且无法访问示威者行动,但可以从愿景中学习这两种类型的政策。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
图形神经网络(GNN)有许多种类,但应始终是不变的(输入图的节点的排列不影响输出)或等变的(输入的排列置换输出)。在本文中,我们考虑一类特定的不变和等变网络,为此我们证明了新的普遍性定理。更确切地说,我们考虑具有单个隐藏层的网络,通过对通过应用等变线性算子,点态非线性和不变量等变线性算子形成的通道求和来获得。最近,Maron等人。 (2019)表明,通过网络内部的高阶张量化,可以获得通用不变量GNN。作为第一个贡献,我们提出了这个结果的另一种证明,它依赖于Stone-Weierstrass定理用于实值函数的代数。我们的主要贡献是将这种结果扩展到等效的情况,这种情况出现在许多实际应用中,但从理论的角度来看,研究较少。该证明依赖于一个新的广义Stone-Weierstrass定理,用于等变函数的代数,这是一个独立的兴趣。最后,与考虑固定数量的节点的许多先前设置不同,我们的结果表明,由单个参数集定义的GNN可以均匀地近似在不同大小的图上定义的函数。
translated by 谷歌翻译
基于树的机器学习模型,例如随机森林,决策树和梯度增强树,是当今实践中使用的最流行的非线性预测模型,但是对于解释它们的预测却相对较少关注。在这里,我们通过三个主要贡献显着提高了树模型的可解性:1)基于游戏理论计算最优解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释。 3)一组新的工具,用于基于每个预测的许多局部解释来理解全局模型结构。我们将这些工具应用于三个医学机器学习问题,并展示如何结合许多高质量的局部解释使我们能够代表全局结构,同时保持对原始模型的本地忠诚度。这些工具可以使我们知道i)在美国一般人群中识别高幅度但低频率的非线性死亡率因素,ii)突出显示具有共同风险特征的不同群体子群,iii)识别慢性肾病危险因素之间的非线性相互作用, iv)通过识别哪些特征随着时间的推移降低模型的性能来监控部署在医院中的机器学习模型。鉴于基于树的机器学习模型的普及,这些对其可解释性的改进对于广泛的领域具有影响。
translated by 谷歌翻译
理解大脑功能的一个基本问题是什么类型的刺激驱动神经元发射。在视觉神经科学中,这个问题也被发布为表征神经元的感受野。传统上,搜索有效刺激基于先前研究,直觉和运气的见解。最近,同样的问题在卷积神经网络(ConvNets)中的单元研究中出现,并且与这个问题一起开发了一系列解决方案,通常被称为“通过激活最大化的特征可视化”。我们试图引入为研究ConvNets而开发的工具和技术,以研究生物神经网络。然而,与工具的直接翻译相关的一个关键差异是可以使用反向传播从康涅狄格州获得渐变,但是这种渐变不能从大脑中获得。为了解决这个问题,我们开发了一种通过将生成神经网络与遗传算法相结合来实现无梯度激活最大化的方法。我们称这种方法为XDream(EXtending DeepDream,具有实时进化激活最大化),我们已经证明这种方法可以为猕猴视觉皮层中的神经元创造强烈的刺激(Ponceet al。,2019)。在本文中,我们描述了通过使用ConvNet单位作为神经元的计算机模型来表征XDream方法的广泛实验。 Weshow表示XDream适用于网络层,体系结构和训练集;检查算法中的设计选择;并为在算法中选择超参数提供了实用的指导。 XDream是一种有效的算法,可以利用庞大而多样的刺激空间揭示黑盒网络中的神经元调整偏好。
translated by 谷歌翻译
基于编码器 - 解码器的神经架构作为端到端开放域对话系统中最先进方法的基础。由于大多数此类系统都采用最大似然(MLE)目标进行训练,因此无法解决诸如缺乏普遍性和一般响应问题等问题,即系统响应可能是对大量用户话语的回答,例如“也许,我不知道。“通过选择来自不同方法的响应,在每个回合中对系统响应的相关性和兴趣性有明确的反馈可以是减轻这些问题和提高系统质量的有用信号。为实现这一目标,我们提出了一个系统,用于评估每个对话框的聊天机器人响应,以实现一致性和一致性。我们的系统提供明确的转弯级别对话质量反馈,我们表明它与人类评估高度相关。为了表明在神经反应生成模型中包含这种反馈提高了对话质量,我们提出了两种不同的互补机制,将显式反馈纳入神经反应生成模型:在训练期间重新激活和直接修改损失函数。 Ourstudies表明,包含这些组合反馈机制的响应生成模型在开放域语音对话设置中产生更具吸引力和连贯性的响应,使用自动和人工评估显着提高响应质量。
translated by 谷歌翻译
强化学习(RL)已经证明了其在一系列人工领域中的价值,并开始在现实世界的情景中显示出一些成功。然而,RL的许多研究进展通常难以在现实世界系统中利用,因为一系列在实践中很少满足的假设。我们提出了一系列九个独特的挑战,必须解决这个问题,将RL产生于现实世界的问题。对于这些挑战中的每一个,都要确定挑战的确切含义,从文献中提出一些方法,并指定一些评估该挑战的指标。解决所有九项挑战的方法将适用于大量现实世界的问题。我们还提供了一个经过修改的示例域,将这些挑战作为实际RL研究的测试平台。
translated by 谷歌翻译
在翻译短语(单词或单词组)时,人类译者有意或无意地采用不同的翻译过程,除了成语翻译,如成语等效,泛化,特殊化,语义调制等。译者和语言学家(如维纳和达贝尔内特) ,纽马克等人提出了几种类型来描述不同的翻译过程。然而,就我们所知,没有努力自动对这些细粒度的翻译过程进行分类。最近,TED会谈的英法平行语料库已经手动注释了翻译过程类别以及已建立的注释指南。基于这些注释示例,我们提出了在子系统级别上对翻译过程的自动分类。实验结果表明,我们可以将非字面翻译与字面翻译区分开来,准确度分别为87.09%和55.20%,用于五种非字面翻译过程的分类。这项工作表明可以自动对翻译过程进行分类。即使有少量注释示例,我们的实验也会显示我们在未来工作中可以遵循的方向。我们的长期目标之一是利用这种自动分类来更好地控制双语平行语料库中的词汇提取。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的信息处理架构,即自动系统的前端到端视觉导航。所提出的信息处理体系结构用于支持基于感知注意的预测控制算法,该算法利用模型预测控制,卷积神经网络和不确定性量化方法。 keyidea依赖于使用模型预测控制来训练卷积神经网络以预测输入视觉信息中的感兴趣区域。然后将这些感兴趣的区域用作Macula-Network的输入,Macula-Network是一个3D卷积神经网络,经过训练可以产生控制动作,以及估计输入数据流中的认知和任意不确定性。所提出的架构在模拟示例和1:5比例尺的地面车辆上进行测试。实验结果表明,所提出的体系结构优于先前的方法,用于早期检测初始训练集之外的新对象/数据。所提出的架构是在安全关键域中使用端到端感知控制策略的第一步。
translated by 谷歌翻译
推荐系统通过向他们提供附加项目建议来帮助用户处理信息过载。新闻的推荐通常被认为是具有挑战性的,因为文章对用户的相关性可以取决于多种因素,包括用户的短期阅读兴趣,读者的背景,或文章的新近度或受欢迎程度。以前的工作有表明使用递归神经网络有望用于下一次会话中的预测任务,但是当仅记录的项目点击序列被用作输入时具有某些限制。在这项工作中,我们提出了一种基于会话的新闻推荐的混合,深度学习方法,能够利用各种信息类型。我们使用时间评估协议评估了我们在两个公共数据集上的方法,该协议以逼真的方式模拟新闻门户的动态。我们的结果证实了以所提出的方式考虑其他类型的信息(包括文章流行度和新近度)的益处,导致比其他基于会话的算法显着更高的推荐准确度和目录覆盖率。另外的实验表明,我们的方法中使用的所提出的可参数化损失函数也允许我们平衡两个通常相互矛盾的质量因素,准确性和新颖性。关键词:新闻推荐系统,基于会话的推荐,人工神经网络,情境感知,杂交
translated by 谷歌翻译