强化学习(RL)已经证明了其在一系列人工领域中的价值,并开始在现实世界的情景中显示出一些成功。然而,RL的许多研究进展通常难以在现实世界系统中利用,因为一系列在实践中很少满足的假设。我们提出了一系列九个独特的挑战,必须解决这个问题,将RL产生于现实世界的问题。对于这些挑战中的每一个,都要确定挑战的确切含义,从文献中提出一些方法,并指定一些评估该挑战的指标。解决所有九项挑战的方法将适用于大量现实世界的问题。我们还提供了一个经过修改的示例域,将这些挑战作为实际RL研究的测试平台。
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
图形神经网络(GNN)有许多种类,但应始终是不变的(输入图的节点的排列不影响输出)或等变的(输入的排列置换输出)。在本文中,我们考虑一类特定的不变和等变网络,为此我们证明了新的普遍性定理。更确切地说,我们考虑具有单个隐藏层的网络,通过对通过应用等变线性算子,点态非线性和不变量等变线性算子形成的通道求和来获得。最近,Maron等人。 (2019)表明,通过网络内部的高阶张量化,可以获得通用不变量GNN。作为第一个贡献,我们提出了这个结果的另一种证明,它依赖于Stone-Weierstrass定理用于实值函数的代数。我们的主要贡献是将这种结果扩展到等效的情况,这种情况出现在许多实际应用中,但从理论的角度来看,研究较少。该证明依赖于一个新的广义Stone-Weierstrass定理,用于等变函数的代数,这是一个独立的兴趣。最后,与考虑固定数量的节点的许多先前设置不同,我们的结果表明,由单个参数集定义的GNN可以均匀地近似在不同大小的图上定义的函数。
translated by 谷歌翻译
基于树的机器学习模型,例如随机森林,决策树和梯度增强树,是当今实践中使用的最流行的非线性预测模型,但是对于解释它们的预测却相对较少关注。在这里,我们通过三个主要贡献显着提高了树模型的可解性:1)基于游戏理论计算最优解释的第一个多项式时间算法。 2)一种直接测量局部特征相互作用效果的新型解释。 3)一组新的工具,用于基于每个预测的许多局部解释来理解全局模型结构。我们将这些工具应用于三个医学机器学习问题,并展示如何结合许多高质量的局部解释使我们能够代表全局结构,同时保持对原始模型的本地忠诚度。这些工具可以使我们知道i)在美国一般人群中识别高幅度但低频率的非线性死亡率因素,ii)突出显示具有共同风险特征的不同群体子群,iii)识别慢性肾病危险因素之间的非线性相互作用, iv)通过识别哪些特征随着时间的推移降低模型的性能来监控部署在医院中的机器学习模型。鉴于基于树的机器学习模型的普及,这些对其可解释性的改进对于广泛的领域具有影响。
translated by 谷歌翻译
理解大脑功能的一个基本问题是什么类型的刺激驱动神经元发射。在视觉神经科学中,这个问题也被发布为表征神经元的感受野。传统上,搜索有效刺激基于先前研究,直觉和运气的见解。最近,同样的问题在卷积神经网络(ConvNets)中的单元研究中出现,并且与这个问题一起开发了一系列解决方案,通常被称为“通过激活最大化的特征可视化”。我们试图引入为研究ConvNets而开发的工具和技术,以研究生物神经网络。然而,与工具的直接翻译相关的一个关键差异是可以使用反向传播从康涅狄格州获得渐变,但是这种渐变不能从大脑中获得。为了解决这个问题,我们开发了一种通过将生成神经网络与遗传算法相结合来实现无梯度激活最大化的方法。我们称这种方法为XDream(EXtending DeepDream,具有实时进化激活最大化),我们已经证明这种方法可以为猕猴视觉皮层中的神经元创造强烈的刺激(Ponceet al。,2019)。在本文中,我们描述了通过使用ConvNet单位作为神经元的计算机模型来表征XDream方法的广泛实验。 Weshow表示XDream适用于网络层,体系结构和训练集;检查算法中的设计选择;并为在算法中选择超参数提供了实用的指导。 XDream是一种有效的算法,可以利用庞大而多样的刺激空间揭示黑盒网络中的神经元调整偏好。
translated by 谷歌翻译
基于编码器 - 解码器的神经架构作为端到端开放域对话系统中最先进方法的基础。由于大多数此类系统都采用最大似然(MLE)目标进行训练,因此无法解决诸如缺乏普遍性和一般响应问题等问题,即系统响应可能是对大量用户话语的回答,例如“也许,我不知道。“通过选择来自不同方法的响应,在每个回合中对系统响应的相关性和兴趣性有明确的反馈可以是减轻这些问题和提高系统质量的有用信号。为实现这一目标,我们提出了一个系统,用于评估每个对话框的聊天机器人响应,以实现一致性和一致性。我们的系统提供明确的转弯级别对话质量反馈,我们表明它与人类评估高度相关。为了表明在神经反应生成模型中包含这种反馈提高了对话质量,我们提出了两种不同的互补机制,将显式反馈纳入神经反应生成模型:在训练期间重新激活和直接修改损失函数。 Ourstudies表明,包含这些组合反馈机制的响应生成模型在开放域语音对话设置中产生更具吸引力和连贯性的响应,使用自动和人工评估显着提高响应质量。
translated by 谷歌翻译
在翻译短语(单词或单词组)时,人类译者有意或无意地采用不同的翻译过程,除了成语翻译,如成语等效,泛化,特殊化,语义调制等。译者和语言学家(如维纳和达贝尔内特) ,纽马克等人提出了几种类型来描述不同的翻译过程。然而,就我们所知,没有努力自动对这些细粒度的翻译过程进行分类。最近,TED会谈的英法平行语料库已经手动注释了翻译过程类别以及已建立的注释指南。基于这些注释示例,我们提出了在子系统级别上对翻译过程的自动分类。实验结果表明,我们可以将非字面翻译与字面翻译区分开来,准确度分别为87.09%和55.20%,用于五种非字面翻译过程的分类。这项工作表明可以自动对翻译过程进行分类。即使有少量注释示例,我们的实验也会显示我们在未来工作中可以遵循的方向。我们的长期目标之一是利用这种自动分类来更好地控制双语平行语料库中的词汇提取。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的信息处理架构,即自动系统的前端到端视觉导航。所提出的信息处理体系结构用于支持基于感知注意的预测控制算法,该算法利用模型预测控制,卷积神经网络和不确定性量化方法。 keyidea依赖于使用模型预测控制来训练卷积神经网络以预测输入视觉信息中的感兴趣区域。然后将这些感兴趣的区域用作Macula-Network的输入,Macula-Network是一个3D卷积神经网络,经过训练可以产生控制动作,以及估计输入数据流中的认知和任意不确定性。所提出的架构在模拟示例和1:5比例尺的地面车辆上进行测试。实验结果表明,所提出的体系结构优于先前的方法,用于早期检测初始训练集之外的新对象/数据。所提出的架构是在安全关键域中使用端到端感知控制策略的第一步。
translated by 谷歌翻译
推荐系统通过向他们提供附加项目建议来帮助用户处理信息过载。新闻的推荐通常被认为是具有挑战性的,因为文章对用户的相关性可以取决于多种因素,包括用户的短期阅读兴趣,读者的背景,或文章的新近度或受欢迎程度。以前的工作有表明使用递归神经网络有望用于下一次会话中的预测任务,但是当仅记录的项目点击序列被用作输入时具有某些限制。在这项工作中,我们提出了一种基于会话的新闻推荐的混合,深度学习方法,能够利用各种信息类型。我们使用时间评估协议评估了我们在两个公共数据集上的方法,该协议以逼真的方式模拟新闻门户的动态。我们的结果证实了以所提出的方式考虑其他类型的信息(包括文章流行度和新近度)的益处,导致比其他基于会话的算法显着更高的推荐准确度和目录覆盖率。另外的实验表明,我们的方法中使用的所提出的可参数化损失函数也允许我们平衡两个通常相互矛盾的质量因素,准确性和新颖性。关键词:新闻推荐系统,基于会话的推荐,人工神经网络,情境感知,杂交
translated by 谷歌翻译
条件计算旨在增加网络的大小和准确性,推理成本略有增加。以前的硬路由模型明确地将输入转发给专家子集。我们建议使用软条件计算,相反,它使用所有专家,同时仍允许通过参数路由进行有效推理。具体地说,对于给定的卷积层,我们希望计算$ n $ experts $ \ alpha_1 \ cdot(W_1 * x)+ \ ldots + \ alpha_n \ cdot(W_n * x)$的线性组合,其中$ \ alpha_1,\ ldots,\ alpha_n $是通过渐变下降学习的输入函数。简单的评估需要$ n $ convolutions。我们提出了上述计算的等价形式,$(\ alpha_1 W_1 + \ ldots + \ alpha_n W_n)* x $,它只需要一个卷积。我们通过扩展MobileNetV1,MobileNetV2和ResNet-50模型架构来展示我们的方法CondConv的功效,以获得更高的准确度,同时保持有效的推理。在ImageNet分类数据集上,CondConvi将MobileNetV1(0.5x)模型的前1个验证准确度从63.8%提高到71.6%,同时仅将推理成本提高了27%。在COCO对象检测中,CondConv将MobileNetV1(1.0x)SSD模式的minival mAP从20.3提高到22.4,推理成本仅增加4%。
translated by 谷歌翻译