大多数深度强化学习算法在复杂和丰富的环境中数据效率低,限制了它们在许多场景中的适用性。用于提高数据效率的唯一方向是使用共享神经网络参数的多任务学习,其中可以通过跨交叉相关任务来提高效率。然而,在实践中,通常不会观察到这种情况,因为来自不同任务的渐变可能会产生负面干扰,导致学习不稳定,有时甚至会降低数据效率。另一个问题是任务之间的不同奖励方案,这很容易导致一个任务确定共享模型的学习。我们提出了一种新的联合训练方法,我们称之为Distral(Distill&transferlearning)。我们建议分享一个捕获常见行为的“蒸馏”策略,而不是在不同的工作者之间共享参数。每个工人都经过培训,可以解决自己的任务,同时受限于保持对共享政策的控制,而共享政策则通过蒸馏培训成为所有任务政策的质心。学习过程的两个方面都是通过优化联合目标函数得出的。我们表明,我们的方法支持在复杂的3D环境中进行有效传输,优于多个相关方法。此外,所提出的学习过程更加健壮且更加稳定 - 这些属性在深层强化学习中至关重要。
translated by 谷歌翻译
以顺序方式学习任务的能力对于人工智能的发展至关重要。一般而言,神经网络不具备此功能,并且人们普遍认为灾难性遗忘是连接模型的必然特征。我们表明,有可能克服这种限制并培养能够保持他们长期没有经历过的专业知识的网络。我们的方法通过有选择地减慢重量重要任务的权重学习来记住任务。我们通过基于MNIST手写数字数据集解决一组分类任务并依次学习几个Atari 2600游戏,证明我们的方法是可扩展和有效的。
translated by 谷歌翻译
我们提出了一种合成数据生成的任务感知方法。我们的框架采用可训练的合成器网络,通过评估“目标”网络的优势和劣势,优化产生意义的训练样本。合成器和目标网络以对抗性方式进行训练,其中每个网络的更新目标是超越另一个。另外,我们通过将其与在真实世界图像上训练的鉴别器配对来确保合成器生成真实数据。此外,为了使目标分类器对于混合人工制品不变,我们将这些人工制品引入训练图像的背景区域,以使目标不会过度拟合。我们通过将其应用于不同的目标网络(包括AffNIST上的分类网络)和不同数据集上的两个物体检测网络(SSD,Faster-RCNN)来证明我们的方法的功效。在AffNISTbenchmark上,我们的方法能够超越基线结果,只需要一半的训练样例。在VOC人员检测基准测试中,由于我们的数据增加,我们显示了高达2.7%的改进。类似地,在GMU检测基准上,我们报告mAP在基线方法中的性能提升为3.5%,优于先前的技术方法,在特定类别上达到7.5%。
translated by 谷歌翻译
图像合成是电影制作和图像编辑的关键步骤,旨在对前景对象进行处理并将其与新背景相结合。当背景为纯蓝色或绿色时,使用色度键控可以在工作室中轻松完成自动图像合成。然而,具有复杂背景的自然场景中的图像合成仍然是一项繁琐的任务,需要经验丰富的艺术家手工细分。为了在自然场景中实现自动合成,我们提出了一种完全自动化的方法,该方法集成了实例分割和图像消光过程,以生成可用于图像编辑任务的高质量语义遮罩。我们的方法既可以作为现有实例分割算法的改进,也可以作为全自动语义图像消光方法。它将自动图像合成技术(如色度键控)扩展到具有复杂自然背景的场景,而无需进行有形的用户交互。我们的方法的输出可以被认为是精确的实例分割和具有语义含义的alpha遮罩。与现有方法相比,我们提供的实验结果显示出改进的性能结果。
translated by 谷歌翻译
深度神经网络(DNN)以其对adversarialexamples的易受攻击性而闻名。这些都是经过精心设计的小型手册,可以轻易地将DNN误认为是错误分类。到目前为止,对抗性研究的领域主要集中在图像模型上,在白盒设置下,对手可以完全获得模型参数,或者黑盒设置,其中对手只能查询目标模型的概率或标签。虽然已经为视频模型提出了几个白盒攻击,但黑盒视频攻击仍然是不可探索的。为了弥补这一差距,我们提出了第一个黑盒视频攻击框架,称为V-BAD。 V-BAD是基于自然进化策略(NES)的对抗性梯度估计和校正的一般框架。特别地,V-BAD利用从图像模型传递的\ textit {暂定扰动}和由NES oncursition(补丁)发现的临时扰动发现的\ textit {基于分区的校正},以获得对目标模型的较少查询的良好的对抗梯度估计。 V-BAD相当于估计对抗梯度在所选子空间上的投影。使用三个基准视频数据集,我们证明V-BAD可以制作有针对性和有针对性的攻击来欺骗两个最先进的深度视频识别模型。对于目标攻击,它仅使用平均$ 3.4 \ sim 8.4 \次10 ^ 4 $查询达到$> $ 93 \%的成功率,对最先进的黑盒图像攻击的查询次数相似。尽管视频通常比静态图像具有高两个数量级的维度。我们相信V-BAD是一种很有前途的新工具,用于评估和改进视频识别模型对黑盒逆向攻击的鲁棒性。
translated by 谷歌翻译
我们使用用于视频识别的深度模型来解决学习运动表示的挑战性问题。为此,我们利用注意力模块来学习突出视频中的区域和聚合功能以进行识别。具体而言,我们建议利用输出关注度图作为车辆,将学习的表示从运动(流)网络传输到RGB网络。我们系统地研究了注意模块的设计,并开发了一种新的注意蒸馏方法。我们的方法在主要行动基准上进行了评估,并且一直在显着提高基线RGB网络的性能。此外,我们证明了ourattention地图可以利用学习中的运动线索来识别视频帧中的动作位置。我们相信我们的方法为深度模型中的学习运动感知表示提供了一个步骤。
translated by 谷歌翻译
我们考虑为具有交互动态和稀疏可用通信的移动机器人的大型网络寻找分布式控制器的问题。我们的方法是通过在训练时使用全局信息模仿集中控制器的策略来学习本地控制器,这些控制器在测试时仅需要本地信息和本地通信。通过将聚合图神经网络扩展到时变信号和时变网络支持,我们学习了一个通用的本地控制器,它可以通过仅使用本地通信交换来从远程队友那里获取信息。我们将这种方法应用于分散线性二次调节器问题,并观察通信速率和较小网络程度如何增加多跳信息的价值。学习分散式植绒控制器的独立实验证明了随着机器人移动而改变的通信图表的性能。
translated by 谷歌翻译
宽带电磁感应传感器(WEMI)已经在爆炸危险的地下检测中使用了多年。虽然已经证明WEMI传感器有效地定位表现出大的磁响应的物体,但是检测缺少或包含非常少量的导电材料的物体可能是具有挑战性的。在本文中,我们在检测性能方面比较了文献中的一些目标检测算法。在比较中,方法在两个真实世界的数据集上进行测试:一个包含相对较低的地面噪声污染量,另一个包含高磁性土壤干扰。通过接收器 - 操作员特征(ROC)曲线对结果进行定量评估,并用于突出手 - 爆炸危险检测中比较方法的优缺点。
translated by 谷歌翻译
本技术报告记录了计算智能游戏(CIG)2018年Hanabi比赛的获胜者。我们介绍了重新确定IS-MCTS,信息集蒙特卡罗树搜索(IS-MCTS)\ cite {IS-MCTS}的新扩展,它可以防止隐藏信息泄漏到IS-MCTS中可能发生的对手模型中,特别是在Hanabi中重新确定IS-MCTS得分在Hanabi中的分数高于2-4名参与者,而不是之前发表的作品。考虑到每次移动40ms的竞争时间限制,我们使用学习的评估函数来估计叶节点值并避免在MCTS期间的完全模拟。对于混合赛道比赛,其中其他球员的身份未知,使用简单的贝叶斯对手模型,该模型随着每场比赛的进行而更新。
translated by 谷歌翻译
深度学习是图像分类大幅改进的基础。为了提高预测的稳健性,贝叶斯近似已被用于学习深度神经网络中的参数。我们采用另一种方法,通过使用高斯过程作为贝叶斯深度学习模型的构建模块,由于卷积和深层结构的推断,这种模型最近变得可行。我们研究了深度卷积高斯过程,并确定了一个保持逆流性能的问题。为了解决这个问题,我们引入了一个转换敏感卷积内核,它消除了对相同补丁输入的要求相同输出的限制。我们凭经验证明,这种卷积核可以改善浅层和深层模型的性能。在ONMNIST,FASHION-MNIST和CIFAR-10上,我们在准确性方面改进了以前的GP模型,增加了更简单的DNN模型的校准预测概率。
translated by 谷歌翻译