通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
We present the first massively distributed architecture for deepreinforcement learning. This architecture uses four main components: parallelactors that generate new behaviour; parallel learners that are trained fromstored experience; a distributed neural network to represent the value functionor behaviour policy; and a distributed store of experience. We used ourarchitecture to implement the Deep Q-Network algorithm (DQN). Our distributedalgorithm was applied to 49 games from Atari 2600 games from the ArcadeLearning Environment, using identical hyperparameters. Our performancesurpassed non-distributed DQN in 41 of the 49 games and also reduced thewall-time required to achieve these results by an order of magnitude on mostgames.
translated by 谷歌翻译
机器人在越来越复杂的环境中使用,并且有望适应变化和未知情况。最简单,最快捷的方法是改变机器人的控制系统,但对于越来越复杂的环境,人们也应该改变机器人的身体 - 它的形态 - 以更好地适应手头的任务。体验认知的理论认为,控制不是认知的唯一来源,身体,环境,这些与心灵之间的相互作用都有助于认知资源。利用这些概念可以改善适应性,稳健性和多功能性,然而,在现实世界的机器人上执行这些概念会对硬件提出额外的要求,并且与学习控制相比有几个挑战。与进化机器人技术的大部分工作相比,艾本在“进化机器人的巨大挑战”中争论真实世界的实验。这需要能够进行重复实验的强大硬件平台,当不可预见的需求出现时,这些实验同时应该是灵活的。在本文中,我们介绍了具有自适应形态的独特机器人平台。我们讨论了设计时遇到的挑战,以及从现实世界测试和学习中汲取的经验教训。
translated by 谷歌翻译
今天的高风险对抗性互动让攻击者不断突破不断改进的安全措施。欺骗通过误导攻击者做出次优决策来减轻防御者的损失。为了正当理由欺骗,我们引入了特征欺骗游戏(FDG),这是一个独立于领域的游戏理论模型,并提出了学习和规划框架。我们做出以下贡献。 (1)我们表明,我们可以使用来自适度数量的欺骗策略的数据统一学习对手的偏好。 (2)我们提出了一种近似算法,用于找出最优欺骗策略,并证明该问题是NP难的。 (3)我们进行了全面的实验,以实证验证我们的方法和结果。
translated by 谷歌翻译
有人认为跨语言的语义类别反映了有效沟通的压力。最近,这个想法已经按照年龄信息 - 效率理论原理,信息瓶颈(IB)原则来表达,并且已经表明这个原则解释了跨语言的命名颜色类别的出现和演变,包括软结构和模式不一致的命名。但是,尚不清楚这个帐户在多大程度上概括为语义域而不是颜色。在这里,我们展示它推广到两个定性不同的语义域:容器名称和动物名称。首先,我们表明荷兰语和法语中的容器命名在IB意义上接近最优,并且该IB广泛地考虑了两种语言中的软类别和不一致的命名模式。其次,我们表明,从IB衍生出的动物类别的层次结构捕捉了动物分类学增长中的跨语言倾向。总之,这些研究结果表明,有效编码的基本信息理论原则可能会跨语言和跨域形成语义类别。
translated by 谷歌翻译
We extend the fair machine learning literature by considering the problem of proportional centroid clustering in a metric context. For clustering n points with k centers, we define fairness as proportionality to mean that any n/k points are entitled to form their own cluster if there is another center that is closer in distance for all n/k points. We seek clustering solutions to which there are no such justified complaints from any subsets of agents, without assuming any a priori notion of protected subsets. We present and analyze algorithms to efficiently compute, optimize, and audit proportional solutions. We conclude with an empirical examination of the tradeoff between proportional solutions and the k-means objective.
translated by 谷歌翻译
数据增强(DA)通常在模型训练期间使用,因为它显着改善了测试误差和模型稳健性。 DA通过对输入数据应用随机噪声,旋转,作物或甚至对抗扰动来人工扩展训练集。虽然DA被广泛使用,但其能够证明可靠性提高稳健性尚不完全清楚。在这项工作中,我们通过量化DA对经验风险最小化者的利润来分析DA所带来的稳健性。我们首先关注线性分离器,然后是一类非线性模型,其标记在数据点的小凸包内是恒定的。我们给出了非零边际所需的增广数据点数量的下限,并表明常用的DA技术在向数据集中添加指数多个点后才会引入显着的余量。
translated by 谷歌翻译
最近使用二维wordembedding的Super Characters方法的工作在文本分类任务中获得了最先进的结果,展示了这种新方法的前景。本文借鉴了超字符方法和二维嵌入的思想,提出了一种生成开放域对话的会话响应的方法。公共数据集的实验结果表明,所提出的SuperChat方法可以产生高质量的响应。交互式演示已准备好在研讨会上展示。
translated by 谷歌翻译
域生成算法(DGAs)通常由恶意软件创建域名列表来利用,这些域名列表可用于命令和控制(C&C)目的。最近开发了基于机器学习的方法以实时地自动检测生成的域名。在这项工作中,我们提出了一个名为CharBot的新型DGA,它能够生成大量未注册的域名,这些域名未被最先进的分类器检测用于实时检测DGAs,包括最近发布的方法FANCI(基于随机森林)关于人工工程特征)和LSTM.MI(深度学习方法)。 CharBot非常简单,有效,需要了解目标DGA分类器。我们证明在CharBot样本上重新分类分类器并不是一种可行的防御策略。我们相信这些研究结果表明,如果DGA分类器仅仅依靠域名字符串来进行判断,则它们本身就容易受到对抗性攻击。因此,设计健壮的DGA分类器可能需要仅使用域名之外的其他信息。据我们所知,CharBot是迄今为止提出的针对DGA分类器的最简单,最有效的黑盒逆向攻击。
translated by 谷歌翻译
我们描述了一种新的语义分析设置,允许用户使用自然语言问题和图形用户界面中的动作来查询系统。属于感兴趣的实体的多个时间序列存储在数据库中,并且用户与系统交互以获得对实体的状态和行为的更好理解,引入响应和问题的序列,其答案可能取决于先前的事实或导航交互。我们设计了一种基于LSTM的编码器 - 解码器架构,它通过复制机制和输入和先前输出的多个关注级别来模拟上下文依赖性。当训练使用监督学习来预测令牌时,所提出的架构基本上优于标准序列生成基线。使用policygradient对架构进行培训可以进一步提高性能,使人工数据的准确率达到88.7%,实际数据达到74.8%。
translated by 谷歌翻译