强化学习的一个关键挑战是能够在控制问题中概括知识。虽然深度学习方法已成功地与无模型强化学习算法相结合,但如何在存在近似误差的情况下执行基于模型的强化学习仍然是一个悬而未决的问题。使用后继特征,一种预测时间约束的特征表示,本文提出了三种贡献:首先,它展示了学习后继特征如何是等效的无模型学习。然后,它显示了后继功能如何编码通过创建两个相似状态的状态分区来压缩状态空间的模型减少。使用此表示,保证智能代理准确预测未来的奖励结果,这是基于模型的执行学习算法的关键属性。最后,它提出了一个损失目标和预测误差界限,表明通过近似的后继特征可以准确地预测值函数和回报序列。无限控制问题,我们说明如何最小化这种损失目标导致近似互模拟。本文提出的结果提供了对表示的新颖理解,可以支持无模型和基于模型的强化学习。
translated by 谷歌翻译
具有不准确的环境模型的代理面临困难的选择:它可以忽略其模型中的错误并且在现实世界中以其确定的关于其模型的最佳方式行事。或者,它可以采取更保守的立场,避开其模型,转而仅仅通过现实世界的互动来优化其行为。后一种方法可以非常慢地从经验中学习,而前者可以导致“计划者过度拟合” - 代理人行为的各个方面被优化以利用其模型中的错误。本文探讨了一个中间立场,即规划者试图通过其所考虑的计划的一种正规化来避免过度拟合。我们提出了三种不同的方法,可以显着减轻强化学习环境中的计划者过度拟合。
translated by 谷歌翻译
强化学习中的一个关键问题是代理可以在哪些表示中有效地在不同任务之间重用知识。最近,对于具有共享转换动态的任务之间转移知识,已经证明了接入者表示具有经验益处。本文介绍了模型特征:一种特征表示,其集群在行为上等同于状态,并且等同于模型简化。此外,我们提出了一个继承人特征模型,它表明学习后继特征等同于学习模型减少。我们开发了一个新的优化目标,并且我们提供的界限表明,最小化该目标会导致模型减少的近似得到越来越多的改进。此外,我们提供了随机生成的MDP的转移实验,这些MDP在转换和奖励函数方面有所不同,但大致保持了状态之间的行为等效性。这些结果表明,模型特征适用于具有不同转换和奖励功能的任务之间的转移。
translated by 谷歌翻译
这项工作解决了从未标记的语音记录中学习一组语言特定的声学单元的问题,给出了一组来自其他语言的标记记录。我们的方法可以通过以下两个步骤来描述:首先,模型从标记的数据中学习声学单元的概念,然后模型使用其知识在目标语言中找到新的声学单元。我们用贝叶斯子空间隐马尔可夫模型(SHMM)实现这个过程,这是一个类似于子空间高斯混合模型(SGMM)的模型,其中每个低维嵌入代表一个声学单元,而不仅仅是HMM的状态。子空间使用全球电话语料库(德语,波兰语和西班牙语)的3种语言进行训练,并在TIMIT语料库中发现AU。以等效电话错误率测量的结果表明,该方法明显优于以前基于HMM的声学单元发现系统,并且与变分自动编码器-HMM相比具有优势。
translated by 谷歌翻译
基于游戏的基准测试在人工智能(AI)技术的开发中发挥了重要作用。提供各种挑战是推动现代技术创新和理解研究的关键。 Rinascimento提供参数化的部分可观察的基于多人牌的棋盘游戏,这些参数可以轻松修改游戏中的规则,目标和物品。我们描述了所有功能的框架和游戏挑战,提供基线游戏AI和分析他们的技能。我们保留了代理商在实验中的超参数调整中心角色,突出了它如何能够严重影响性能。基线代理包含对统计前向规划算法的若干额外贡献。
translated by 谷歌翻译
本文研究了学习正演模型对统计前瞻计划代理人绩效的影响。我们将康威的Gameof Life模拟转变为单人游戏,其中目标可以保持尽可能多的生命,或尽可能快地熄灭所有生命。为了学习游戏的正向模型,我们通过创建一组监督训练数据并根据其当前状态和近邻预测网格中每个单元的下一个状态,以一种新颖的方式来研究问题,即学习本地单元转换功能。 。使用这种方法,我们可以通过使用查找表,决策树或神经网络观察几个完整的状态转换来收集足够的数据来学习完美的正演模型。相比之下,学习完整的状态转换函数是一项非常艰难的任务,我们使用深度卷积自动编码器完成此任务的初步努力不太成功。我们还研究了不完全学习模型对预测误差和游戏性能的影响,并表明即使是具有显着性的模型也可以提供良好的性能。
translated by 谷歌翻译
无监督的视觉表示学习在计算机视觉研究中仍然是一个很大程度上未解决的问题。在最近提出的用于无监督学习视觉表示的方法中,一类自我监督技术在许多具有挑战性的基准上实现了卓越的性能。已经研究了大量的自我监督学习的前提任务,但其他重要的方面,如卷积神经网络(CNN)的选择,并没有得到同等的关注。因此,我们重新审视了许多以前提出的自我监督模型,进行彻底的大规模研究,结果发现了多个关键的问题。我们挑战了自我监督的视觉表现学习中的一些常见实践,并观察到CNN设计的标准配方并不总是转化为自我监督的表征学习。作为我们研究的一部分,我们大大提高了先前提出的技术的性能,并且大大优于以前发布的最先进的结果。
translated by 谷歌翻译
它不断的技术演变是当代世界的特征,每天一旦手动,这些过程就变成了计算机化的过程。数据存储在网络空间中,因此,必须增加对这种环境的安全性的关注。网络攻击的代表是世界范围内不断扩大的规模,其特点是本世纪的重大挑战之一。本文旨在提出一种基于智能混合模型的计算系统,该模型通过模糊规则允许在控制论数据攻击中构建专家系统,重点关注SQL Injection攻击。使用模糊神经网络,在政府计算机上使用SQL注入攻击的真实基础进行测试。根据得到的结果,构建基于模糊规则的系统的可行性,在标准偏差范围内的控制论入侵的分类准确性(与解决这类问题的最新模型相比)是真实的。该模型帮助各国准备保护其数据网络和信息系统,并为专家系统创造机会,以自动识别网络空间中的攻击。
translated by 谷歌翻译
本文介绍了一种简单快速的Planet Wars变体,作为基于统计规划的游戏AI代理的测试平台,以及嘈杂的超参数优化。 Planet Wars是一款实时策略游戏,具有简单的规则但复杂的游戏玩法。本文介绍的变体旨在实现高效实验,并且还可以通过固定动作空间实现与通用视频游戏AI代理的实际互操作性。如果将游戏作为一个输赢游戏(这是标准的)来进行游戏,那么这将导致在调整代理中玩游戏以及调整游戏参数时的嘈杂优化问题。在这里,我们关注调整代理的问题,并使用最近开发的N-Tuple Bandit EvolutionaryAlgorithm和许多其他优化器(包括基于顺序模型的算法配置(SMAC))来报告结果。结果表明,N-Tuple BanditEvolutionary提供了竞争性能以及对参数选择组合的影响的洞察力。
translated by 谷歌翻译
用于训练神经网络分类器的标准损失函数,分类交叉熵(CCE),旨在最大化训练数据的准确性;建立有用的表示不是这个目标的必要副产品。在这项工作中,我们提出了面向聚类的表示学习(COREL)作为广义吸引 - 排斥损失框架背景下CCE的替代方案。根据预定义的相似性函数,COREL具有建筑物表示的结果,这些表示在最终隐藏层的潜在空间内共同表现出自然聚类的质量。尽管易于实现,但COREL变量在各种情况下都优于CCE或与CCE等效,包括使用前馈和卷积神经网络的图像和新闻文章分类。利用不同相似度函数创建的潜在空间的分析有助于洞察不同的用例COREL变体可以满足,其中Cosine-COREL变体形成一致可包含的潜在空间,而Gaussian-COREL始终获得比CCE更好的分类准确度。
translated by 谷歌翻译