强化学习的一个关键挑战是能够在控制问题中概括知识。虽然深度学习方法已成功地与无模型强化学习算法相结合,但如何在存在近似误差的情况下执行基于模型的强化学习仍然是一个悬而未决的问题。使用后继特征,一种预测时间约束的特征表示,本文提出了三种贡献:首先,它展示了学习后继特征如何是等效的无模型学习。然后,它显示了后继功能如何编码通过创建两个相似状态的状态分区来压缩状态空间的模型减少。使用此表示,保证智能代理准确预测未来的奖励结果,这是基于模型的执行学习算法的关键属性。最后,它提出了一个损失目标和预测误差界限,表明通过近似的后继特征可以准确地预测值函数和回报序列。无限控制问题,我们说明如何最小化这种损失目标导致近似互模拟。本文提出的结果提供了对表示的新颖理解,可以支持无模型和基于模型的强化学习。
translated by 谷歌翻译
具有不准确的环境模型的代理面临困难的选择:它可以忽略其模型中的错误并且在现实世界中以其确定的关于其模型的最佳方式行事。或者,它可以采取更保守的立场,避开其模型,转而仅仅通过现实世界的互动来优化其行为。后一种方法可以非常慢地从经验中学习,而前者可以导致“计划者过度拟合” - 代理人行为的各个方面被优化以利用其模型中的错误。本文探讨了一个中间立场,即规划者试图通过其所考虑的计划的一种正规化来避免过度拟合。我们提出了三种不同的方法,可以显着减轻强化学习环境中的计划者过度拟合。
translated by 谷歌翻译
强化学习中的一个关键问题是代理可以在哪些表示中有效地在不同任务之间重用知识。最近,对于具有共享转换动态的任务之间转移知识,已经证明了接入者表示具有经验益处。本文介绍了模型特征:一种特征表示,其集群在行为上等同于状态,并且等同于模型简化。此外,我们提出了一个继承人特征模型,它表明学习后继特征等同于学习模型减少。我们开发了一个新的优化目标,并且我们提供的界限表明,最小化该目标会导致模型减少的近似得到越来越多的改进。此外,我们提供了随机生成的MDP的转移实验,这些MDP在转换和奖励函数方面有所不同,但大致保持了状态之间的行为等效性。这些结果表明,模型特征适用于具有不同转换和奖励功能的任务之间的转移。
translated by 谷歌翻译
无监督的视觉表示学习在计算机视觉研究中仍然是一个很大程度上未解决的问题。在最近提出的用于无监督学习视觉表示的方法中,一类自我监督技术在许多具有挑战性的基准上实现了卓越的性能。已经研究了大量的自我监督学习的前提任务,但其他重要的方面,如卷积神经网络(CNN)的选择,并没有得到同等的关注。因此,我们重新审视了许多以前提出的自我监督模型,进行彻底的大规模研究,结果发现了多个关键的问题。我们挑战了自我监督的视觉表现学习中的一些常见实践,并观察到CNN设计的标准配方并不总是转化为自我监督的表征学习。作为我们研究的一部分,我们大大提高了先前提出的技术的性能,并且大大优于以前发布的最先进的结果。
translated by 谷歌翻译
它不断的技术演变是当代世界的特征,每天一旦手动,这些过程就变成了计算机化的过程。数据存储在网络空间中,因此,必须增加对这种环境的安全性的关注。网络攻击的代表是世界范围内不断扩大的规模,其特点是本世纪的重大挑战之一。本文旨在提出一种基于智能混合模型的计算系统,该模型通过模糊规则允许在控制论数据攻击中构建专家系统,重点关注SQL Injection攻击。使用模糊神经网络,在政府计算机上使用SQL注入攻击的真实基础进行测试。根据得到的结果,构建基于模糊规则的系统的可行性,在标准偏差范围内的控制论入侵的分类准确性(与解决这类问题的最新模型相比)是真实的。该模型帮助各国准备保护其数据网络和信息系统,并为专家系统创造机会,以自动识别网络空间中的攻击。
translated by 谷歌翻译
近年来,对自然图像的生成建模进行了广泛的研究,取得了显着的进展。目前最先进的方法是基于最大似然估计或对抗训练。两种方法都有其自身的缺点,这些缺点本质上是互补的。第一个引发过度概括作为最大似然标准鼓励模型通过严重惩罚分配给训练数据的小块来覆盖训练数据的支持。简化这些模型中的假设限制了它们的容量,并使它们在不切实际的样品上溢出。由于对抗性训练鼓励模型中的高质量样本,但第二次导致模式下降,但只是间接地强制实例之间的多样性。为了克服这些缺点,我们做出了两个贡献。首先,我们通过使用确定性可逆变换层来对变分自动编码器模型进行新的扩展,以将来自解码的样本映射到图像空间。这引起了给定后变量的像素之间的相关性,改进了常用的因子解码器。其次,我们提出了一种利用覆盖范围和质量标准的培训方法。我们的模型获得的可能性评分与基于模型的基于模型的模型竞争,同时获得典型的经过对侧训练的网络的样本质量。
translated by 谷歌翻译
本文介绍了一种简单快速的Planet Wars变体,作为基于统计规划的游戏AI代理的测试平台,以及嘈杂的超参数优化。 Planet Wars是一款实时策略游戏,具有简单的规则但复杂的游戏玩法。本文介绍的变体旨在实现高效实验,并且还可以通过固定动作空间实现与通用视频游戏AI代理的实际互操作性。如果将游戏作为一个输赢游戏(这是标准的)来进行游戏,那么这将导致在调整代理中玩游戏以及调整游戏参数时的嘈杂优化问题。在这里,我们关注调整代理的问题,并使用最近开发的N-Tuple Bandit EvolutionaryAlgorithm和许多其他优化器(包括基于顺序模型的算法配置(SMAC))来报告结果。结果表明,N-Tuple BanditEvolutionary提供了竞争性能以及对参数选择组合的影响的洞察力。
translated by 谷歌翻译
用于训练神经网络分类器的标准损失函数,分类交叉熵(CCE),旨在最大化训练数据的准确性;建立有用的表示不是这个目标的必要副产品。在这项工作中,我们提出了面向聚类的表示学习(COREL)作为广义吸引 - 排斥损失框架背景下CCE的替代方案。根据预定义的相似性函数,COREL具有建筑物表示的结果,这些表示在最终隐藏层的潜在空间内共同表现出自然聚类的质量。尽管易于实现,但COREL变量在各种情况下都优于CCE或与CCE等效,包括使用前馈和卷积神经网络的图像和新闻文章分类。利用不同相似度函数创建的潜在空间的分析有助于洞察不同的用例COREL变体可以满足,其中Cosine-COREL变体形成一致可包含的潜在空间,而Gaussian-COREL始终获得比CCE更好的分类准确度。
translated by 谷歌翻译
构建能够生成结构化输出的模型是AI和机器人技术的关键挑战。虽然已经在许多类型的数据上探索了生成模型,但是在合成激光雷达扫描方面做的工作很少,这在机器人绘图和定位中起着关键作用。在这项工作中,我们展示了通过将激光雷达扫描解开为多通道2D信号,可以为这项任务进行深入的生成模型。我们的方法可以生成高质量的样本,同时学习有意义的潜在数据表示。此外,我们证明了我们的方法对噪声输入是鲁棒的 - 经过学习的模型可以从看似有效的数据中恢复潜在的激光雷达扫描。
translated by 谷歌翻译
在一些国家,管理慢性病患者是一项重大且不断增长的医疗保健挑战。慢性疾病,例如糖尿病,是持续很长时间且不会消失的疾病,并且经常导致患者的健康逐渐恶化。虽然最近的工作涉及来自医院的rawelectronic健康记录(EHR),但这项工作仅使用健康计划提供者的财务记录来预测糖尿病疾病的演变,并使用自我注意的复发神经网络。财务数据的使用是由于成为国际标准的接口的可能性,因为标准编码医疗程序。主要目标是评估高危糖尿病患者,因此我们预测与糖尿病急性并发症相关的记录,如截肢和清创,血运重建和血液透析。我们的工作成功地预测了60到240天之间的并发症,ROC曲线范围从0.81到0.94。在本文中,我们描述了在健康计划提供者中开发的正在进行的工作的第一部分,ROC曲线的范围从0.81到0.83。这项评估将为医疗保健提供更早进行干预并避免住院治疗的机会。我们的目标是为个体患者提供个性化预测和个性化建议,目标是改善结果并降低成本
translated by 谷歌翻译