近年来,深度强化学习(RL)算法取得了长足的进步。一个重要的剩余挑战是能够快速将技能转化为新任务,并将现有技能与新获得的技能相结合。在通过组合技能解决任务的领域中,这种能力有望大幅降低深度RL算法的数据要求,从而提高其适用性。最近的工作已经研究了以行动 - 价值函数的形式表现出行为的方式。我们分析这些方法以突出它们的优势和弱点,并指出每种方法都容易出现性能不佳的情况。为了进行这种分析,我们将广义策略改进扩展到最大熵框架,并介绍了在连续动作空间中实现后继特征的实际方法。然后我们提出了一种新方法,原则上可以恢复最佳的policyduring转移。该方法通过明确地学习策略之间的(折扣的,未来的)差异来工作。我们在表格案例中研究了这种方法,并提出了一种适用于多维连续动作空间的可扩展变体。我们将我们的方法与现有的方法进行比较,讨论一系列具有组成结构的非平凡连续控制问题,并且尽管不需要同时观察所有任务奖励,但仍能在质量上更好地表现。
translated by 谷歌翻译
具有函数逼近的时间差异学习(TD)[Sutton,1988]可以收敛到比Monte-Carloregression所获得的解更差的解,即使在政策评估的简单情况下也是如此。为了增加对问题的理解,我们研究了值函数的尖锐不连续区域中的近似误差问题,这些区域由引导程序更新进一步传播。我们展示了这种泄漏传播的经验证据,并且在一个简单的Markovchain中,当存在函数逼近误差时,它在分析上表明它必须发生。对于可逆政策,结果可以解释为TD最小化的两个损失函数项之间的张力,如[Ollivier,2018]最近所描述的。我们证明了[Tsitsiklis和Van Roy,1997]的上限,但它们不仅仅是泄漏传播发生在什么条件下。最后,我们测试是否可以通过更好的状态表示来缓解问题,以及是否可以以无人监督的方式学习,没有奖励或特权信息。
translated by 谷歌翻译
在安全关键设置中使用强化学习的愿望引起了最近对学习算法的正式方法的兴趣。用于学习和优化的现有形式方法主要考虑约束学习或约束优化的问题。给定单一正确的模式与安全约束相关,这些方法保证了有效学习,同时可证明避免了安全约束之外的行为。表现良好的环境模型是安全学习的重要先决条件,但对于在复杂的异构环境中运行的系统来说,最终是不够的。本文介绍了验证保留模式,这是在多个环境模型必须考虑的环境中获得正式安全保证的第一种方法。通过结合设计时模型更新和运行时模型伪造,我们提供了第一种方法,用于获取在异质环境中作用的自治系统的形式安全性证明。
translated by 谷歌翻译
跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
结直肠肝转移是最具侵袭性的肝脏恶性肿瘤之一。虽然基于CT图像的病变类型的定义决定了诊断和治疗策略,但是癌症和非癌性病变之间的区分是关键的并且需要高度熟练的专业知识,经验和时间。在目前的工作中,我们引入了端到端的深度学习方法,以帮助区分肝脏的腹部CT图像中的结直肠癌和良性囊肿的肝转移。 Ourapproach结合了InceptionV3的高效特征提取,结合了ImageNet的残余连接和预先训练的权重。该体系结构还包括完全连接的分类层,以生成病变类型的概率输出。我们使用一个内部临床生物库,其中有来自63名患者的230个肝脏病变。精确度为0.96,aF1得分为0.92,用所提出的方法获得的结果超过了现有技术的方法。我们的工作为将机器学习工具纳入专业放射学软件提供了基础,以帮助医生早期发现和治疗肝脏病变。
translated by 谷歌翻译
在多智能体场景中学习是一个富有成效的研究方向,但是当前的方法仍然在具有一般奖励设置和不同对手类型的多个游戏中显示可伸缩性问题。 Malm \“O(MARL \”O)竞赛中的Multi-AgentReinforcement Learning是一项新的挑战,它提出了使用多个3D游戏在该领域进行研究的新挑战。此次测试的目标是促进可以在不同游戏和对手类型中学习的一般代理人的研究,提出挑战作为人工智能通用方向的里程碑。
translated by 谷歌翻译
用于训练神经网络分类器的标准损失函数,分类交叉熵(CCE),旨在最大化训练数据的准确性;建立有用的表示不是这个目标的必要副产品。在这项工作中,我们提出了面向聚类的表示学习(COREL)作为广义吸引 - 排斥损失框架背景下CCE的替代方案。根据预定义的相似性函数,COREL具有建筑物表示的结果,这些表示在最终隐藏层的潜在空间内共同表现出自然聚类的质量。尽管易于实现,但COREL变量在各种情况下都优于CCE或与CCE等效,包括使用前馈和卷积神经网络的图像和新闻文章分类。利用不同相似度函数创建的潜在空间的分析有助于洞察不同的用例COREL变体可以满足,其中Cosine-COREL变体形成一致可包含的潜在空间,而Gaussian-COREL始终获得比CCE更好的分类准确度。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
最近已经引入了规范建模作为一种有希望的方法,其形成了跨越个体的神经成像测量的变化,以便实现精神疾病的生物标志物。当前的实现依赖于高斯过程回归,其提供该方法所需的不确定性的相干估计,但也存在缺点,包括对大数据集的不良缩放以及对固定参数内核的依赖。在本文中,我们提出了一个基于神经过程(NPs)的深层规范建模框架来解决这些问题。为实现这一目标,我们定义了混合效应模型的随机过程表达,并展示了如何采用NPs对神经成像数据进行空间结构的混合效应建模。这使得能够通过全局潜变量学习随机效应和噪声的最佳特征表示和协方差结构。在该方案中,可以通过从这些全局潜在变量的分布中抽样来近似预测不确定性。在公开可用的临床fMRI数据集上,我们将通过所提出的NP方法估计的多变量规范模型的新颖性检测性能与基线多任务高斯过程回归方法进行比较,并显示出对某些诊断问题的实质性改进。
translated by 谷歌翻译
尖峰神经网络(SNN)是分布式系统,其计算元件或神经元的特征在于模拟内部动力学和数字和稀疏的神经元间或突触通信。与传统的人工神经网络(ANN)相比,硬件实现可以利用突触尖峰输入的稀疏性和神经处理的相应事件驱动性质来获得显着的能量减少。 SNN不仅可以用作协处理器来执行给定的计算任务,例如分类,还可以用作基于数据和学习标准调整其内部参数(例如,它们的突触权重)的学习机器。本文从随机信号处理的角度概述了SNN的模型,学习规则和应用。
translated by 谷歌翻译