跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
强化学习(RL)代理同时学习许多奖励功能的能力具有许多潜在的好处,例如将复杂任务分解为更简单的任务,任务之间的信息交换以及技能的重用。我们特别关注一个方面,即能够推广到看不见的任务。参数泛化依赖于函数逼近器的插值功率,该函数逼近器被赋予任务描述作为输入;其最常见的形式之一是通用值函数逼近器(UVFA)。推广到新任务的另一种方法是在RL问题本身中开发结构。广义策略改进(GPI)将先前任务的解决方案组合到针对看不见的任务的策略中;这依赖于新向下功能下的旧策略的即时策略评估,这通过后继特征(SF)实现。我们提出的通用后继特征近似器(USFAs)结合了所有这些的优点,即UVFAs的可扩展性,SF的即时参考,以及GPI的强大推广。我们讨论了培训USFA所涉及的挑战,其泛化属性,并证明其实际利益和转移能力在一个大规模的领域,其中代理人必须在第一人称视角三维环境中导航。
translated by 谷歌翻译
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性,可变预后和各种异质性组织亚区域,即肿瘤周围水肿/侵入组织,坏死核心,活性和非增强核心。这种内在的异质性也被用于它们的放射性表型,因为它们的子区域通过在多参数磁共振成像(mpMRI)扫描中传播的不同强度分布来描绘,反映了不同的生物学特性。它们的异质形状,范围和位置是其中的一部分。使这些肿瘤难以切除的因素,在某些情况下无法手术。切除肿瘤的数量也是纵向扫描中考虑的一个因素,用于评估表观肿瘤以进行潜在的进展诊断。此外,有越来越多的证据表明,各种肿瘤亚区域的准确分割可以为定量图像分析提供预测患者整体的基础。生存。该研究评估了在国际脑肿瘤分割(BraTS)挑战的最后七个实例(即2012-2018)期间用于mpMRI扫描中的脑肿瘤图像分析的最先进的机器学习(ML)方法。具体而言,我们专注于i)评估术前mpMRI扫描中各种神经胶质瘤亚区的分割,ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤进展,超出RECIST标准的使用,以及iii)预测整体术前mpMRI扫描对经历完全切除的患者的生存率。最后,我们研究了为每个任务确定最佳ML算法的挑战,考虑到除了在每个挑战实例上多样化之外,多机构mpMRI BraTS数据集也是一个不断发展/不断发展的数据集。
translated by 谷歌翻译
在本文中,我们提出了一种新颖的系统,通过利用来自目标扬声器的参考信号,将目标扬声器的声音与多扬声器信号分开。我们通过训练两个独立的神经网络来实现这一目标:(1)一个说话人识别网络,它可以产生说话者辨别的内容; (2)一个频谱图屏蔽网络,它将噪声频谱编码器和扬声器嵌入作为输入,并产生一个掩码。我们的系统显着降低了多扬声器信号的语音识别WER,对单扬声器信号的WER降级最小。
translated by 谷歌翻译
在本文中,我们提出了一种全监督扬声器二值化方法,称为无界交错状态递归神经网络(UIS-RNN)。来自输入容量的提取的说话者判别嵌入(a.k.a.d-向量),每个单独的说话者由参数共享RNN建模,而不同说话者的RNN状态在时域中交织。 ThisRNN自然地与距离相关的中国餐馆进程(ddCRP)集成,以容纳未知数量的发言者。我们的系统受到严格监督,并能够从带有时间标记的扬声器标签的示例中学习。我们在NIST SRE2000 CALLHOME上实现了7.6%的diarization错误率,这比使用光谱聚类的最先进方法更好。此外,我们的方法以在线方式解码,而大多数最先进的系统依赖于离线群集。
translated by 谷歌翻译
We propose a distributed architecture for deep reinforcement learning atscale, that enables agents to learn effectively from orders of magnitude moredata than previously possible. The algorithm decouples acting from learning:the actors interact with their own instances of the environment by selectingactions according to a shared neural network, and accumulate the resultingexperience in a shared experience replay memory; the learner replays samples ofexperience and updates the neural network. The architecture relies onprioritized experience replay to focus only on the most significant datagenerated by the actors. Our architecture substantially improves the state ofthe art on the Arcade Learning Environment, achieving better final performancein a fraction of the wall-clock training time.
translated by 谷歌翻译
一些真实世界的域名最好被描述为单一任务,但对于其他人而言,这种观点是有限的。相反,一些任务不断增加不复杂性,与代理人的能力相结合。在不断学习中,也被认为是终身学习,没有明确的任务边界或课程。随着学习代理变得越来越强大,持续学习仍然是阻碍快速进步的前沿之一。为了测试连续学习能力,我们考虑具有明确的任务序列和稀疏奖励的具有挑战性的3D域。我们提出了一种名为Unicorn的新型代理体系结构,它展示了强大的持续学习能力,并在拟议的领域中表现出优秀的几个基线代理。代理通过使用并行的非策略学习设置,有效地共同表示和学习多个策略来实现这一目标。
translated by 谷歌翻译
大多数深度强化学习算法在复杂和丰富的环境中数据效率低,限制了它们在许多场景中的适用性。用于提高数据效率的唯一方向是使用共享神经网络参数的多任务学习,其中可以通过跨交叉相关任务来提高效率。然而,在实践中,通常不会观察到这种情况,因为来自不同任务的渐变可能会产生负面干扰,导致学习不稳定,有时甚至会降低数据效率。另一个问题是任务之间的不同奖励方案,这很容易导致一个任务确定共享模型的学习。我们提出了一种新的联合训练方法,我们称之为Distral(Distill&transferlearning)。我们建议分享一个捕获常见行为的“蒸馏”策略,而不是在不同的工作者之间共享参数。每个工人都经过培训,可以解决自己的任务,同时受限于保持对共享政策的控制,而共享政策则通过蒸馏培训成为所有任务政策的质心。学习过程的两个方面都是通过优化联合目标函数得出的。我们表明,我们的方法支持在复杂的3D环境中进行有效传输,优于多个相关方法。此外,所提出的学习过程更加健壮且更加稳定 - 这些属性在深层强化学习中至关重要。
translated by 谷歌翻译
Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
以顺序方式学习任务的能力对于人工智能的发展至关重要。一般而言,神经网络不具备此功能,并且人们普遍认为灾难性遗忘是连接模型的必然特征。我们表明,有可能克服这种限制并培养能够保持他们长期没有经历过的专业知识的网络。我们的方法通过有选择地减慢重量重要任务的权重学习来记住任务。我们通过基于MNIST手写数字数据集解决一组分类任务并依次学习几个Atari 2600游戏,证明我们的方法是可扩展和有效的。
translated by 谷歌翻译