通过使用深度神经网络作为函数准直器直接从原始输入图像学习,深度强化学习(深度RL)已经实现了优越的性能不复杂的顺序任务。然而,从原始图像直接学习数据是低效的。除了学习策略之外,代理还必须学习复杂状态的特征表示。因此,深度RL通常会受到学习速度慢的影响,并且通常需要大量的培训时间和数据来达到合理的性能,这使得它不适用于数据昂贵的实际环境。在这项工作中,我们通过解决两个学习目标 - 特征学习中的一个来提高深度RL中的数据效率。我们利用监督学习对一小部分非专家人类演示进行预训练,并使用Atari领域中的异步优势行为者 - 关键算法(A3C)来验证我们的方法。我们的结果显示学习速度有了显着提高,即使所提供的演示是嘈杂和低质量的。
translated by 谷歌翻译
处理神经网络的统计无效率的一种方法是依靠辅助损失来帮助建立有用的表示。但是,要知道辅助任务是否对主任务有用以及何时可能开始受到伤害并不总是微不足道的。我们建议使用任务梯度之间的余弦相似性作为自适应权重来检测辅助损失何时有助于主要损失。我们证明了我们的方法可以保证收敛到主要任务的关键点,并证明了所提算法在几个领域的实用性:ImageNet子集上的多任务监督学习,强化学习ongridworld,以及Atari游戏的强化学习。
translated by 谷歌翻译
While model-based deep reinforcement learning (RL) holds great promise for sample efficiency and generalization, learning an accurate dynamics model is often challenging and requires substantial interaction with the environment. A wide variety of domains have dynamics that share common foundations like the laws of classical mechanics , which are rarely exploited by existing algorithms. In fact, humans continuously acquire and use such dynamics priors to easily adapt to operating in new environments. In this work, we propose an approach to learn task-agnostic dynamics priors from videos and incorporate them into an RL agent. Our method involves pre-training a frame predictor on task-agnostic physics videos to initialize dynamics models (and fine-tune them) for unseen target environments. Our frame prediction architecture, SpatialNet, is designed specifically to capture localized physical phenomena and interactions. Our approach allows for both faster policy learning and convergence to better policies, outperforming competitive approaches on several different environments. We also demonstrate that incorporating this prior allows for more effective transfer between environments.
translated by 谷歌翻译
近年来,深度学习在高光谱图像(HSI)分类方面取得了很大进展。特别是长短期记忆(LSTM)作为一种特殊的深度学习结构,在视频时间维度或HSI谱维数的长期依赖性建模方面表现出了很强的能力。但是,空间信息的丢失使其变得相当困难。获得更好的表现。为了解决这个问题,提出了两种新的深度模型,通过首次利用卷积LSTM(ConvLSTM)来提取更具辨别力的空间光谱特征。通过将局部滑动窗口中的数据片作为每个存储器单元带的输入,LSTM的2-D扩展体系结构被考虑用于构建空间光谱ConvLSTM 2-D神经网络(SSCL2DNN)来模拟远程依赖性。谱域。为了更有效地利用空间和光谱信息来提取更具判别性的空间光谱特征表示,通过将LSTM扩展到3-D版本,进一步提出了空间光谱ConvLSTM 3-DNeural网络(SSCL3DNN)。使用HSI数据集,证明所提出的深度模型具有一定的竞争优势,并且可以提供比其他最先进的方法更好的分类性能。
translated by 谷歌翻译
人工智能(AI)研究人员声称他们在临床领域已经取得了巨大成功。然而,临床医生指出,所谓的“实现”并没有能力实施到自然临床环境中。导致这一巨大差距的根本原因是人工智能系统开发人员在没有医学背景的情况下忽略了自然临床任务的许多基本功能。在本文中,我们提出临床基准测试套件是捕获世界临床任务基本特征的新方向和有希望的方向,因此有资格指导AI系统的开发,促进AI在现实世界临床实践中的实施。
translated by 谷歌翻译
变化检测(CD)是遥感的重要应用,它提供了大规模地球表面的及时变化信息。随着高光谱图像的出现,CD技术得到了极大的推广,具有高光谱分辨率的高光谱数据能够检测到比使用传统多光谱图像更精细的变化。然而,高光谱数据的高维度使得难以实现传统的CD算法。此外,子像素级别的端元丰度信息通常没有得到充分利用。为了更好地处理高维问题并探索丰度信息,本文提出了一种用于高光谱图像交换检测(HSI-CD)的通用端到端二维CNN(GETNET)框架。这项工作的主要贡献有三个方面:1)引入了集成子像素表示的混合亲和矩阵,以挖掘更多的跨通道梯度特征并融合多源信息; 2)2-D CNN旨在有效地从多个信息中学习判别特征 - 更高层次的数据源,增强了所提出的CD算法的泛化能力; 3)设计了一种新的HSI-CD数据集,用于不同方法的目标比较。对真实高光谱数据集的实验结果表明,所提出的方法优于大多数现有技术。
translated by 谷歌翻译
许多应用程序(例如文本建模,高通量排序和重新命令系统)需要分析稀疏,高维和过度分散的离散(计数/二进制)数据。由于具有处理高维和稀疏离散数据的能力,基于概率矩阵因子化和潜在因子分析的模型在模拟这些数据方面取得了巨大成功。其中特别感兴趣的是分层贝叶斯计数/二元矩阵因子分解模型和基于深度神经网络的非线性潜变量模型,例如最近提出的用于离散数据的变换编码器。然而,与对稀疏性和高维性的广泛研究不同,大规模离散数据表现出的另一个重要现象 - 过度离散,相对较少研究。可以看出,大多数现有潜在因子模型由于它们对自激和交叉激励(例如,文本中的单词突发性)建模的无效性而不能正确地捕获过度离散的独立数据,这可能导致较差的模型性能。在本文中,我们提供了一个深入的分析,如何在现有模型中建模自激和交叉激励,并提出一个新的变分自动编码器框架,它能够明确地捕获自激和更好的模型交叉激励。我们的模型构造最初设计用于具有负二项式数据分布的计数值观测(以及具有狄利克雷多项式分布的等效表示),并且它还通过链接函数无缝地扩展到二值观测值到伯努利分布。来证明有效性。在我们的框架中,我们对大型词袋语料库和协同过滤数据集进行了广泛的实验,其中所提出的模型实现了最先进的结果。
translated by 谷歌翻译
当前完全监督的视频数据集仅包含几十万个视频和少于一千个特定于域的标签。这阻碍了高级视频架构的发展。本文对使用大量网络视频进行预训练视频模型以进行动作识别任务进行了深入研究。我们的主要实证研究结果是,尽管有大量的社交媒体视频和标签,但是大规模的预训练(超过6500万个视频)大大改善了三个具有挑战性的公共行动识别数据集的最新技术水平。此外,我们还研究了构建弱监督视频动作数据集的三个问题。首先,鉴于行动涉及与对象的交互,如何构建动词 - 对象预训练标签空间以最有利于转移学习?其次,基于框架的模型在动作识别方面表现出色;对于良好的图像特征进行预训练是否足够或者是对于最佳转移学习有价值的时空特征的预训练?最后,在长视频和短视频中,操作通常不太本地化;由于动作标签是在视频级别提供的,考虑到一些固定的视频数量或分钟预算,如何选择视频片段以获得最佳性能?
translated by 谷歌翻译
从观察数据中学习因果效应极大地有益于各种领域,如医疗保健,教育和社会学。例如,人们可以估计政策对降低失业率的影响。因果效应推断的核心问题是处理未观察到的事实因素和治疗选择偏差。最先进的方法通过平衡治疗组和对照组来集中解决这些问题。然而,在学习和平衡过程中,来自原始协变量空间的高度预测信息可能会丢失。为了构建更强大的估计器,我们通过基于深度学习的最新进展,提出了一种基于Adversarial Balancing的基于CausalEffect Inference(ABCEI)的表示学习的方法来解决这一信息丢失问题。 ABCE使用对抗性学习来平衡潜在表征空间中治疗组和对照组的分布,而不对治疗选择/分配功能的形式进行任何假设。 ABCEI保留了有用的信息,用于预测互信息估算器正规化下的因果效应。我们在几个合成和现实世界的数据集上进行了各种实验。实验结果表明,ABCEI对治疗选择偏差具有很强的抵抗力,并且匹配/优于最先进的方法。
translated by 谷歌翻译
随机梯度Langevin动态(SGLD)是一种基本算法随机优化。 Zhang等人最近的工作。 [2017]给出了SGLD对一阶和二阶静止点的击中时间的分析。 Zhang等人的证明。 [2017]是一个两阶段的程序,通过整个Cheeger常数,这是相当复杂的,导致松散的。在本文中,利用随机微分方程的直觉,我们提供了SGLD对一阶和二阶静止点的击中时间的直接分析。我们的分析很简单。它只依赖于基本的线性代数和概率论工具。与Zhang等人相比,我们的直接分析也导致了更严格的界限。 [2017]并显示击球时间对不同因素的显着依赖性,包括维度,平滑度,噪声强度和步长效应。在适当的条件下,我们表明SGLD对一阶静止点的击中时间可以与床层无关。此外,我们应用我们的分析来研究机器学习中的几个重要的在线估计问题,包括线性回归,矩阵分解和在线PCA。
translated by 谷歌翻译