在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
以顺序方式学习任务的能力对于人工智能的发展至关重要。一般而言,神经网络不具备此功能,并且人们普遍认为灾难性遗忘是连接模型的必然特征。我们表明,有可能克服这种限制并培养能够保持他们长期没有经历过的专业知识的网络。我们的方法通过有选择地减慢重量重要任务的权重学习来记住任务。我们通过基于MNIST手写数字数据集解决一组分类任务并依次学习几个Atari 2600游戏,证明我们的方法是可扩展和有效的。
translated by 谷歌翻译
在本文中,我们介绍了街机学习环境(ALE):既是挑战问题,也是评估一般的,与领域无关的AI技术开发的平台和方法。 ALE为数百个Atari 2600游戏环境提供了一个界面,每个环境都是不同的,有趣的,并且设计成对人类玩家的挑战。 ALE为强化学习,模型学习,基于模型的规划,模仿学习,转移学习和内在动机提出了重要的研究挑战。最重要的是,它提供了一个严格的测试平台,用于评估和比较这些问题的方法。我们通过开发和基准化使用完善的AI技术设计的领域独立代理来说明ALE的前景,用于强化学习和规划。在这样做的同时,我们还提出了ALE提供的评估方法,报告了超过55种不同游戏的经验结果。所有软件,包括基准标记代理,都是公开的。
translated by 谷歌翻译
处理高方差是无模型增强学习(RL)中的重大挑战。现有方法是不可靠的,使用不同的初始化/种子表现出从一次运行到另一次运行的性能的高度变化。着眼于连续控制中出现的问题,我们提出了一种增强无模型RL的功能规范化方法。特别是,将深层政策的行为与先前的政策相似,即我们在功能空间中进行规范化。我们证明功能正则化会产生偏差 - 方差权衡,并提出一种自适应调整策略来优化这种权衡。当政策先验具有控制理论稳定性保证时,我们进一步表明,这种正规化近似预先保证了整个学习过程中的稳定性。我们在一系列设置上验证了我们的认可度,并证明了与单独的deepRL相比,显着降低了方差,保证了动态稳定性和更有效的学习。
translated by 谷歌翻译
在高分辨率卫星图像中分割云是一项艰巨而具有挑战性的任务,因为卫星可以捕获多种类型的地理区域和云。因此,它需要自动化和优化,特别是那些定期处理大量卫星图像的人,例如政府机构。从这个意义上讲,这项工作的贡献是:我们提供了CloudPeru2数据集,包括22,400个512x512像素的图像及其各自的手绘云遮罩,以及使用卷积神经的云端对端分割方法的建议网络(CNN)基于Deeplab v3 +架构。测试结果的准确度达到96.62%,精度达到96.46%,特异度达到98.53%,灵敏度达到96.72%,优于对比方法。
translated by 谷歌翻译
本文描述了一种计算张量的低Tucker级近似的新算法。该方法将随机线性映射应用于启动器以获得捕获每个模式内的重要方向的草图,以及模式之间的相互作用。草图可以从流式传输或分布式数据中提取,或者在张量上单次通过,并且使用与输出Tuckerapproximation中的自由度成比例的存储。该算法不需要在张量上进行第二次传递,尽管它可以利用另一个视图来计算优越的近似值。本文对逼近误差提供了严格的理论保证。广泛的数值实验表明,该算法产生了有用的结果,改善了流式Tucker分解的现有技术水平。
translated by 谷歌翻译
糖尿病是一种全球流行的疾病,其可引起可见的微血管并发症,例如人眼睛中的糖尿病性视网膜病和黄斑水肿,其图像目前用于手动疾病筛查。使用deeplearning技术进行自动检测可以极大地利用这种劳动密集型任务。在这里,我们提出了一个深度学习系统,可以比以前的研究中提供的相比或更好地识别出优秀的糖尿病视网膜病变,尽管我们仅使用一小部分图像(<1/4)进行内部治疗,但辅助更高的图像分辨率。我们还为五种不同的糖尿病性视网膜病变和黄斑水肿分类的筛查和临床分级系统提供了新的结果,包括根据临床五级糖尿病视网膜病变和四级糖尿病性黄斑水肿量表准确分类图像的结果。这些结果表明,深度学习系统可以提高筛查的成本效益,同时获得高于推荐的性能,并且该系统可以应用于需要更精细分级的临床检查。
translated by 谷歌翻译
最近在对话法分类中的工作将任务视为使用分层深度神经网络的序列标记问题。我们通过利用具有上下文感知的自我关注机制和层次递归神经网络的有效性来构建这项先行工作。我们对标准的对话法分类数据集进行了广泛的评估,并显示了对SwitchboardDialogue Act(SwDA)语料库中最先进结果的显着改进。我们还研究了不同容量级别表示学习方法的影响,并表明我们的方法在捕获话语级语义文本表示的同时保持高精度。
translated by 谷歌翻译
来自社交媒体的图像可以反映不同的观点,激烈的争论和创造力的表达 - 为搜索任务增加了新的复杂性。从事基于内容的图像检索(CBIR)的研究人员传统上调整了他们的搜索算法,以便将过滤结果与用户搜索特征进行匹配。然而,我们现在被未知来源,真实性甚至意义的合成图像轰炸。由于存在这种不确定性,用户可能无法初步了解搜索查询的结果应该是什么样的。例如,隐藏的人,拼接的对象和微妙改变的场景可能使用户难以最初在模因图像中检测到,但可能对其组成有显着贡献。我们提出了一个新的图像检索框架,它使用从图像索引中检索到的图像关键点对对象级区域进行建模,然后用于精确加权结果中的小贡献对象,而无需昂贵的对象检测步骤。我们将此方法称为Needle-Haystack (NH)评分,它针对CPU上的fastmatrix操作进行了优化。我们证明了这种方法不仅可以在经典CBIR问题中与最先进的方法相媲美,而且在优质的对象和实例级检索上也能够在欧福德5K,巴黎6K,谷歌地标和NIST MFC2018上表现出色。数据集,以及Reddit的风格图像。
translated by 谷歌翻译
互惠是人类社会互动的重要特征,也是人们合作的基础。更重要的是,简单的互惠形式已经证明在矩阵游戏社会困境中具有显着的弹性。最着名的是,在针对囚徒困境的比赛中,针对性的策略表现得非常好。不幸的是,这种策略并不适用于现实世界,其中合作或缺陷的选择在时间和空间上得到延伸。在这里,我们提出一般的在线强化学习算法,显示对其共同参与者的互惠行为。我们表明,在与$ 2 $ $ -player Markov游戏以及$ 5 $ -player intertmporal socialdilemmas中进行学习时,它可以为更广泛的群体带来更好的社交结果。我们分析了由此产生的政策,以表明往复行为受其共同参与者行为的强烈影响。
translated by 谷歌翻译