我们提出短暂价值调整(EVA):一种允许深度执行学习代理快速适应重播缓冲经验的方法。 EVA通过对来自当前状态附近的重放缓冲区的经验元组进行规划而得到的值函数的估计来改变由神经网络预测的值。 EVA结合了许多近期的想法,将类似情节记忆的结构组合成强化学习代理:基于插槽的存储,基于内容的检索和基于内存的规划。我们展示了EVA在演示任务和Atari游戏中的表现。
translated by 谷歌翻译
鲍德温效应的范围最近受到两位人士的质疑,他们仔细研究了辛顿和诺兰的开创性工作。到目前为止,没有证明其在经验挑战性任务中的必要性。在这里,我们通过塑造高度参数和深度学习算法的初始参数,表明Baldwin效应能够演化出射击监督和强化学习机制。此外,它可以作为最近的机器学习算法在同一组问题上基因上适应强大的学习偏差。称为MAML“ModelAgnostic元学习”,它使用二阶梯度而不是进化来学习一组参考参数(初始权重),这些参数可以允许快速适应从分布中采样的任务。虽然在简单的情况下MAML比Baldwin效应更有效,但Baldwin效应更为通用,因为它不需要将梯度反向传播到参考参数或超参数,并且允许在内环中有效地允许任意数量的梯度更新。 Baldwin效应学习强大的学习依赖性,而不是纯粹基因学习,以独立于学习的方式适应固定行为。
translated by 谷歌翻译
在基于模型的强化学习中,可以利用环境的生成和时间模型来提高代理性能,或者通过在训练期间调整代理的表示,或者通过使用作为显式规划机制的一部分。然而,由于难以在较大的,可能部分观察的和3D环境中训练这些模型,它们在实践中的应用受限于简单的环境。在这项工作中,我们引入了这种挑战性环境的新型动作条件生成模型。该模型具有非参数空间记忆系统,其中我们存储学习的,解开的环境表示。低维空间更新使用状态空间模型计算,该模型利用关于移动代理的先前动态的知识和高维度视觉观察用VariationalAuto-Encoder建模。结果是一个可扩展的架构,能够在一系列部分观察到的2D和3D环境中执行数百个时间步长的相干预测。
translated by 谷歌翻译
深度神经网络(NN)是强大的黑盒预测器,在广泛的任务中最近取得了令人印象深刻的性能。在NN中预测不确定性是一个具有挑战性且尚未解决的问题。学习权重分布的贝叶斯神经网络目前是估计预测不确定性的最新技术;然而,与标准(非贝叶斯)NN相比,这些需要对训练过程进行重大修改并且计算成本高。我们提出了贝叶斯NN的替代方案,其易于实现,易于并行化,需要非常少的超参数调整,并产生高质量预测不确定性估计。通过一系列关于分类和回归基准的实验,我们证明了我们的方法产生了经过良好校准的不确定性估计,这些估计与近似贝叶斯NN一样好或更好。为了评估数据集移位的稳健性,我们评估了已知和未知分布的测试实例的预测不确定性,并表明我们的方法能够在分布式实例中表达更高的不确定性。我们通过评估ImageNet上的预测不确定性估计来证明我们方法的可扩展性。
translated by 谷歌翻译
在复杂环境中进行有效的探索仍然是加强学习的主要挑战。我们提出了自举DQN,这是一种简单的算法,可以通过使用随机值函数以计算和统计有效的方式进行测试。与诸如epsilon-greedyexploration之类的抖动策略不同,自举DQN执行时间延长(或深度)探索;这可以导致学习成倍增长。我们在复杂的随机MDP和大规模的ArcadeLearning环境中展示了这些优势。 Bootstrapped DQN大大改善了大多数Atari游戏的学习时间和性能。
translated by 谷歌翻译
我们将深度Q学习成功的思想适应于连续行动领域。我们提出了一个演员评论家,无模型算法基于确定性政策梯度,可以在连续作用空间上运作。使用相同的学习算法,网络架构和超参数,我们的算法可以有力地解决20多个模拟物理任务,包括经典问题,如推车摆动,灵巧操作,腿式运动和汽车驾驶。我们的算法能够找到性能与计划算法所发现的竞争对手的策略,这些策略可以完全访问域及其衍生物的动态。我们进一步证明,对于许多任务,算法可以直接从端到端学习策略:原始像素输入。
translated by 谷歌翻译
在这项工作中,提出了一个进化艺术项目,其中图像区域通过不同类型的透明,重叠和几何形状(例如,多边形,圆形,线条)进行近似。表示几何形状的特征和顺序的基因型利用适应度函数进化,该适应度函数具有输入图像的相应像素作为目标目标。因此,将基因型 - 表型作图应用于渲染图像,因为选择的遗传表示是间接的,即基因型不包括像素,而是形状与其性质的组合。形状,形状数量,突变类型和种群的不同组合进行了测试。这里的工作目标有两个:(1)用进化的间接编码尽可能精确地近似图像,(2)产生视觉上吸引人的结果和新颖的艺术风格。
translated by 谷歌翻译
对话是交换信息的有效方式,但细微的细节和资金非常重要。虽然重大进展为使用算法进行视觉对话铺平了道路,但细节和细微差别仍然是一个挑战。注意机制已经证明了提取细节隐形问题答案的引人注目的结果,并且由于其可解释性和有效性而为视觉对话提供了令人信服的框架。然而,伴随视觉对话的许多数据都挑战了现有的注意技术。我们解决了这个问题,并开发了visualdialog的一般注意机制,可以在任意数量的数据工具上运行。为此,我们设计了一个基于因子图的注意机制,它结合了任意数量的效用表示。我们说明了所提出的方法对具有挑战性和最近引入的VisDial数据集的适用性,在VisDial0.9中表现优于最近的最新方法1.1%,在VisRial1.0 onMRR上表现优于2%。我们的集合模型将VisDial1.0的MRR得分提高了6%以上。
translated by 谷歌翻译
如今几乎任何给定的任务都可以使用深网动物园,并且越来越不清楚在处理新任务时要从哪个网开始,或者将网用作初始化以微调新模型。为了解决这个问题,在本文中,我们开发了知识流,将“知识”从多个深层网络(称为教师)移动到一个新的深度网络模型,称为学生。教师和学生的结构可以不同,他们可以在不同的输出空间上完成不同任务的训练。在通过知识流程进行培训后,学生将独立于教师。我们展示了我们对各种监督和执行学习任务的方法,超越了微调和其他“知识交换”方法。
translated by 谷歌翻译
协作是执行超出oneagent功能的任务的必要技能。广泛应用于传统和现代AI,多代理协作通常在简单的网格世界中进行研究。我们认为合作存在固有的视觉方面,应该在视觉丰富的环境中进行研究。一个关键的元素合作是通过显式,通过消息或隐式,通过对其他代理和视觉世界的感知来进行的交流。学习在视觉环境中进行协作需要学习(1)执行任务,(2)何时和沟通的内容,以及(3)如何根据这些沟通和视觉世界的感知采取行动。在本文中,我们研究了在AI2-THOR中学习直接从像素协作的问题,并展示了显式和隐式通信模式对于执行视觉任务的好处。有关更多详细信息,请参阅我们的项目页面:https://prior.allenai.org/projects/two-body-problem
translated by 谷歌翻译