Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
卷积神经网络(CNN)学习滤波器以捕获特征空间中的局部相关模式。相比之下,在本文中,我们提出了通过学习由离散余弦变换定义的光谱滤波器的最佳组合来产生特征的谐波块。谐波块用于代替传统的卷积层以构建部分有序谐波CNN。我们对我们的方法进行了广泛的验证,并表明将谐波模块引入最先进的CNN基线架构可以在小型NORB,CIFAR10和CIFAR100数据集上产生相当或更好的分类功能。
translated by 谷歌翻译
标准RGB-D跟踪器将目标视为固有的2D结构,这使得建模外观变化甚至与简单的平面外旋转具有相当大的挑战性。我们通过提出一种新颖的长期RGB-D跟踪器 - 重建对象跟踪(OTR)来解决这一局限性。跟踪器执行在线3D目标重建以促进一组视图特定的判别相关滤波器(DCF)的稳健学习。 3D重建支持两个性能增强功能:(i)从2D投影生成约束DCF学习的精确空间支持和(ii)基于点云的3D姿态变化估计,用于选择和存储特定于视图的DCF,用于稳健地定位目标在视图外旋转或重度遮挡。在具有挑战性的普林斯顿RGB-D跟踪和STC基准测试中对OTR的广泛评估表明它在很大程度上优于最先进的技术。
translated by 谷歌翻译
双相情感障碍是一种以躁狂和抑郁发作为特征的疾病,影响全世界超过6000万人。我们根据用户生成的Reddit文本提出双相障碍预测的初步研究,该文本依赖于用户自我报告的标签。我们的双相障碍预测基准分类器的表现优于基线并达到准确度,F1分数高于86%。特征分析显示,在患有双相情感障碍的患者和对照组之间,语言使用方面存在有趣的差异,包括使用情绪表达词语的差异。
translated by 谷歌翻译
从交互样本中学习不完美信息游戏的策略是一个具有挑战性的问题。这种设置的常用方法MonteCarlo Counterfactual Regret Minimization(MCCFR)由于高方差而具有较慢的长期收敛率。在本文中,我们引入了适用于MCCFR的任何采样变体的方差减少技术(VR-MCCFR)。使用此技术,每次迭代估计值和更新被重新构建为采样值和状态 - 动作基线的函数,类似于它们用于政策梯度强化学习。新的制定允许估计从同一集中的其他估计中引导,沿着采样的轨迹传播基线的好处;即使从其他估计引导,估计仍然是无偏见的。最后,我们证明给定一个完美的基线,值估计的方差可以减少到零。实验评估表明,VR-MCCFR带来了一个数量级的加速,而经验方差降低了三个数量级。减小的方差允许第一次CFR +与采样一起使用,将加速增加到两个数量级。
translated by 谷歌翻译
Mars Express(MEX)航天器的热量子系统将开挖设备保持在预定的工作温度范围内。为了规划和优化MEX的科学运营,其运营商需要尽可能准确地估计热子系统的功耗。然后可以将剩余的功率分配用于科学目的。我们提供了一个机器学习管道,用于有效地构建准确的预测模型,用于预测boardMEX上的热子系统的功率。特别是,我们采用最先进的特征工程方法来转换原始遥测数据,反过来用于构建具有不同最先进机器学习方法的精确模型。我们表明,所提出的管道在时间效率和预测性能方面大大改善了我们之前(竞争获胜)的工作。此外,在实现卓越的预测性能的同时,构建的模型还提供了对航天器行为的重要洞察,允许进一步分析和优化MEX操作的规划。
translated by 谷歌翻译
人类使用符号,例如口语中的句子,进行交流和思考。因此,像语言这样的符号系统对于我们与其他代理人的交流以及对现实环境的适应至关重要。我们在人类社会中使用的符号系统适应性地动态地改变加班。在人工智能(AI)和认知系统的背景下,符号接地问题被认为是与{\符号}相关的核心问题之一。然而,符号接地问题最初用于连接符号AI和感觉运动信息,并没有考虑人类交流中的多学科现象和我们社会中的动态符号系统,符号学考虑了这些现象。在本文中,我们关注符号出现问题,不仅解决认知动态,而且解决社会中符号系统的动态,而不是符号接地问题。我们首先从人文学中引入符号学中的符号概念,在符号AI中留下非常狭隘的符号概念。此外,多年来越来越清楚的是,共生现象必须被视为一个多方面的问题。因此,其次,分析了不同领域中符号出现问题的历史,包括生物系统和人工系统,展示了它们之间的相互关系。我们总结了讨论,并提供了认知系统中符号出现的综合观点和综合概述。此外,我们描述了可以作为符号出现系统的一部分的认知系统的创建所面临的挑战。
translated by 谷歌翻译
We propose FuCoLoT-a Fully Correlational Long-term Tracker. It exploits the novel DCF constrained filter learning method to design a detector that is able to re-detect the target in the whole image efficiently. FuCoLoT maintains several correlation filters trained on different time scales that act as the detector components. A novel mechanism based on the correlation response is used for tracking failure estimation. FuCoLoT achieves state-of-the-art results on standard short-term benchmarks and it outperforms the current best-performing tracker on the long-term UAV20L benchmark by over 19%. It has an order of magnitude smaller memory footprint than its best-performing competitors and runs at 15fps in a single CPU thread.
translated by 谷歌翻译
我们提出了一种通用且无模型的方法,用于对具有稀疏奖励的真实机器人进行强化学习(RL)。我们基于Deep DeterministicPolicy Gradient(DDPG)算法来使用演示。演示和实际交互都用于填充重放缓冲区,演示和转换之间的采样比例通过优先级重放机制自动调整。通常,需要精心设计的整形奖励以使代理能够有效地探索诸如机器人之类的高维控制问题。它们也是基于模型的加速方法所必需的,这些方法依赖于诸如iLQG之类的本地求解器(例如,引导策略搜索和规范化优势函数)。这些演示取代了对精心设计的奖励的需求,并减少了这些领域中经典RL方法遇到的探索问题。示威活动是由一名人类示威者动力控制的机器人收集的。关于模拟插入任务的结果表明,来自示范的DDPG优于DDPG,并且不需要工程奖励。最后,我们演示了一个真正的机器人任务的方法,包括将一个剪辑(灵活的对象)插入到刚体对象中。
translated by 谷歌翻译
短期跟踪是一个开放且具有挑战性的问题,其中差异相关滤波器(DCF)已经表现出优异的性能。我们将信道和空间可靠性概念引入到DCF跟踪中,并为滤波器更新和跟踪过程中的高效无缝集成提供了一种新颖的学习算法。空间可靠性图将滤波器支持调整到适合于跟踪的对象部分。这两者都允许扩大搜索区域并改善非矩形对象的跟踪。可靠性分数反映了已知过滤器的通道质量,并用作定位中的特征加权系数。实验中,只有两个简单的标准特征,HoG和Colornames,新型CSR-DCF方法 - 具有通道和空间可靠性的DCF - 实现在VOT 2016,VOT 2015和OTB100上取得了最先进的成果。 CSR-DCF在CPU上实时运行。
translated by 谷歌翻译