Deep reinforcement learning (RL) has achieved several high profile successesin difficult decision-making problems. However, these algorithms typicallyrequire a huge amount of data before they reach reasonable performance. Infact, their performance during learning can be extremely poor. This may beacceptable for a simulator, but it severely limits the applicability of deep RLto many real-world tasks, where the agent must learn in the real environment.In this paper we study a setting where the agent may access data from previouscontrol of the system. We present an algorithm, Deep Q-learning fromDemonstrations (DQfD), that leverages small sets of demonstration data tomassively accelerate the learning process even from relatively small amounts ofdemonstration data and is able to automatically assess the necessary ratio ofdemonstration data while learning thanks to a prioritized replay mechanism.DQfD works by combining temporal difference updates with supervisedclassification of the demonstrator's actions. We show that DQfD has betterinitial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN)as it starts with better scores on the first million steps on 41 of 42 gamesand on average it takes PDD DQN 83 million steps to catch up to DQfD'sperformance. DQfD learns to out-perform the best demonstration given in 14 of42 games. In addition, DQfD leverages human demonstrations to achievestate-of-the-art results for 11 games. Finally, we show that DQfD performsbetter than three related algorithms for incorporating demonstration data intoDQN.
translated by 谷歌翻译
我们提出了一种同步定位和风力涡轮机模式的方法,用于执行自动表面检测的无人机。我们使用涡轮机的骨架参数化,可以很容易地集成到非线性最小二乘优化器中,结合无人机三维轨迹的姿势图表示,允许我们同时优化两组参数。给定来自机载相机的图像,我们使用CNN来推断骨架模型的投影,从而通过成本函数建立对应约束。然后将其与在图中的关键帧处进行的GPS / IMU测量相结合,以允许无人机在涡轮机周围导航的连续优化。我们提出了两种成本函数的变体,一种基于传统的二维点对应,另一种是在推断的投影中的直接图像插值。结果模拟和现实世界数据的实验表明,同步优化提供了本地化的改进,仅优化了目标,并且两种成本函数的组合使用证明是最有效的。
translated by 谷歌翻译
在多发性硬化症中检测新的或扩大的白质病变是监测患有多发性硬化症的疾病修复治疗的患者的重要任务。然而,“新的或扩大的”的定义并不固定,并且已知病变计数是高度主观的,具有高度的内部和内部评估者可变性。用于病变量化的自动化方法具有使新的和扩大的检测一致且可重复的潜力。然而,尽管这是一个紧迫的临床用例,但大多数病变分段算法并未评估其分离进展性稳定患者的能力。在本文中,我们发现,即使对于高性能分离方法,单独损伤负荷的体积测量的变化也不是执行该分离的良好方法。相反,我们提出了一种识别高确定性病变的方法,并在纵向多发性硬化病例的数据集上确定该方法能够将进展与稳定时间点分离,具有非常高的辨别水平(AUC = 0.99),而病变体积的变化是执行这种分离的能力要低得多(AUC = 0.71)。对第二个外部数据集的方法进行验证,证实该方法能够超出其训练的范围,在分离稳定和渐进的时间点时达到83%的准确度。先前已经证明病变体积和计数都是人群中疾病的强有力预测因子。然而,我们证明对于个体患者而言,这些措施的变化并不是确定疾病活动证据的充分手段。同时,直接检测高可信度地从非病变到病变的组织是用于鉴定放射学活跃患者的可行方法。
translated by 谷歌翻译
事实核查是新闻业的一项重要任务;由于最近越来越多的关注和努力打击信息,其重要性得到了高度重视。在本文中,我们提出了一个自动事实检查平台,它给出了一个主张,它从文档集中检索相关的文本证据,预测每一个证据是否支持或驳斥该声明,并返回最终判决。我们描述了系统和用户界面的体系结构,重点关注为提高用户友好性和透明度而做出的选择。我们在新闻环境中对事实检查平台进行用户研究:我们将其与新闻文章的集合进行整合,并使用他们工作流程中记者的反馈来评估平台。我们发现平台的预测值在58%以上是正确的,59%的返回证据是相关的。
translated by 谷歌翻译
如今,轨道车辆本地化基于基础设施侧的Balises(信标)以及车载里程,以确定铁路段是否被占用。这种粗略锁定导致铁路网络的次优使用。新的铁路标准提出使用以铁路车辆为中心的移动块来增加网络的容量。然而,这种方法需要对所有车辆进行准确而稳健的位置和速度估算。在这项工作中,我们研究了当前视觉和视觉惯性运动估计框架对铁路应用的适用性,挑战和局限性。在工业,郊区和环境中记录的多个数据集中,对RTK-GPS地面实况进行了评估。我们的研究结果表明,立体视觉惯性测量法具有很大的潜力,可以提供精确的运动估计,因为它具有补充传感器模态,并且在与其他框架相比具有挑战性的情况下表现出优越的性能。
translated by 谷歌翻译
课程学习(CL)受到人类和动物认知过程的启发,通过逐渐增加训练数据的难度来训练模型。在本文中,我们研究CL是否可以应用于复杂的几何问题,如估计单眼视觉测距(VO)。与现有的CLapproaches不同,我们提出了一种新的CL策略,通过在训练过程中逐渐使学习目标更加困难来学习单眼VO的几何学。为此,我们提出了一种新的几何感知目标函数,它通过有界姿态回归损失在小窗口上共同优化相对和复合变换。设计了级联光流网络,其后是具有可微分窗口组合层的复制网络,称为CL-VO,以学习所提出的目标。对三个真实世界数据集的评估显示CL-VO优于基于现有特征和基于学习的VO的优越性能。
translated by 谷歌翻译
神经网络搜索(NAS)一直是神经网络设计的显着改进的源泉,最近的结果达到或超过了手动调整架构的性能。但是,我们对如何表示神经网络体系结构的搜索空间以及如何有效地搜索该空间的理解仍处于起步阶段。我们进行了深入分析,以确定广泛使用的搜索空间中的局限性和最近的架构搜索方法,差异化架构搜索(DARTS)。这些发现使我们引入了具有更通用,平衡和一致设计的新型网络块;更优化的Cosine退火学习费率表;和其他改进。与DARTS相比,我们的锐化DARTS搜索速度提高了50%,而CIFAR-10的相对改善的模型误差为20-30%。我们最好的单一模型运行在CIFAR-10上有1.93%(1.98 +/- 0.07)验证错误,在最近发布的CIFAR-10.1测试集上有5.5%错误(5.8 +/- 0.3)。据我们所知,两者都是类似尺寸模型的最新技术。此模型还以25.1%top-1(7.8%top-5)错误与ImageNet竞争。我们发现了对现有搜索空间的改进,但是DARTS是否会推广出色域?我们提出了可区分的超参数网格搜索和超级类搜索空间,它们是用于利用DARTS进行更一般参数优化的表示。在这里,我们发现当与人类的一次性模型选择进行比较时,DARTS无法进行概括。我们回顾DARTS和sharpDARTS搜索空间以了解原因,并且anablation研究揭示了一个不寻常的泛化差距。我们最终提出Max-Wregularization来解决这个问题,这证明了手工设计明显更好。代码将可用。
translated by 谷歌翻译
贝叶斯优化在优化耗时的黑盒目标方面很受欢迎。尽管如此,对于深度神经网络中的超参数调整,即使是一些超参数设置评估验证错误所需的时间仍然是瓶颈。多保真优化有望减少对这些目标使用更便宜的代理 - 例如,使用训练点的子集训练网络的验证错误或者收敛所需的迭代次数更少。我们提出了一种高度灵活和实用的多保真贝叶斯优化方法,重点是有效地优化迭代训练的监督学习模型的超参数。我们引入了一种新的采集功能,即跟踪感知知识梯度,它有效地利用了多个连续保真度控制和跟踪观察---保真序列中物镜的值,当使用训练迭代改变保真度时可用。我们提供了可用于优化我们的采集功能的可变方法,并展示了它为超神经网络和大规模内核学习的超参数调整提供了最先进的替代方案。
translated by 谷歌翻译
Winograd或Cook-Toom类算法有助于降低许多现代深度卷积神经网络(CNN)的整体计算复杂性。尽管已经对CNN的模型和算法优化进行了大量研究,但很少有人关注效率的实现。嵌入式CPU中的这些算法通常具有非常有限的内存和低功耗预算。本文旨在填补这一空白,重点关注现代Arm Cortex-A CPU的Winograd或Cook-Toom基于卷积的有效实现,这些CPU现在广泛用于移动设备。具体而言,我们通过使用一组优化策略证明了推理延迟的减少。提高计算资源的利用率,并有效地利用ARMv8-A NEON SIMD指令集。我们使用几个有代表性的CNN评估了我们在ArmCortex-A73平台上提出的区域多通道实现。结果表明,与基于nowim2row / im2col的优化技术相比,整个网络的性能显着提高了60%
translated by 谷歌翻译
顺序凸面编程(SCP)最近出现了作为轨迹优化工具的兴趣。然而,大多数可用的方法缺乏严格的性能保证,并且它们通常针对特定的最佳控制设置而定制。在本文中,我们提出了GuSTO(保证顺序轨迹优化),这是一个算法框架,用于解决具有漂移的控制仿射系统的轨迹优化问题。 GuSTO概括了早期基于SCP的轨迹优化方法(通过寻址,例如,目标集约束和固定或自由最终时间的问题),并且在收敛到至少一个静止点方面享有理论收敛保证。进一步利用理论分析来加速实施GuSTO,最初将间接最优控制的思想灌输到SCP环境中。各种轨迹优化设置的数值实验表明,GuSTO在成功率,解决方案质量和计算时间方面通常优于当前最先进的方法。
translated by 谷歌翻译