先前的工作表明,深-RL可以应用于无地图导航,包括混合无人驾驶空中水下车辆(Huauvs)的中等过渡。本文介绍了基于最先进的演员批评算法的新方法,以解决Huauv的导航和中型过渡问题。我们表明,具有复发性神经网络的双重评论家Deep-RL可以使用仅范围数据和相对定位来改善Huauvs的导航性能。我们的深-RL方法通过通过不同的模拟场景对学习的扎实概括,实现了更好的导航和过渡能力,表现优于先前的方法。
translated by 谷歌翻译
深钢筋学习中的确定性和随机技术已成为改善运动控制和各种机器人的决策任务的有前途的解决方案。先前的工作表明,这些深-RL算法通常可以应用于一般的移动机器人的无MAP导航。但是,他们倾向于使用简单的传感策略,因为已经证明它们在高维状态空间(例如基于图像的传感的空间)方面的性能不佳。本文在执行移动机器人无地图导航的任务时,对两种深-RL技术 - 深确定性政策梯度(DDPG)和软参与者(SAC)进行了比较分析。我们的目标是通过展示神经网络体系结构如何影响学习本身的贡献,并根据每种方法的航空移动机器人导航的时间和距离提出定量结果。总体而言,我们对六个不同体系结构的分析强调了随机方法(SAC)更好地使用更深的体系结构,而恰恰相反发生在确定性方法(DDPG)中。
translated by 谷歌翻译
机器人模拟一直是机器人领域研发的组成部分。模拟消除了通过启用机器人的应用测试来快速,负担得起的,而无需遭受机械或电子误差而进行机器人应用测试,从而消除了对传感器,电动机和实际机器人物理结构的可能性。通过虚拟现实(VR)模拟,通过提供更好的环境可视化提示,为与模拟机器人互动提供了更具吸引力的替代方法,从而提供了更严肃的体验。这种沉浸至关重要,尤其是在讨论社交机器人时,人类机器人相互作用(HRI)领域的子区域。在日常生活中,机器人的广泛使用取决于HRI。将来,机器人将能够与人们有效互动,以在人类文明中执行各种任务。在个人工作空间开始扩散时,为机器人开发简单且易于理解的接口至关重要。因此,在这项研究中,我们实施了一个使用现成的工具和包装的VR机器人框架,以增强社交HRI的研究和应用开发。由于整个VR接口是一个开源项目,因此可以在身临其境的环境中进行测试,而无需物理机器人。
translated by 谷歌翻译
强化学习(RL)通过原始像素成像和连续的控制任务在视频游戏中表现出了令人印象深刻的表现。但是,RL的性能较差,例如原始像素图像,例如原始像素图像。人们普遍认为,基于物理状态的RL策略(例如激光传感器测量值)比像素学习相比会产生更有效的样品结果。这项工作提出了一种新方法,该方法从深度地图估算中提取信息,以教授RL代理以执行无人机导航(UAV)的无地图导航。我们提出了深度模仿的对比度无监督的优先表示(DEPTH-CUPRL),该表示具有优先重播记忆的估算图像的深度。我们使用RL和对比度学习的组合,根据图像的RL问题引发。从无人驾驶汽车(UAV)对结果的分析中,可以得出结论,我们的深度cuprl方法在无MAP导航能力中对决策和优于最先进的像素的方法有效。
translated by 谷歌翻译
本文介绍了一种新型深度加强基于基于深度加强学习的3D Fapless导航系统(无人机)。我们提出了一个简单的学习系统,而不是使用一种简单的学习系统,该系统仅使用来自距离传感器的一些稀疏范围数据来训练学习代理。我们基于我们对两种最先进的双重评论家深度RL模型的方法:双延迟深度确定性政策梯度(TD3)和软演员 - 评论家(SAC)。我们表明,我们的两种方法可以基于深度确定性政策梯度(DDPG)技术和Bug2算法来胜过一种方法。此外,我们基于经常性神经网络(RNNS)的新的深度RL结构优于用于执行移动机器人的FAPLESS导航的当前结构。总体而言,我们得出结论,基于双重评论评价的深度RL方法与经常性神经网络(RNNS)更适合进行熔化的导航和避免无人机。
translated by 谷歌翻译
Dataset scaling, also known as normalization, is an essential preprocessing step in a machine learning pipeline. It is aimed at adjusting attributes scales in a way that they all vary within the same range. This transformation is known to improve the performance of classification models, but there are several scaling techniques to choose from, and this choice is not generally done carefully. In this paper, we execute a broad experiment comparing the impact of 5 scaling techniques on the performances of 20 classification algorithms among monolithic and ensemble models, applying them to 82 publicly available datasets with varying imbalance ratios. Results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. They also indicate that choosing an inadequate technique can be more detrimental to classification performance than not scaling the data at all. We also show how the performance variation of an ensemble model, considering different scaling techniques, tends to be dictated by that of its base model. Finally, we discuss the relationship between a model's sensitivity to the choice of scaling technique and its performance and provide insights into its applicability on different model deployment scenarios. Full results and source code for the experiments in this paper are available in a GitHub repository.\footnote{https://github.com/amorimlb/scaling\_matters}
translated by 谷歌翻译
尽管沟通延迟可能会破坏多种系统,但大多数现有的多基因轨迹计划者都缺乏解决此问题的策略。最先进的方法通常采用完美的通信环境,这在现实世界实验中几乎是现实的。本文介绍了强大的Mader(RMADER),这是一个分散的异步多轨迹计划者,可以处理代理商之间的通信延迟。通过广播新优化的轨迹和忠实的轨迹,并执行延迟检查步骤,Rmader即使在通信延迟下也能够保证安全。Rmader通过广泛的仿真和硬件飞行实验得到了验证,并获得了100%的无碰撞轨迹生成成功率,表现优于最先进的方法。
translated by 谷歌翻译
基于连续的潜在空间(例如变异自动编码器)的概率模型可以理解为无数混合模型,其中组件连续取决于潜在代码。它们具有用于生成和概率建模的表达性工具,但与可牵引的概率推断不符,即计算代表概率分布的边际和条件。同时,可以将概率模型(例如概率电路(PC))理解为层次离散混合模型,从而使它们可以执行精确的推断,但是与连续的潜在空间模型相比,它们通常显示出低于标准的性能。在本文中,我们研究了一种混合方法,即具有较小潜在尺寸的可拖动模型的连续混合物。尽管这些模型在分析上是棘手的,但基于一组有限的集成点,它们非常适合数值集成方案。有足够数量的集成点,近似值变得精确。此外,使用一组有限的集成点,可以将近似方法编译成PC中,以“在近似模型中的精确推断”执行。在实验中,我们表明这种简单的方案被证明非常有效,因为PC在许多标准密度估计基准上以这种方式为可拖动模型设定了新的最新模型。
translated by 谷歌翻译
癌症护理中的治疗决策受到随机对照试验(RCT)的治疗效应估计的指导。 RCT估计在某个人群中,一种治疗与另一种治疗的平均效应。但是,治疗可能对人群中的每个患者都不同样有效。了解针对特定患者和肿瘤特征量身定制的治疗的有效性将实现个性化的治疗决策。通过平均RCT中不同患者亚组的结果来获得量身定制的治疗效果,需要大量的患者在所有相关亚组中具有足够的统计能力,以实现所有可能的治疗。美国癌症联合委员会(AJCC)建议研究人员开发结果预测模型(OPMS),以实现个性化治疗决策。 OPM有时称为风险模型或预后模型,使用患者和肿瘤特征来预测患者的结局,例如总体生存。假设这些预测对于使用“只有在OPM预测患者具有高复发风险的情况下开出化学疗法的规则”之类的规则,对治疗决策有用。 AJCC认识到可靠预测的重要性,发布了OPM的清单,以确保设计OPM设计的患者群体的可靠OPM预测准确性。但是,准确的结果预测并不意味着这些预测会产生良好的治疗决策。从这个角度来看,我们表明OPM依靠固定的治疗政策,这意味着被发现可以准确预测验证研究结果的OPM在用于治疗决策的情况下仍会导致患者伤害。然后,我们提供有关如何开发对个性化治疗决策有用的模型以及如何评估模型是否具有决策价值的指导。
translated by 谷歌翻译
最近证明利用稀疏网络连接深神经网络中的连续层,可为大型最新模型提供好处。但是,网络连接性在浅网络的学习曲线中也起着重要作用,例如经典限制的玻尔兹曼机器(RBM)。一个基本问题是有效地找到了改善学习曲线的连接模式。最近的原则方法明确将网络连接作为参数,这些参数必须在模型中进行优化,但通常依靠连续功能来表示连接和明确的惩罚。这项工作提出了一种基于网络梯度的想法来找到RBM的最佳连接模式的方法:计算每个可能连接的梯度,给定特定的连接模式,并使用梯度驱动连续连接强度参数又使用确定连接模式。因此,学习RBM参数和学习网络连接是真正共同执行的,尽管学习率不同,并且没有改变目标函数。该方法应用于MNIST数据集,以显示针对样本生成和输入分类的基准任务找到更好的RBM模型。
translated by 谷歌翻译