我们介绍了表演性强化学习的框架,学习者选择的政策会影响环境的基本奖励和过渡动态。遵循有关表演预测的最新文献〜\ cite {perdomo等。 Al。,2020},我们介绍了性能稳定政策的概念。然后,我们考虑了强化学习问题的正则版本,并表明,在合理的假设对过渡动态的合理假设下,反复优化此目标将其收敛到性能稳定的策略。我们的证明利用了强化学习问题的双重观点,并且可能在分析其他算法与决策依赖性环境的融合方面具有独立的兴趣。然后,我们将结果扩展到学习者仅执行梯度上升步骤而不是完全优化目标的设置,以及学习者可以从变化的环境中访问有限数量的轨迹的设置。对于这两种设置,我们都利用表演性增强学习的双重表述,并建立与稳定解决方案的融合。最后,通过对网格世界环境的广泛实验,我们证明了收敛对各种参数的依赖性,例如正则化,平滑度和样品数量。
translated by 谷歌翻译
实际因果关系和紧密相关的责任归因概念对于负责任的决策至关重要。实际因果关系侧重于特定结果,并旨在确定对实现兴趣结果至关重要的决策(行动)。责任归因是互补的,旨在确定决策者(代理人)对此结果负责的程度。在本文中,我们研究了在不确定性下用于多代理顺序决策的广泛使用框架下的这些概念:分散的部分可观察到的马尔可夫决策过程(DEC-POMDPS)。在RL中显示了POMDP和结构因果模型(SCM)之间的对应关系之后,我们首先在DECPOMDPS和SCMS之间建立了联系。此连接使我们能够利用一种语言来描述先前工作中的实际因果关系,并研究DECOMDPS中实际因果关系的现有定义。鉴于某些众所周知的定义可能导致违反直觉的实际原因,我们引入了一个新颖的定义,该定义更明确地说明了代理人行为之间的因果关系。然后,我们根据实际因果关系转向责任归因,我们认为,在将责任归因于代理商时,重要的是要考虑代理人参与的实际原因数量以及操纵自己的责任程度的能力。在这些论点的激励下,我们介绍了一种责任归因方法,该方法扩展了先前的工作,同时考虑到上述考虑因素。最后,通过基于仿真的实验,我们比较了实际因果关系和责任归因方法的不同定义。经验结果证明了实际因果关系的定义与其对归因责任的影响之间的定性差异。
translated by 谷歌翻译
We designed and constructed an A-sized base autonomous underwater vehicle (AUV), augmented with a stack of modular and extendable hardware and software, including autonomy, navigation, control and high fidelity simulation capabilities (A-size stands for the standard sonobuoy form factor, with a maximum diameter of 124 mm). Subsequently, we extended this base vehicle with a novel tuna-inspired morphing fin payload module (referred to as the Morpheus AUV), to achieve good directional stability and exceptional maneuverability; properties that are highly desirable for rigid hull AUVs, but are presently difficult to achieve because they impose contradictory requirements. The morphing fin payload allows the base AUV to dynamically change its stability-maneuverability qualities by using morphing fins, which can be deployed, deflected and retracted, as needed. The base vehicle and Morpheus AUV were both extensively field tested in-water in the Charles river, Massachusetts, USA; by conducting hundreds of hours of operations over a period of two years. The maneuvering capability of the Morpheus AUV was evaluated with and without the use of morphing fins to quantify the performance improvement. The Morpheus AUV was able to showcase an exceptional turning rate of around 25-35 deg/s. A maximum turn rate improvement of around 35% - 50% was gained through the use of morphing fins.
translated by 谷歌翻译
计算NASH平衡策略是多方面强化学习中的一个核心问题,在理论和实践中都受到广泛关注。但是,到目前为止,可证明的保证金仅限于完全竞争性或合作的场景,或者在大多数实际应用中实现难以满足的强大假设。在这项工作中,我们通过调查Infinite-Horizo​​n \ Emph {对抗性团队Markov Games},这是一场自然而充分动机的游戏,其中一组相同兴奋的玩家 - 在没有任何明确的情况下,这是一个自然而有动机的游戏,这是一场自然而有动机的游戏,而偏离了先前的结果。协调或交流 - 正在与对抗者竞争。这种设置允许对零和马尔可夫潜在游戏进行统一处理,并作为模拟更现实的战略互动的一步,这些互动具有竞争性和合作利益。我们的主要贡献是第一种计算固定$ \ epsilon $ - Approximate Nash Equilibria在对抗性团队马尔可夫游戏中具有计算复杂性的算法,在游戏的所有自然参数中都是多项式的,以及$ 1/\ epsilon $。拟议的算法特别自然和实用,它基于为团队中的每个球员执行独立的政策梯度步骤,并与对手侧面的最佳反应同时;反过来,通过解决精心构造的线性程序来获得对手的政策。我们的分析利用非标准技术来建立具有非convex约束的非线性程序的KKT最佳条件,从而导致对诱导的Lagrange乘数的自然解释。在此过程中,我们大大扩展了冯·斯坦格尔(Von Stengel)和科勒(GEB`97)引起的对抗(正常形式)团队游戏中最佳政策的重要特征。
translated by 谷歌翻译
本文对地面农业机器人系统和应用进行了全面综述,并特别关注收获,涵盖研究,商业产品和结果及其能力技术。大多数文献涉及作物检测的发展,通过视觉及其相关挑战的现场导航。健康监测,产量估计,水状态检查,种子种植和清除杂草经常遇到任务。关于机器人收割,苹果,草莓,西红柿和甜辣椒,主要是出版物,研究项目和商业产品中考虑的农作物。据报道的收获农业解决方案,通常由移动平台,单个机器人手臂/操纵器和各种导航/视觉系统组成。本文回顾了报告的特定功能和硬件的发展,通常是运营农业机器人收割机所要求的;它们包括(a)视觉系统,(b)运动计划/导航方法(对于机器人平台和/或ARM),(c)具有3D可视化的人类机器人交流(HRI)策略,(d)系统操作计划&掌握策略和(e)机器人最终效果/抓手设计。显然,自动化农业,特别是通过机器人系统的自主收获是一个研究领域,它仍然敞开着,在可以做出新的贡献的地方提供了一些挑战。
translated by 谷歌翻译
一个适合监视fr \'echet均值概念和变形模型概念的概念的框架。通用的含义是使用fr \'echet平均报价的概念来捕获数据的典型功能形状,而变形模型的概念允许对配置文件与典型形状的偏差进行可解释的参数化。基于功能数据的形状特征构建和提出了功能性EWMA型控制图,允许(a)识别与控制内部行为的转变,以及(b)提供潜在转移的因果关系,并具有某些定性特征的显着偏差(例如振幅或相变)。实施功能监测方案以评估环境空气污染。特别是,该方法实施到合成数据示例,以评估其在各种条件下的性能,并使用来自雅典市地区的传感器数据进行真实世界的示例,在该地区,空气污染物的概况及其特征成功地分析了,并且确定了控制外行为。
translated by 谷歌翻译