我们介绍了一种新的基于模拟的方法,以识别人类机器人协作中意外的工人行为导致的危害。基于仿真的安全测试必须考虑到人类行为是变量的事实,并且可能发生人为错误。当仅模拟预期的工人行为时,严重的危险可以保持未被发现。另一方面,模拟所有可能的工人行为是计算不可行的。这提出了如何找到有趣数量的模拟运行的有趣(即潜在危险的)工作行为的问题。我们将其框架作为可能的工人行为的空间中的搜索问题。因为这个搜索空间可以得到非常复杂的,我们介绍以下措施:(1)基于工作流约束的搜索空间限制,(2)行为的优先级,基于它们偏离标称行为,(3)使用风险指标指导寻求高风险行为,这更有可能暴露危险。我们在协作工作流程中展示了涉及人工工人,机器人臂和移动机器人的协作工作流程方案的方法。
translated by 谷歌翻译
安全关键系统通常在调试之前进行危害分析,以识别和分析操作过程中可能出现的潜在危险系统状态。当前,危害分析主要基于人类的推理,过去的经验以及清单和电子表格等简单工具。增加系统复杂性使这种方法非常合适。此外,由于高成本或身体缺陷的危险,基于测试的危害分析通常不适合。对此进行的补救措施是基于模型的危害分析方法,这些方法依赖于正式模型或模拟模型,每个模型都具有自己的好处和缺点。本文提出了一种两层方法,该方法使用正式方法与使用模拟的详细分析结合了详尽分析的好处。首先使用监督控制理论从系统的形式模型中合成了导致不安全状态的不安全行为。结果是输入到模拟的输入,在该模拟中,使用域特异性风险指标进行了详细的分析。尽管提出的方法通常适用,但本文证明了该方法对工业人类机器人协作系统的好处。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
本文研究了黑盒安全测试配置中基于方案的安全测试算法。对于与不同采样分布共享相同州行动集覆盖的算法,通常认为优先考虑探索高风险状态现象会提高采样效率。我们的提案通过引入不可能的定理来对上述直觉提出异议,该定理可证明显示上述差异的所有安全测试算法,同样具有相同的预期采样效率。此外,对于涵盖不同状态活动集的测试算法,采样效率标准不再适用,因为不同的算法不一定会收敛到相同的终止条件。然后,我们提出了基于几乎安全集合概念的测试攻击性定义,以及一种无偏和有效的算法,比较了测试算法之间的侵略性。还提出了来自两足球运动控制器和车辆决策模块的安全测试的经验观察,以支持提出的理论意义和方法。
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
在公共道路上大规模的自动车辆部署有可能大大改变当今社会的运输方式。尽管这种追求是在几十年前开始的,但仍有公开挑战可靠地确保此类车辆在开放环境中安全运行。尽管功能安全性是一个完善的概念,但测量车辆行为安全的问题仍然需要研究。客观和计算分析交通冲突的一种方法是开发和利用所谓的关键指标。在与自动驾驶有关的各种应用中,当代方法利用了关键指标的潜力,例如用于评估动态风险或过滤大型数据集以构建方案目录。作为系统地选择适当的批判性指标的先决条件,我们在自动驾驶的背景下广泛回顾了批判性指标,其属性及其应用的现状。基于这篇综述,我们提出了一种适合性分析,作为一种有条不紊的工具,可以由从业者使用。然后,可以利用提出的方法和最新审查的状态来选择涵盖应用程序要求的合理的测量工具,如分析的示例性执行所证明。最终,高效,有效且可靠的衡量自动化车辆安全性能是证明其可信赖性的关键要求。
translated by 谷歌翻译
本研究提出了一种具有动态障碍物和不均匀地形的部分可观察环境中的BipeDal运动的安全任务和运动计划(夯实)的分层综合框架。高级任务规划师采用线性时间逻辑(LTL),用于机器人及其环境之间的反应游戏合成,并为导航安全和任务完成提供正式保证。为了解决环境部分可观察性,在高级导航计划者采用信仰抽象,以估计动态障碍的位置。因此,合成的动作规划器向中级运动规划器发送一组运动动作,同时基于运动过程的阶数模型(ROM)结合从安全定理提取的安全机置规范。运动计划程序采用ROM设计安全标准和采样算法,以生成准确跟踪高级动作的非周期性运动计划。为了解决外部扰动,本研究还调查了关键帧运动状态的安全顺序组成,通过可达性分析实现了对外部扰动的强大转变。最终插值一组基于ROM的超参数,以设计由轨迹优化生成的全身运动机器,并验证基于ROM的可行部署,以敏捷机器人设计的20多个自由的Cassie机器人。
translated by 谷歌翻译
基于联系的决策和规划方法越来越重要,无法为腿机器人提供更高的自主性。源自符号系统的正式合成方法具有巨大的推理潜力,了解高级机器决策,并以正确的担保实现复杂的机动行动。本研究迈出了一种正式设计由受约束和动态变化环境中的任务规划和控制全身动态运动行为的架构组成的架构。在高级别,我们在多肢运动策划器和其动态环境之间制定了两个玩家时间逻辑游戏,以综合提供符号机置操作的获胜策略。这些运动动作满足时间逻辑片段中的所需高级任务规范。这些操作被发送到强大的有限转换系统,该过渡系统合成了满足状态可达性限制的运动控制器。该控制器进一步通过低级运动规划器执行,所述低级运动计划产生可行的机器人轨迹。我们构建一组动态运动模型,可用于腿机器人,作为用于处理各种环境事件的模板库。我们设计了一种重新调整策略,考虑到突然的环境变化或大状态干扰,以增加所产生的机器行为的鲁棒性。我们正式证明分层运动框架的正确性,保证了运动规划层的强大实现。在各种环境中的反应运动行为模拟表明我们的框架具有潜在的智能机置行为的理论基础。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译
船上自治技术,如规划和调度,识别科学目标和基于内容的数据摘要,将导致令人兴奋的新空间科学任务。然而,尚未研究具有此类船上自治能力的经营任务的挑战,这是足以在使命概念中考虑的细节水平。这些自主功能需要更改当前的操作流程,实践和工具。我们制定了一个案例研究,以评估使运营商和科学家通过促进地面人员和车载算法之间的共同模型来运营自主航天器所需的变化。我们评估使运营商和科学家能够向航天器传达所需的新的操作工具和工作流程,并能够重建和解释船上和航天器状态的决定。这些工具的模型用于用户学习,了解过程和工具在实现共享理解框架方面的有效性,以及在运营商和科学家有效实现特派团科学目标的能力。
translated by 谷歌翻译
对于大规模的大规模任务,多机器人系统(MRS)可以通过利用每个机器人的不同功能,移动性和功能来有效提高效率。在本文中,我们关注大规模平面区域的多机器人覆盖路径计划(MCPP)问题,在机器人资源有限的环境中具有随机的动态干扰。我们介绍了一个工人站MR,由多名工人组成,实际上有有限的实际工作资源,一个站点提供了足够的资源来补充资源。我们旨在通过将其作为完全合作的多代理增强学习问题来解决工人站MRS的MCPP问题。然后,我们提出了一种端到端分散的在线计划方法,该方法同时解决了工人的覆盖范围计划,并为车站的集合计划。我们的方法设法减少随机动态干扰对计划的影响,而机器人可以避免与它们发生冲突。我们进行仿真和真实的机器人实验,比较结果表明,我们的方法在解决任务完成时间指标的MCPP问题方面具有竞争性能。
translated by 谷歌翻译
在AI研究中,合成动作计划通常使用了抽象地指定由于动作而导致的动作的描述性模型,并针对有效计算状态转换来定制。然而,执行计划的动作已经需要运行模型,其中使用丰富的计算控制结构和闭环在线决策来指定如何在非预定的执行上下文中执行动作,对事件作出反应并适应展开情况。整合行动和规划的审议演员通常需要将这两种模型一起使用 - 在尝试开发不同的型号时会导致问题,验证它们的一致性,并顺利交错和规划。作为替代方案,我们定义和实施综合作用和规划系统,其中规划和行为使用相同的操作模型。这些依赖于提供丰富的控制结构的分层任务导向的细化方法。称为反应作用发动机(RAE)的作用组件由众所周知的PRS系统启发。在每个决定步骤中,RAE可以从计划者获取建议,以获得关于效用功能的近乎最佳选择。随时计划使用像UPOM的UCT类似的蒙特卡罗树搜索程序,其推出是演员操作模型的模拟。我们还提供与RAE和UPOM一起使用的学习策略,从在线代理体验和/或模拟计划结果,从决策背景下映射到方法实例以及引导UPOM的启发式函数。我们展示了富豪朝向静态域的最佳方法的渐近融合,并在实验上展示了UPOM和学习策略显着提高了作用效率和鲁棒性。
translated by 谷歌翻译
This paper describes Waymo's Collision Avoidance Testing (CAT) methodology: a scenario-based testing method that evaluates the safety of the Waymo Driver Automated Driving Systems' (ADS) intended functionality in conflict situations initiated by other road users that require urgent evasive maneuvers. Because SAE Level 4 ADS are responsible for the dynamic driving task (DDT), when engaged, without immediate human intervention, evaluating a Level 4 ADS using scenario-based testing is difficult due to the potentially infinite number of operational scenarios in which hazardous situations may unfold. To that end, in this paper we first describe the safety test objectives for the CAT methodology, including the collision and serious injury metrics and the reference behavior model representing a non-impaired eyes on conflict human driver used to form an acceptance criterion. Afterward, we introduce the process for identifying potentially hazardous situations from a combination of human data, ADS testing data, and expert knowledge about the product design and associated Operational Design Domain (ODD). The test allocation and execution strategy is presented next, which exclusively utilize simulations constructed from sensor data collected on a test track, real-world driving, or from simulated sensor data. The paper concludes with the presentation of results from applying CAT to the fully autonomous ride-hailing service that Waymo operates in San Francisco, California and Phoenix, Arizona. The iterative nature of scenario identification, combined with over ten years of experience of on-road testing, results in a scenario database that converges to a representative set of responder role scenarios for a given ODD. Using Waymo's virtual test platform, which is calibrated to data collected as part of many years of ADS development, the CAT methodology provides a robust and scalable safety evaluation.
translated by 谷歌翻译
过去半年来,从控制和强化学习社区的真实机器人部署的安全学习方法的贡献数量急剧上升。本文提供了一种简洁的但整体审查,对利用机器学习实现的最新进展,以实现在不确定因素下的安全决策,重点是统一控制理论和加固学习研究中使用的语言和框架。我们的评论包括:基于学习的控制方法,通过学习不确定的动态,加强学习方法,鼓励安全或坚固性的加固学习方法,以及可以正式证明学习控制政策安全的方法。随着基于数据和学习的机器人控制方法继续获得牵引力,研究人员必须了解何时以及如何最好地利用它们在安全势在必行的现实情景中,例如在靠近人类的情况下操作时。我们突出了一些开放的挑战,即将在未来几年推动机器人学习领域,并强调需要逼真的物理基准的基准,以便于控制和加固学习方法之间的公平比较。
translated by 谷歌翻译
机械化新鲜市场水果的手工采伐构成了水果产业可持续性的最大挑战之一。在手动收获草莓和桌葡萄等新鲜市场作物时,拾取器花费大量的时间行走,将全托盘携带到领域边缘的收集站。增加对这种作物的收获自动化的一步是部署运输空和全托盘的收获辅助协作机器人(共用机器人),从而通过减少拾取器的非生产步行时间来增加收获效率。这项工作介绍了在商业草莓收获过程中开发合作机器收获援助系统及其评估。在系统的核心上,提示了一种预测随机调度算法,其最小化了预期的非拾取时间,从而最大化了收获效率。在评估实验期间,当机器人到拾取器的比例为1:3时,共同机器人将平均收获效率提高约10%并将平均非生产时间减少60%。在这项工作中开发的概念可以应用于机器人收获艾滋病,用于其他手动收获的作物,这些作物涉及用于行走的作物运输。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
我们提出了一种在线和数据驱动的不确定性量化方法,以实现安全的人类机器人协作应用程序的开发。安全性和系统的风险评估与测量的准确性密切相关:通常无法通过已知模型直接访问独特的参数,因此必须测量。但是,由于传感器的性能有限,甚至未知的环境干扰或人类,测量值通常会遭受不确定性的影响。在这项工作中,我们通过利用具有定量的,系统特定属性的保护措施来量化这些测量不确定性,这些措施会随时间,空间或其他状态空间维度恒定。我们方法的关键思想在于在运行时间参考保护方程式期间对传入数据的直接数据评估。特别是,我们估计违反已知的域名特定域保护特性的行为,并将其视为测量不确定性的结果。我们在人类机器人协作的背景下验证了用例验证我们的方法,从而强调了我们在现实环境下(例如在工业环境中)成功开发安全机器人系统的贡献的重要性。此外,我们还展示了如何将获得的不确定性值直接映射到任意安全限制(例如ISO 13849),该限制允许在运行时监视符合安全标准的符合性。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译