Thorough testing of safety-critical autonomous systems, such as self-driving cars, autonomous robots, and drones, is essential for detecting potential failures before deployment. One crucial testing stage is model-in-the-loop testing, where the system model is evaluated by executing various scenarios in a simulator. However, the search space of possible parameters defining these test scenarios is vast, and simulating all combinations is computationally infeasible. To address this challenge, we introduce AmbieGen, a search-based test case generation framework for autonomous systems. AmbieGen uses evolutionary search to identify the most critical scenarios for a given system, and has a modular architecture that allows for the addition of new systems under test, algorithms, and search operators. Currently, AmbieGen supports test case generation for autonomous robots and autonomous car lane keeping assist systems. In this paper, we provide a high-level overview of the framework's architecture and demonstrate its practical use cases.
translated by 谷歌翻译
本文介绍了更深层的扩展版本,这是一种基于搜索的仿真集成测试解决方案,该解决方案生成了用于测试基于神经网络的巷道式泳道系统的检测失败测试方案。在新提出的版本中,我们使用了一组新的生物启发的搜索算法,遗传算法(GA),$({\ mu}+{\ lambda})$和$({\ mu},{\ mu},{\ lambda}),{\ lambda}) $进化策略(ES)和粒子群优化(PSO),利用了针对用于对测试场景进行建模的演示模型量身定制的优质人口种子和特定于域的交叉和突变操作。为了证明更深层次的新测试生成器的功能,我们就SBST 2021的网络物理系统测试竞赛中的五个参与工具进行了经验评估和比较。我们的评估显示了新提出的测试更深层次的发电机不仅代表了先前版本的可观改进,而且还被证明是有效和有效地引发相当数量的不同故障的测试方案,用于测试ML驱动的车道保存系统。在有限的测试时间预算,高目标故障严重性和严格的速度限制限制下,它们可以在促进测试方案多样性的同时触发几次失败。
translated by 谷歌翻译
自动驾驶汽车和卡车,自动车辆(AVS)不应被监管机构和公众接受,直到它们对安全性和可靠性有更高的信心 - 这可以通过测试最实际和令人信服地实现。但是,现有的测试方法不足以检查AV控制器的端到端行为,涉及与诸如行人和人机车辆等多个独立代理的交互的复杂,现实世界的角落案件。在街道和高速公路上的测试驾驶AVS无法捕获许多罕见的事件时,现有的基于仿真的测试方法主要关注简单的情景,并且不适合需要复杂的周围环境的复杂驾驶情况。为了解决这些限制,我们提出了一种新的模糊测试技术,称为AutoFuzz,可以利用广泛使用的AV模拟器的API语法。生成语义和时间有效的复杂驾驶场景(场景序列)。 AutoFuzz由API语法的受限神经网络(NN)进化搜索引导,以生成寻求寻找独特流量违规的方案。评估我们的原型基于最先进的学习的控制器,两个基于规则的控制器和一个工业级控制器,显示了高保真仿真环境中高效地找到了数百个流量违规。此外,通过AutoFuzz发现的基于学习的控制器进行了微调的控制器,成功减少了新版本的AV控制器软件中发现的流量违规。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
Deep Neural Networks (DNNs) have been widely used to perform real-world tasks in cyber-physical systems such as Autonomous Driving Systems (ADS). Ensuring the correct behavior of such DNN-Enabled Systems (DES) is a crucial topic. Online testing is one of the promising modes for testing such systems with their application environments (simulated or real) in a closed loop taking into account the continuous interaction between the systems and their environments. However, the environmental variables (e.g., lighting conditions) that might change during the systems' operation in the real world, causing the DES to violate requirements (safety, functional), are often kept constant during the execution of an online test scenario due to the two major challenges: (1) the space of all possible scenarios to explore would become even larger if they changed and (2) there are typically many requirements to test simultaneously. In this paper, we present MORLOT (Many-Objective Reinforcement Learning for Online Testing), a novel online testing approach to address these challenges by combining Reinforcement Learning (RL) and many-objective search. MORLOT leverages RL to incrementally generate sequences of environmental changes while relying on many-objective search to determine the changes so that they are more likely to achieve any of the uncovered objectives. We empirically evaluate MORLOT using CARLA, a high-fidelity simulator widely used for autonomous driving research, integrated with Transfuser, a DNN-enabled ADS for end-to-end driving. The evaluation results show that MORLOT is significantly more effective and efficient than alternatives with a large effect size. In other words, MORLOT is a good option to test DES with dynamically changing environments while accounting for multiple safety requirements.
translated by 谷歌翻译
在本文中,提出了一种基于知识的基于知识的遗传算法,用于在非结构化复杂环境中移动机器人的路径规划,其中提出了五个特定于问题的操作员以进行有效的机器人路径计划。提出的遗传算法将机器人路径计划的领域知识纳入其专业操作员,其中一些也结合了局部搜索技术。提出了一种独特而简单的表示,并开发了一种简单但有效的路径评估方法,可以准确检测到碰撞,并且机器人路径的质量得到很好的反映。所提出的算法能够在静态和动态复杂环境中找到近乎最佳的机器人路径。通过模拟研究证明了所提出算法的有效性和效率。通过比较研究证明了专业遗传算子在解决机器人路径计划问题的拟议遗传算法中的不可替代作用。
translated by 谷歌翻译
当在安全 - 关键系统中使用深层神经网络(DNN)时,工程师应确定在测试过程中观察到的与故障(即错误输出)相关的安全风险。对于DNN处理图像,工程师在视觉上检查所有引起故障的图像以确定它们之间的共同特征。这种特征对应于危害触发事件(例如,低照明),这是安全分析的重要输入。尽管内容丰富,但这种活动却昂贵且容易出错。为了支持此类安全分析实践,我们提出了SEDE,该技术可为失败,现实世界图像中的共同点生成可读的描述,并通过有效的再培训改善DNN。 SEDE利用了通常用于网络物理系统的模拟器的可用性。它依靠遗传算法来驱动模拟器来生成与测试集中诱导失败的现实世界图像相似的图像。然后,它采用规则学习算法来得出以模拟器参数值捕获共同点的表达式。然后,派生表达式用于生成其他图像以重新训练和改进DNN。随着DNN执行车载传感任务,SEDE成功地表征了导致DNN精度下降的危险触发事件。此外,SEDE启用了重新培训,从而导致DNN准确性的显着提高,最高18个百分点。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
在这项工作中,我们考虑了视频游戏水平的程序内容生成问题。先前的方法依赖于能够生成不同级别的进化搜索方法,但是这一代过程很慢,这在实时设置中是有问题的。还提出了加强学习(RL)来解决相同的问题,尽管水平生成很快,但训练时间可能非常昂贵。我们提出了一个框架,以解决结合ES和RL的过程内容生成问题。特别是,我们的方法首先使用ES来生成一系列级别,然后使用行为克隆将这些级别的级别分配到策略中,然后可以查询该级别以快速产生新的水平。我们将方法应用于迷宫游戏和Super Mario Bros,结果表明我们的方法实际上会减少水平生成所需的时间,尤其是在需要越来越多的有效水平时。
translated by 谷歌翻译
为了协助游戏开发人员制作游戏NPC,我们展示了EvolvingBehavior,这是一种新颖的工具,用于基因编程,以在不真实的引擎4中发展行为树4.在初步评估中,我们将演变的行为与我们的研究人员设计的手工制作的树木和随机的树木进行了比较 - 在3D生存游戏中种植的树木。我们发现,在这种情况下,EvolvingBehavior能够产生行为,以实现设计师的目标。最后,我们讨论了共同创造游戏AI设计工具的探索的含义和未来途径,以及行为树进化的挑战和困难。
translated by 谷歌翻译
4月20日至22日,在马德里(西班牙)举行的EVO* 2022会议上提交了末期摘要。这些论文介绍了正在进行的研究和初步结果,这些结果研究了对不同问题的不同方法(主要是进化计算)的应用,其中大多数是现实世界中的方法。
translated by 谷歌翻译
最近,我们强调了一个基本问题,该问题被认为是混淆算法优化的,即\ textit {Confing}与目标函数的目标。即使前者的定义很好,后者也可能并不明显,例如,在学习一种策略来导航迷宫以找到目标(客观)时,有效的目标函数\ textit {评估}策略可能不是一个简单的功能到目标的距离。我们建议自动化可能发现良好的目标功能的手段 - 此处得到的建议。我们提出\ textbf {s} iolution \ textbf {a} nd \ textbf {f} itness \ textbf {e} volution(\ textbf {safe}),a \ textit {comensalistic} coovolutionary algorithm候选解决方案和一系列候选目标功能。作为此概念原理的证明,我们表明安全不仅成功地发展了机器人迷宫领域内的解决方案,而且还可以在进化过程中衡量解决方案质量所需的目标函数。
translated by 谷歌翻译
自从各种任务的自动化开始以来,自动驾驶车辆一直引起人们的兴趣。人类容易疲惫,在道路上的响应时间缓慢,最重要的是,每年约有135万道路交通事故死亡,这已经是一项危险的任务。预计自动驾驶可以减少世界上驾驶事故的数量,这就是为什么这个问题对研究人员感兴趣的原因。目前,自动驾驶汽车在使车辆自动驾驶时使用不同的算法来实现各种子问题。我们将重点关注增强学习算法,更具体地说是Q学习算法和增强拓扑的神经进化(NEAT),即进化算法和人工神经网络的组合,以训练模型代理,以学习如何在给定路径上驱动。本文将重点介绍上述两种算法之间的比较。
translated by 谷歌翻译
野火是一种高度普遍的多毒环境现象。这种现象的影响包括人类损失,环境破坏和高昂的经济成本。为了减轻这些效果,已经开发了几个计算机模拟系统,以根据一组输入参数预测火灾行为,也称为场景(风速和方向;温度;等)。但是,由于未知的变量值的不确定性,模拟的结果通常具有高度的误差,因为它们尚不清楚,或者由于其测量可能是不精确,错误或无法实时执行的。先前的工作提出了多种结果的组合,以减少这种不确定性。最先进的方法基于并行优化策略,该策略使用健身函数来指导所有可能场景之间的搜索。尽管这些方法显示了预测质量的改善,但它们具有与用于选择场景的算法有关的一些局限性。为了克服这些局限性,在这项工作中,我们建议应用新颖性搜索范式,该范围取代了目标函数的量度,以衡量所找到的解决方案的新颖性,这使搜索可以与彼此不同的行为不断生成解决方案。这种方法避免了本地Optima,并且可能能够找到有用的解决方案,而其他算法很难或无法找到。与现有方法一样,该提案也可以适用于其他传播模型(洪水,雪崩或滑坡)。
translated by 谷歌翻译
In today's uncertain and competitive market, where enterprises are subjected to increasingly shortened product life-cycles and frequent volume changes, reconfigurable manufacturing systems (RMS) applications play a significant role in the manufacturing industry's success. Despite the advantages offered by RMS, achieving a high-efficiency degree constitutes a challenging task for stakeholders and decision-makers when they face the trade-off decisions inherent in these complex systems. This study addresses work tasks and resource allocations to workstations together with buffer capacity allocation in RMS. The aim is to simultaneously maximize throughput and minimize total buffer capacity under fluctuating production volumes and capacity changes while considering the stochastic behavior of the system. An enhanced simulation-based multi-objective optimization (SMO) approach with customized simulation and optimization components is proposed to address the abovementioned challenges. Apart from presenting the optimal solutions subject to volume and capacity changes, the proposed approach support decision-makers with discovered knowledge to further understand the RMS design. In particular, this study presents a problem-specific customized SMO combined with a novel flexible pattern mining method for optimizing RMS and conducting post-optimal analyzes. To this extent, this study demonstrates the benefits of applying SMO and knowledge discovery methods for fast decision-support and production planning of RMS.
translated by 谷歌翻译
为了支持各种任务和处理不同的飞行环境,无人机控制程序通常提供可配置的控制参数。但是,这种灵活性引入了漏洞。最近已识别出一种称为范围规范错误的这种漏洞。该漏洞起源于即使每个单独的参数在推荐值范围内接收值,也可能影响无人机物理稳定性的某些组合。在本文中,我们开发了一种新颖的学习引导的搜索系统来寻找这样的组合,即我们称之为不正确的配置。我们的系统应用了Metaheuristic Search算法突变配置,以检测将无人机驱动到不稳定物理状态的值的配置参数。为了引导突变,我们的系统利用机器学习预测因子作为健身评估。最后,通过利用多目标优化,我们的系统基于突变搜索结果返回可行的范围。由于在我们的系统中,突变由预测器引导,评估参数配置不需要现实/仿真执行。因此,我们的系统支持全面但有效地检测不正确的配置。我们对我们的系统进行了实验评估。评估结果表明,该系统成功地报告了可能不正确的配置,其中85%以上导致实际不稳定的物理状态。
translated by 谷歌翻译
背景:机器学习(ML)可以实现有效的自动测试生成。目的:我们表征了新兴研究,检查测试实践,研究人员目标,应用的ML技术,评估和挑战。方法:我们对97个出版物的样本进行系统文献综述。结果:ML生成系统,GUI,单位,性能和组合测试的输入或改善现有生成方法的性能。 ML还用于生成测试判决,基于属性的和预期的输出序列。经常基于神经网络和强化学习的监督学习通常是基于Q学习的 - 很普遍,并且某些出版物还采用了无监督或半监督的学习。使用传统的测试指标和与ML相关的指标(例如准确性)评估(半/非 - )监督方法,而经常使用与奖励功能相关的测试指标来评估强化学习。结论:工作到尽头表现出巨大的希望,但是在培训数据,再探术,可伸缩性,评估复杂性,所采用的ML算法以及如何应用 - 基准和可复制性方面存在公开挑战。我们的发现可以作为该领域研究人员的路线图和灵感。
translated by 谷歌翻译
尽管机器人学课程在高等教育方面已建立,但这些课程通常专注于理论,有时缺乏对开发,部署和将软件应用于真实硬件的技术的系统覆盖。此外,大多数用于机器人教学的硬件平台是针对中学水平的年轻学生的低级玩具。为了解决这一差距,开发了一个自动驾驶汽车硬件平台,称为第1 f1 f1tth,用于教授自动驾驶系统。本文介绍了以“赛车”和替换考试的竞赛为主题的各种教育水平教学模块和软件堆栈。第1辆车提供了一个模块化硬件平台及其相关软件,用于教授自动驾驶算法的基础知识。从基本的反应方法到高级计划算法,教学模块通过使用第1辆车的自动驾驶来增强学生的计算思维。第1辆汽车填补了研究平台和低端玩具车之间的空白,并提供了学习自主系统中主题的动手经验。多年的四所大学为他们的学期本科和研究生课程采用了教学模块。学生反馈用于分析第1个平台的有效性。超过80%的学生强烈同意,硬件平台和模块大大激发了他们的学习,而超过70%的学生强烈同意,硬件增强了他们对学科的理解。调查结果表明,超过80%的学生强烈同意竞争激励他们参加课程。
translated by 谷歌翻译