为了支持各种任务和处理不同的飞行环境,无人机控制程序通常提供可配置的控制参数。但是,这种灵活性引入了漏洞。最近已识别出一种称为范围规范错误的这种漏洞。该漏洞起源于即使每个单独的参数在推荐值范围内接收值,也可能影响无人机物理稳定性的某些组合。在本文中,我们开发了一种新颖的学习引导的搜索系统来寻找这样的组合,即我们称之为不正确的配置。我们的系统应用了Metaheuristic Search算法突变配置,以检测将无人机驱动到不稳定物理状态的值的配置参数。为了引导突变,我们的系统利用机器学习预测因子作为健身评估。最后,通过利用多目标优化,我们的系统基于突变搜索结果返回可行的范围。由于在我们的系统中,突变由预测器引导,评估参数配置不需要现实/仿真执行。因此,我们的系统支持全面但有效地检测不正确的配置。我们对我们的系统进行了实验评估。评估结果表明,该系统成功地报告了可能不正确的配置,其中85%以上导致实际不稳定的物理状态。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
自动驾驶汽车和卡车,自动车辆(AVS)不应被监管机构和公众接受,直到它们对安全性和可靠性有更高的信心 - 这可以通过测试最实际和令人信服地实现。但是,现有的测试方法不足以检查AV控制器的端到端行为,涉及与诸如行人和人机车辆等多个独立代理的交互的复杂,现实世界的角落案件。在街道和高速公路上的测试驾驶AVS无法捕获许多罕见的事件时,现有的基于仿真的测试方法主要关注简单的情景,并且不适合需要复杂的周围环境的复杂驾驶情况。为了解决这些限制,我们提出了一种新的模糊测试技术,称为AutoFuzz,可以利用广泛使用的AV模拟器的API语法。生成语义和时间有效的复杂驾驶场景(场景序列)。 AutoFuzz由API语法的受限神经网络(NN)进化搜索引导,以生成寻求寻找独特流量违规的方案。评估我们的原型基于最先进的学习的控制器,两个基于规则的控制器和一个工业级控制器,显示了高保真仿真环境中高效地找到了数百个流量违规。此外,通过AutoFuzz发现的基于学习的控制器进行了微调的控制器,成功减少了新版本的AV控制器软件中发现的流量违规。
translated by 谷歌翻译
背景:机器学习(ML)可以实现有效的自动测试生成。目的:我们表征了新兴研究,检查测试实践,研究人员目标,应用的ML技术,评估和挑战。方法:我们对97个出版物的样本进行系统文献综述。结果:ML生成系统,GUI,单位,性能和组合测试的输入或改善现有生成方法的性能。 ML还用于生成测试判决,基于属性的和预期的输出序列。经常基于神经网络和强化学习的监督学习通常是基于Q学习的 - 很普遍,并且某些出版物还采用了无监督或半监督的学习。使用传统的测试指标和与ML相关的指标(例如准确性)评估(半/非 - )监督方法,而经常使用与奖励功能相关的测试指标来评估强化学习。结论:工作到尽头表现出巨大的希望,但是在培训数据,再探术,可伸缩性,评估复杂性,所采用的ML算法以及如何应用 - 基准和可复制性方面存在公开挑战。我们的发现可以作为该领域研究人员的路线图和灵感。
translated by 谷歌翻译
在飞机系统绩效评估的背景下,深度学习技术可以快速从实验测量中推断模型,其详细的系统知识比基于物理的建模通常所需的详细知识。但是,这种廉价的模型开发也带来了有关模型可信度的新挑战。这项工作提出了一种新颖的方法,即物理学引导的对抗机学习(ML),从而提高了对模型物理一致性的信心。首先,该方法执行了物理引导的对抗测试阶段,以搜索测试输入,以显示行为系统不一致,同时仍落在可预见的操作条件范围内。然后,它进行了物理知识的对抗训练,以通过迭代降低先前未经证实的反描述的不需要的输出偏差来教授与系统相关的物理领域的模型。对两个飞机系统绩效模型的经验评估显示了我们对抗性ML方法在暴露两种模型的身体不一致方面的有效性,并提高其与物理领域知识一致的倾向。
translated by 谷歌翻译
当在安全 - 关键系统中使用深层神经网络(DNN)时,工程师应确定在测试过程中观察到的与故障(即错误输出)相关的安全风险。对于DNN处理图像,工程师在视觉上检查所有引起故障的图像以确定它们之间的共同特征。这种特征对应于危害触发事件(例如,低照明),这是安全分析的重要输入。尽管内容丰富,但这种活动却昂贵且容易出错。为了支持此类安全分析实践,我们提出了SEDE,该技术可为失败,现实世界图像中的共同点生成可读的描述,并通过有效的再培训改善DNN。 SEDE利用了通常用于网络物理系统的模拟器的可用性。它依靠遗传算法来驱动模拟器来生成与测试集中诱导失败的现实世界图像相似的图像。然后,它采用规则学习算法来得出以模拟器参数值捕获共同点的表达式。然后,派生表达式用于生成其他图像以重新训练和改进DNN。随着DNN执行车载传感任务,SEDE成功地表征了导致DNN精度下降的危险触发事件。此外,SEDE启用了重新培训,从而导致DNN准确性的显着提高,最高18个百分点。
translated by 谷歌翻译
Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously searches for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provides better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. DeLag is more effective than all baseline techniques in at least one case study (with p $\leq$ 0.05 and non-negligible effect size). Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation (up to 22%).
translated by 谷歌翻译
在过去的十年中,自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外,改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法,以检测无人机(UAV)环境中的关键特征。在这项调查中,对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先,详细讨论了各种类型的操纵器和握手,以及动态建模和控制方法。然后,讨论了降落在静态和动态平台上的。随后,诸如天气状况,州估计和避免碰撞之类的风险以确保安全过境。最后,调查了交付的UAV路由,该路由将主题分为两个领域:无人机操作和无人机合作操作。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
本文介绍了更深层的扩展版本,这是一种基于搜索的仿真集成测试解决方案,该解决方案生成了用于测试基于神经网络的巷道式泳道系统的检测失败测试方案。在新提出的版本中,我们使用了一组新的生物启发的搜索算法,遗传算法(GA),$({\ mu}+{\ lambda})$和$({\ mu},{\ mu},{\ lambda}),{\ lambda}) $进化策略(ES)和粒子群优化(PSO),利用了针对用于对测试场景进行建模的演示模型量身定制的优质人口种子和特定于域的交叉和突变操作。为了证明更深层次的新测试生成器的功能,我们就SBST 2021的网络物理系统测试竞赛中的五个参与工具进行了经验评估和比较。我们的评估显示了新提出的测试更深层次的发电机不仅代表了先前版本的可观改进,而且还被证明是有效和有效地引发相当数量的不同故障的测试方案,用于测试ML驱动的车道保存系统。在有限的测试时间预算,高目标故障严重性和严格的速度限制限制下,它们可以在促进测试方案多样性的同时触发几次失败。
translated by 谷歌翻译
本文提出了一种新颖的方法,用于在具有复杂拓扑结构的地下领域的搜索和救援行动中自动合作。作为CTU-Cras-Norlab团队的一部分,拟议的系统在DARPA SubT决赛的虚拟轨道中排名第二。与专门为虚拟轨道开发的获奖解决方案相反,该建议的解决方案也被证明是在现实世界竞争极为严峻和狭窄的环境中飞行的机上实体无人机的强大系统。提出的方法可以使无缝模拟转移的无人机团队完全自主和分散的部署,并证明了其优于不同环境可飞行空间的移动UGV团队的优势。该论文的主要贡献存在于映射和导航管道中。映射方法采用新颖的地图表示形式 - 用于有效的风险意识长距离计划,面向覆盖范围和压缩的拓扑范围的LTVMAP领域,以允许在低频道通信下进行多机器人合作。这些表示形式与新的方法一起在导航中使用,以在一般的3D环境中可见性受限的知情搜索,而对环境结构没有任何假设,同时将深度探索与传感器覆盖的剥削保持平衡。所提出的解决方案还包括一条视觉感知管道,用于在没有专用GPU的情况下在5 Hz处进行四个RGB流中感兴趣的对象的板上检测和定位。除了参与DARPA SubT外,在定性和定量评估的各种环境中,在不同的环境中进行了广泛的实验验证,UAV系统的性能得到了支持。
translated by 谷歌翻译
事实证明,变质测试对于许多领域中的测试案例生成和故障检测有效。它是一种软件测试策略,它使用程序的输入输出对之间的某些关系,称为变质关系。这种方法与自主系统域相关,因为它在可能难以确定的给定测试输入结果的情况下有助于。因此,在本文中,我们提供了变质测试以及自主系统域中的实现概述。我们在使用GNC API的自动无人机中实施了障碍物检测和回避任务,并在凉亭中的模拟旁边实现了障碍物。特别是,我们描述了对有效变质关系发展至关重要的特性和最佳实践。我们还展示了两种用于单态和多个无人机的变质测试的变质关系。我们的关系揭示了鉴于变质测试,实施和回避算法的几个属性和一些弱点。结果表明,变质测试在自主系统领域具有巨大的潜力,应考虑在该领域的质量保证。
translated by 谷歌翻译
通过分析大量数据来提供决策支持,大数据正在改革许多工业域。大数据测试旨在确保大数据系统在维护数据的性能和质量时运行平稳且无错误。但是,由于数据的多样性和复杂性,测试大数据具有挑战性。虽然众多研究对大数据测试进行了综合审查,但解决了测试技术和挑战的综合性尚未混淆。因此,我们对大数据测试技术(2010年 - 2021年)进行了系统审查。本文通过突出显示每个处理阶段的技术来讨论测试数据的处理。此外,我们讨论了挑战和未来的方向。我们的发现表明,已经使用不同的功能,非功能性和组合(功能和非功能性)测试技术来解决与大数据相关的特定问题。同时,在MapReduce验证阶段,大多数测试挑战都面临。此外,组合测试技术是与其他技术相结合的应用技术之一(即随机测试,突变测试,输入空间分区和等价测试),以解决在大数据测试期间面临的各种功能故障挑战。
translated by 谷歌翻译
近年来,随着传感器和智能设备的广泛传播,物联网(IoT)系统的数据生成速度已大大增加。在物联网系统中,必须经常处理,转换和分析大量数据,以实现各种物联网服务和功能。机器学习(ML)方法已显示出其物联网数据分析的能力。但是,将ML模型应用于物联网数据分析任务仍然面临许多困难和挑战,特别是有效的模型选择,设计/调整和更新,这给经验丰富的数据科学家带来了巨大的需求。此外,物联网数据的动态性质可能引入概念漂移问题,从而导致模型性能降解。为了减少人类的努力,自动化机器学习(AUTOML)已成为一个流行的领域,旨在自动选择,构建,调整和更新机器学习模型,以在指定任务上实现最佳性能。在本文中,我们对Automl区域中模型选择,调整和更新过程中的现有方法进行了审查,以识别和总结将ML算法应用于IoT数据分析的每个步骤的最佳解决方案。为了证明我们的发现并帮助工业用户和研究人员更好地实施汽车方法,在这项工作中提出了将汽车应用于IoT异常检测问题的案例研究。最后,我们讨论并分类了该领域的挑战和研究方向。
translated by 谷歌翻译
在过去的几十年中,经典的车辆路由问题(VRP),即为车辆分配一组订单并规划他们的路线已经被密集研究。仅作为车辆的订单分配和他们的路线已经是一个NP完整的问题,因此在实践中的应用通常无法考虑在现实世界应用中应用的约束和限制,所谓的富VRP所谓的富VRP(RVRP)并且仅限于单一方面。在这项工作中,我们融入了主要的相关真实限制和要求。我们提出了一种两级策略和时间线窗口和暂停时间的时间线算法,并将遗传算法(GA)和蚁群优化(ACO)单独应用于问题以找到最佳解决方案。我们对四种不同问题实例的评估,针对四个最先进的算法表明,我们的方法在合理的时间内处理所有给定的约束。
translated by 谷歌翻译
量化是在嵌入式系统或手机上部署训练有素的DNN模型时,是最应用的深神经网络(DNN)压缩策略之一。这是由于其对广泛的应用和情况的简单性和适应性,而不是特定的人工智能(AI)加速器和编译器,这些加速器和编译器通常仅用于某些特定的硬件(例如Google Coral Edge TPU)。随着对量化的需求不断增长,确保该策略的可靠性成为一个关键挑战。传统的测试方法收集越来越多的真实数据以进行更好的评估,通常是不切实际的,因为输入空间的尺寸很大,并且原始DNN及其量化的对应物之间的相似性很高。结果,高级评估策略已变得至关重要。在本文中,我们提出了Diverget,这是一个基于搜索的测试框架,用于量化评估。 Diverget定义了变质关系的空间,该空间模拟了输入上的自然扭曲。然后,它最佳地探索了这些关系,以揭示不同算术精度的DNN之间的分歧。我们评估了应用于高光谱遥感图像的最先进的DNN上的Diverget的性能。我们选择了遥感DNN,因为它们越来越多地部署在诸如气候变化研究和天文学之类的关键领域中的边缘(例如,高级无人机)。我们的结果表明,Diverget成功地挑战了已建立的量化技术的鲁棒性,以防止自然变化的数据,并胜过其最新的并发,Diffchaser,其成功率(平均)是四倍。
translated by 谷歌翻译
在许多科学领域中发现一个有意义的,尺寸同质的,象征性的表达是一个基本挑战。我们提出了一个新颖的开源计算框架,称为科学家机器方程探测器(Scimed),该框架将科学纪律智慧与科学家在循环的方法中融合在一起,并将其与最先进的符号回归(SR)方法相结合。Scimed将基于遗传算法的包装器选择方法与自动机器学习和两个SR方法结合在一起。我们对具有和没有非线性空气动力学阻力的球体沉降的四个配置进行了测试。我们表明,疲惫不堪的人足够坚固,可以从嘈杂的数据中发现正确的物理有意义的符号表达式。我们的结果表明,与最先进的SR软件包相比,这些任务的性能更好。
translated by 谷歌翻译
从意外的外部扰动中恢复的能力是双模型运动的基本机动技能。有效的答复包括不仅可以恢复平衡并保持稳定性的能力,而且在平衡恢复物质不可行时,也可以保证安全的方式。对于与双式运动有关的机器人,例如人形机器人和辅助机器人设备,可帮助人类行走,设计能够提供这种稳定性和安全性的控制器可以防止机器人损坏或防止伤害相关的医疗费用。这是一个具有挑战性的任务,因为它涉及用触点产生高维,非线性和致动系统的高动态运动。尽管使用基于模型和优化方法的前进方面,但诸如广泛领域知识的要求,诸如较大的计算时间和有限的动态变化的鲁棒性仍然会使这个打开问题。在本文中,为了解决这些问题,我们开发基于学习的算法,能够为两种不同的机器人合成推送恢复控制政策:人形机器人和有助于双模型运动的辅助机器人设备。我们的工作可以分为两个密切相关的指示:1)学习人形机器人的安全下降和预防策略,2)使用机器人辅助装置学习人类的预防策略。为实现这一目标,我们介绍了一套深度加强学习(DRL)算法,以学习使用这些机器人时提高安全性的控制策略。
translated by 谷歌翻译