随着机器学习(ML)在关键自主系统中的越来越多的使用,已经开发出运行时监视器来检测预测错误并使系统在操作过程中保持安全状态。已经提出了针对涉及各种感知任务和ML模型的不同应用,并将监视器进行了监视,并将特定的评估程序和指标用于不同的环境。本文介绍了三个统一面向安全的指标,代表了监视器的安全益处(安全增益),使用后的剩余安全差距(残留危险)以及对系统性能(可用性成本)的负面影响。要计算这些指标,需要定义两个返回功能,代表给定的ML预测如何影响预期的未来奖励和危害。三个用例(分类,无人机登陆和自动驾驶)用于证明如何根据建议的指标来表示文献的指标。这些示例的实验结果表明,不同的评估选择如何影响监视器的感知性能。由于我们的形式主义要求我们制定明确的安全假设,因此它使我们能够确保进行评估与高级系统要求符合。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
The usage of deep neural networks in safety-critical systems is limited by our ability to guarantee their correct behavior. Runtime monitors are components aiming to identify unsafe predictions and discard them before they can lead to catastrophic consequences. Several recent works on runtime monitoring have focused on out-of-distribution (OOD) detection, i.e., identifying inputs that are different from the training data. In this work, we argue that OOD detection is not a well-suited framework to design efficient runtime monitors and that it is more relevant to evaluate monitors based on their ability to discard incorrect predictions. We call this setting out-ofmodel-scope detection and discuss the conceptual differences with OOD. We also conduct extensive experiments on popular datasets from the literature to show that studying monitors in the OOD setting can be misleading: 1. very good OOD results can give a false impression of safety, 2. comparison under the OOD setting does not allow identifying the best monitor to detect errors. Finally, we also show that removing erroneous training data samples helps to train better monitors.
translated by 谷歌翻译
关键应用程序中机器学习(ML)组件的集成引入了软件认证和验证的新挑战。正在开发新的安全标准和技术准则,以支持基于ML的系统的安全性,例如ISO 21448 SOTIF用于汽车域名,并保证机器学习用于自主系统(AMLAS)框架。 SOTIF和AMLA提供了高级指导,但对于每个特定情况,必须将细节凿出来。我们启动了一个研究项目,目的是证明开放汽车系统中ML组件的完整安全案例。本文报告说,Smikk的安全保证合作是由行业级别的行业合作的,这是一个基于ML的行人自动紧急制动示威者,在行业级模拟器中运行。我们演示了AMLA在伪装上的应用,以在简约的操作设计域中,即,我们为其基于ML的集成组件共享一个完整的安全案例。最后,我们报告了经验教训,并在开源许可下为研究界重新使用的开源许可提供了傻笑和安全案例。
translated by 谷歌翻译
The last decade witnessed increasingly rapid progress in self-driving vehicle technology, mainly backed up by advances in the area of deep learning and artificial intelligence. The objective of this paper is to survey the current state-of-the-art on deep learning technologies used in autonomous driving. We start by presenting AI-based self-driving architectures, convolutional and recurrent neural networks, as well as the deep reinforcement learning paradigm. These methodologies form a base for the surveyed driving scene perception, path planning, behavior arbitration and motion control algorithms. We investigate both the modular perception-planning-action pipeline, where each module is built using deep learning methods, as well as End2End systems, which directly map sensory information to steering commands. Additionally, we tackle current challenges encountered in designing AI architectures for autonomous driving, such as their safety, training data sources and computational hardware. The comparison presented in this survey helps to gain insight into the strengths and limitations of deep learning and AI approaches for autonomous driving and assist with design choices. 1
translated by 谷歌翻译
本文提出了一个基于因果关系模型的框架,可以在该模型上建立有效的安全保证案例。在此过程中,我们基于确定的安全工程原则以及对ML结构保证论证的先前工作。本文定义了四类安全案例证据和结构化分析方法,可以在其中有效合并这些证据。在适当的情况下,使用这些贡献的抽象形式来说明他们评估的因果关系,它们对证据的安全论点和理想特性的贡献。基于提议的框架,重新评估了该领域的进展,并提出了一系列未来的研究方向,以在该领域中取得切实的进步。
translated by 谷歌翻译
为了实现安全的自动驾驶汽车(AV)操作,至关重要的是,AV的障碍检测模块可以可靠地检测出构成安全威胁的障碍物(即是安全至关重要的)。因此,希望对感知系统的评估指标捕获对象的安全性 - 临界性。不幸的是,现有的感知评估指标倾向于对物体做出强烈的假设,而忽略了代理之间的动态相互作用,因此不能准确地捕获现实中的安全风险。为了解决这些缺点,我们通过考虑自我车辆和现场障碍之间的闭环动态相互作用来引入互动障碍感知障碍检测评估度量指标。通过从最佳控制理论借用现有理论,即汉密尔顿 - 雅各比的可达性,我们提出了一种可构造``安全区域''的计算障碍方法:一个国家空间中的一个区域,该区域定义了安全 - 关键障碍为了定义安全目的的位置指标。我们提出的安全区已在数学上完成,并且可以轻松计算以反映各种安全要求。使用Nuscenes检测挑战排行榜的现成检测算法,我们证明我们的方法是计算轻量级,并且可以更好地捕获与基线方法更好地捕获关键的安全感知错误。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
Deep Neural Networks (DNNs) have been widely used to perform real-world tasks in cyber-physical systems such as Autonomous Driving Systems (ADS). Ensuring the correct behavior of such DNN-Enabled Systems (DES) is a crucial topic. Online testing is one of the promising modes for testing such systems with their application environments (simulated or real) in a closed loop taking into account the continuous interaction between the systems and their environments. However, the environmental variables (e.g., lighting conditions) that might change during the systems' operation in the real world, causing the DES to violate requirements (safety, functional), are often kept constant during the execution of an online test scenario due to the two major challenges: (1) the space of all possible scenarios to explore would become even larger if they changed and (2) there are typically many requirements to test simultaneously. In this paper, we present MORLOT (Many-Objective Reinforcement Learning for Online Testing), a novel online testing approach to address these challenges by combining Reinforcement Learning (RL) and many-objective search. MORLOT leverages RL to incrementally generate sequences of environmental changes while relying on many-objective search to determine the changes so that they are more likely to achieve any of the uncovered objectives. We empirically evaluate MORLOT using CARLA, a high-fidelity simulator widely used for autonomous driving research, integrated with Transfuser, a DNN-enabled ADS for end-to-end driving. The evaluation results show that MORLOT is significantly more effective and efficient than alternatives with a large effect size. In other words, MORLOT is a good option to test DES with dynamically changing environments while accounting for multiple safety requirements.
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
现实世界的对抗例(通常以补丁形式)对安全关键计算机视觉任务中的深度学习模型(如在自动驾驶中的视觉感知)中使用深度学习模型构成严重威胁。本文涉及用不同类型的对抗性斑块攻击时,对语义分割模型的稳健性进行了广泛的评价,包括数字,模拟和物理。提出了一种新的损失功能,提高攻击者在诱导像素错误分类方面的能力。此外,提出了一种新的攻击策略,提高了在场景中放置补丁的转换方法的期望。最后,首先扩展用于检测对抗性补丁的最先进的方法以应对语义分割模型,然后改进以获得实时性能,并最终在现实世界场景中进行评估。实验结果表明,尽管具有数字和真实攻击的对抗效果,其影响通常在空间上限制在补丁周围的图像区域。这将打开关于实时语义分段模型的空间稳健性的进一步疑问。
translated by 谷歌翻译
Learning enabled autonomous systems provide increased capabilities compared to traditional systems. However, the complexity of and probabilistic nature in the underlying methods enabling such capabilities present challenges for current systems engineering processes for assurance, and test, evaluation, verification, and validation (TEVV). This paper provides a preliminary attempt to map recently developed technical approaches in the assurance and TEVV of learning enabled autonomous systems (LEAS) literature to a traditional systems engineering v-model. This mapping categorizes such techniques into three main approaches: development, acquisition, and sustainment. We review the latest techniques to develop safe, reliable, and resilient learning enabled autonomous systems, without recommending radical and impractical changes to existing systems engineering processes. By performing this mapping, we seek to assist acquisition professionals by (i) informing comprehensive test and evaluation planning, and (ii) objectively communicating risk to leaders.
translated by 谷歌翻译
这项调查回顾了对基于视觉的自动驾驶系统进行行为克隆训练的解释性方法。解释性的概念具有多个方面,并且需要解释性的驾驶强度是一种安全至关重要的应用。从几个研究领域收集贡献,即计算机视觉,深度学习,自动驾驶,可解释的AI(X-AI),这项调查可以解决几点。首先,它讨论了从自动驾驶系统中获得更多可解释性和解释性的定义,上下文和动机,以及该应用程序特定的挑战。其次,以事后方式为黑盒自动驾驶系统提供解释的方法是全面组织和详细的。第三,详细介绍和讨论了旨在通过设计构建更容易解释的自动驾驶系统的方法。最后,确定并检查了剩余的开放挑战和潜在的未来研究方向。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
基于深度神经网络(DNN)的自主驱动系统(ADSS)预计将减少道路事故,并在运输领域提高安全性,因为它从驾驶任务中消除人为错误的因素。由于意外的驾驶条件,基于DNN的广告有时可能表现出错误或意外的行为,这可能导致事故。不可能概括所有驾驶条件的DNN模型性能。因此,在培训广告期间未考虑的驾驶条件可能导致自治车辆安全的不可预测的后果。本研究提出了一种基于AutoEncoder和时间序列分析的异常检测系统,以防止自动车辆在运行时进行安全临界不一致行为。我们称为Deepguard的方法包括两个组件。第一个组件,不一致的行为预测器,基于AutoEncoder和时间序列分析来重建驾驶场景。基于重建错误和阈值,它确定正常和意外的驾驶场景并预测潜在的不一致行为。第二个组件提供了飞行安全防护装置,即它自动激活治疗策略以防止行为不一致。我们评估了DeepGuard在预测使用已在Udacity Simulator中的可用开放的Sourced DNN的注入的异常驾驶场景预测的性能。我们的仿真结果表明,Deepguard的最佳变体可以预测司机广告的高达93%,Dave2广告的83%,在时期广告模型上的80%不一致行为,表现优于围攻和Deeproad。总体而言,DeepGuard可以通过执行预定义的安全罩来防止高达89%的ADS预测不一致行为。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
在公共道路上大规模的自动车辆部署有可能大大改变当今社会的运输方式。尽管这种追求是在几十年前开始的,但仍有公开挑战可靠地确保此类车辆在开放环境中安全运行。尽管功能安全性是一个完善的概念,但测量车辆行为安全的问题仍然需要研究。客观和计算分析交通冲突的一种方法是开发和利用所谓的关键指标。在与自动驾驶有关的各种应用中,当代方法利用了关键指标的潜力,例如用于评估动态风险或过滤大型数据集以构建方案目录。作为系统地选择适当的批判性指标的先决条件,我们在自动驾驶的背景下广泛回顾了批判性指标,其属性及其应用的现状。基于这篇综述,我们提出了一种适合性分析,作为一种有条不紊的工具,可以由从业者使用。然后,可以利用提出的方法和最新审查的状态来选择涵盖应用程序要求的合理的测量工具,如分析的示例性执行所证明。最终,高效,有效且可靠的衡量自动化车辆安全性能是证明其可信赖性的关键要求。
translated by 谷歌翻译
嵌入在自主系统中的机器学习(ML)组件的增加使用 - 所谓的启用学习的系统(LES) - 导致压力需要确保其功能安全性。至于传统的功能安全,在工业和学术界的新兴共识是为此目的使用保证案例。通常,保证案例支持可靠性的支持权,支持安全性,并且可以被视为组织争论和从安全分析和可靠性建模活动产生的证据的结构化方式。虽然这些保证活动传统上由基于协商一致的标准,但由于ML模型的特点和设计,在安全关键应用中,LES构成了新的挑战。在本文中,我们首先向LES提出了一种强调定量方面的总体保证框架,例如,打破系统级安全目标与可靠性指标中所述的组件级要求和支持索赔。然后,我们向ML分类器介绍一种新的模型 - 不可能可靠性评估模型(RAM),该分类器利用操作简档和鲁棒性验证证据。我们讨论了模型假设以及评估我们RAM揭示的ML可靠性的固有挑战,并提出了实用的解决方案。还基于RAM开发了较低ML组件级的概率安全争论。最后,为了评估和展示我们的方法,我们不仅对合成/基准数据集进行实验,还展示了我们对模拟中自动水下车辆的综合案例研究的方法。
translated by 谷歌翻译
随着自动驾驶汽车(AV)开发的发展,对环境中乘客和代理商的安全性的担忧已经上升。涉及自主控制车辆的每个现实世界交通碰撞都使这种担忧加剧了。开源自主驾驶实现显示了具有复杂相互依赖任务的软件体系结构,这很大程度上依赖于机器学习和深层神经网络(DNN),这些任务容易受到非确定性故障和角落案例的影响。这些复杂的子系统共同履行AV的任务,同时还保持安全性。尽管在提高对这些系统的经验可靠性和信心方面正在做出重大改进,但DNN验证的固有局限性在提供AV中提供确定性安全保证方面却引起了无法克服的挑战。我们提出了协同冗余(SR),这是一种用于复杂网络物理系统的安全架构,例如AV。 SR通过将系统的任务和安全任务解耦来提供可验证的安全保证。在独立履行其主要角色的同时,部分功能多余的任务和安全任务能够相互帮助,从而协同改善合并的系统。协同安全层仅使用可验证且可分析的软件来完成其任务。与任务层的密切协调可以更轻松,更早地检测系统中的紧急故障。 SR简化了任务层的优化目标并改进了其设计。 SR提供了高性能的安全部署,尽管本质上无法验证的机器学习软件。在这项工作中,我们首先介绍SR体系结构的设计和功能,然后评估解决方案的功效,重点关注AV中障碍物存在故障的关键问题。
translated by 谷歌翻译
Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
translated by 谷歌翻译