机器学习模型在许多现实世界中都有普遍的应用,这增加了这些训练有素模型的行为中正确性的重要性。找到一个良好的测试用例,可以揭示这些训练有素的系统中的潜在失败可以帮助重新训练这些模型以提高其正确性。对于训练有素的模型,失败的发生很少。因此,由于较大的搜索空间,有限的计算资源和可用时间,通过评估输入搜索空间或随机搜索中的每个样本来搜索这些罕见情况将是昂贵的,有时是棘手的。在本文中,我们试图解决与传统随机搜索更快地发现这些故障方案的挑战。我们方法的核心思想是根据培训数据的观察,实际统计数据绘制的数据以及来自域专家的知识,将输入数据空间分离出高失败概率和低/最小故障概率区域的输入数据空间。 。使用这些信息,我们可以设计一个生成模型,从中我们可以生成具有很可能揭示潜在故障的场景。我们在两种不同的实验场景上评估了这种方法,并能够比传统的随机搜索快速发现此类故障一千倍。
translated by 谷歌翻译
在过去的十年中,深入的强化学习(DRL)算法已经越来越多地使用,以解决各种决策问题,例如自动驾驶和机器人技术。但是,这些算法在部署在安全至关重要的环境中时面临着巨大的挑战,因为它们经常表现出错误的行为,可能导致潜在的关键错误。评估DRL代理的安全性的一种方法是测试它们,以检测可能导致执行过程中严重失败的故障。这就提出了一个问题,即我们如何有效测试DRL政策以确保其正确性和遵守安全要求。测试DRL代理的大多数现有作品都使用扰动代理的对抗性攻击。但是,这种攻击通常会导致环境的不切实际状态。他们的主要目标是测试DRL代理的鲁棒性,而不是测试代理商在要求方面的合规性。由于DRL环境的巨大状态空间,测试执行的高成本以及DRL算法的黑盒性质,因此不可能对DRL代理进行详尽的测试。在本文中,我们提出了一种基于搜索的强化学习代理(Starla)的测试方法,以通过有效地在有限的测试预算中寻找无法执行的代理执行,以测试DRL代理的策略。我们使用机器学习模型和专用的遗传算法来缩小搜索错误的搜索。我们将Starla应用于深Q学习剂,该Qualla被广泛用作基准测试,并表明它通过检测到与代理商策略相关的更多故障来大大优于随机测试。我们还研究了如何使用我们的搜索结果提取表征DRL代理的错误事件的规则。这些规则可用于了解代理失败的条件,从而评估其部署风险。
translated by 谷歌翻译
大多数基于机器学习的回归器从过去的观察结果有限的观察结果中提取信息,以便将来做出预测。因此,当对这些训练的模型的输入是具有与用于培训的数据明显不同的数据时,无法保证准确的预测。因此,使用这些模型在分布外输入数据上可能会导致与所需的结果完全不同的预测结果,这不仅是错误的,而且在某些情况下也可能是危险的。这些机器学习模型在任何系统中的成功部署都需要一个检测系统,该系统应该能够区分分布和分配数据(即与培训数据相似)。在本文中,我们使用降低的鲁棒随机切割森林(RRRCF)数据结构引入了一种新的检测过程方法,该方法可用于小型和大数据集。与强大的随机切割森林(RRCF)相似,RRRCF是一个结构化的,但训练数据子空间的表示形式减少了。该方法对低维数据和高维数据的经验结果表明,有关数据的推断可以有效地进行/退出训练分布,并且该模型很容易训练,而无需不困难的高参数调整。本文讨论了两个不同的用例,用于测试和验证结果。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
与人类驾驶相比,自动驾驶汽车有可能降低事故率。此外,这是自动车辆在过去几年中快速发展的动力。在高级汽车工程师(SAE)自动化级别中,车辆和乘客的安全责任从驾驶员转移到自动化系统,因此对这种系统进行彻底验证至关重要。最近,学术界和行业将基于方案的评估作为道路测试的互补方法,减少了所需的整体测试工作。在将系统的缺陷部署在公共道路上之前,必须确定系统的缺陷,因为没有安全驱动程序可以保证这种系统的可靠性。本文提出了基于强化学习(RL)基于场景的伪造方法,以在人行横道交通状况中搜索高风险场景。当正在测试的系统(SUT)不满足要求时,我们将场景定义为风险。我们的RL方法的奖励功能是基于英特尔的责任敏感安全性(RSS),欧几里得距离以及与潜在碰撞的距离。
translated by 谷歌翻译
自动化驾驶系统(ADSS)近年来迅速进展。为确保这些系统的安全性和可靠性,在未来的群心部署之前正在进行广泛的测试。测试道路上的系统是最接近真实世界和理想的方法,但它非常昂贵。此外,使用此类现实世界测试覆盖稀有角案件是不可行的。因此,一种流行的替代方案是在一些设计精心设计的具有挑战性场景中评估广告的性能,A.k.a.基于场景的测试。高保真模拟器已广泛用于此设置中,以最大限度地提高测试的灵活性和便利性 - 如果发生的情况。虽然已经提出了许多作品,但为测试特定系统提供了各种框架/方法,但这些作品之间的比较和连接仍然缺失。为了弥合这一差距,在这项工作中,我们在高保真仿真中提供了基于场景的测试的通用制定,并对现有工作进行了文献综述。我们进一步比较了它们并呈现开放挑战以及潜在的未来研究方向。
translated by 谷歌翻译
值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
强化学习和最近的深度增强学习是解决如Markov决策过程建模的顺序决策问题的流行方法。问题和选择算法和超参数的RL建模需要仔细考虑,因为不同的配置可能需要完全不同的性能。这些考虑因素主要是RL专家的任务;然而,RL在研究人员和系统设计师不是RL专家的其他领域中逐渐变得流行。此外,许多建模决策,例如定义状态和动作空间,批次的大小和批量更新的频率以及时间戳的数量通常是手动进行的。由于这些原因,RL框架的自动化不同组成部分具有重要意义,近年来它引起了很多关注。自动RL提供了一个框架,其中RL的不同组件包括MDP建模,算法选择和超参数优化是自动建模和定义的。在本文中,我们探讨了可以在自动化RL中使用的文献和目前的工作。此外,我们讨论了Autorl中的挑战,打开问题和研究方向。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
机器学习算法中多个超参数的最佳设置是发出大多数可用数据的关键。为此目的,已经提出了几种方法,例如进化策略,随机搜索,贝叶斯优化和启发式拇指规则。在钢筋学习(RL)中,学习代理在与其环境交互时收集的数据的信息内容严重依赖于许多超参数的设置。因此,RL算法的用户必须依赖于基于搜索的优化方法,例如网格搜索或Nelder-Mead单简单算法,这对于大多数R1任务来说是非常效率的,显着减慢学习曲线和离开用户的速度有目的地偏见数据收集的负担。在这项工作中,为了使RL算法更加用户独立,提出了一种使用贝叶斯优化的自主超参数设置的新方法。来自过去剧集和不同的超参数值的数据通过执行行为克隆在元学习水平上使用,这有助于提高最大化获取功能的加强学习变体的有效性。此外,通过紧密地整合在加强学习代理设计中的贝叶斯优化,还减少了收敛到给定任务的最佳策略所需的状态转换的数量。与其他手动调整和基于优化的方法相比,计算实验显示了有希望的结果,这突出了改变算法超级参数来增加所生成数据的信息内容的好处。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译
在自主驾驶场中,人类知识融合到深增强学习(DRL)通常基于在模拟环境中记录的人类示范。这限制了在现实世界交通中的概率和可行性。我们提出了一种两级DRL方法,从真实的人类驾驶中学习,实现优于纯DRL代理的性能。培训DRL代理商是在Carla的框架内完成了机器人操作系统(ROS)。对于评估,我们设计了不同的真实驾驶场景,可以将提出的两级DRL代理与纯DRL代理进行比较。在从人驾驶员中提取“良好”行为之后,例如在信号交叉口中的预期,该代理变得更有效,并且驱动更安全,这使得这种自主代理更适应人体机器人交互(HRI)流量。
translated by 谷歌翻译
在本文中,我们通过神经生成编码的神经认知计算框架(NGC)提出了一种无反向传播的方法,以机器人控制(NGC),设计了一种完全由强大的预测性编码/处理电路构建的代理,体现计划的原则。具体而言,我们制作了一种自适应剂系统,我们称之为主动预测性编码(ACTPC),该系统可以平衡内部生成的认知信号(旨在鼓励智能探索)与内部生成的仪器信号(旨在鼓励寻求目标行为)最终学习如何使用现实的机器人模拟器(即超现实的机器人套件)来控制各种模拟机器人系统以及复杂的机器人臂,以解决块提升任务并可能选择问题。值得注意的是,我们的实验结果表明,我们提出的ACTPC代理在面对稀疏(外部)奖励信号方面表现良好,并且具有竞争力或竞争性或胜过几种强大的基于反向Prop的RL方法。
translated by 谷歌翻译
防御网络攻击的计算机网络需要及时应对警报和威胁情报。关于如何响应的决定涉及基于妥协指标的多个节点跨多个节点协调动作,同时最大限度地减少对网络操作的中断。目前,PlayBooks用于自动化响应过程的部分,但通常将复杂的决策留给人类分析师。在这项工作中,我们在大型工业控制网络中提出了一种深度增强学习方法,以便在大型工业控制网络中进行自主反应和恢复。我们提出了一种基于关注的神经结构,其在保护下灵活地灵活。要培训和评估自治防御者代理,我们提出了一个适合加强学习的工业控制网络仿真环境。实验表明,学习代理可以有效减轻在执行前几个月几个月的可观察信号的进步。所提出的深度加强学习方法优于模拟中完全自动化的Playbook方法,采取更少的破坏性动作,同时在网络上保留更多节点。学习的政策对攻击者行为的变化也比PlayBook方法更加强大。
translated by 谷歌翻译
演员 - 评论家(AC)算法以求解钢筋学习问题而闻名,但它们也遭受了低采样效率。基于AC的策略优化过程是迭代的,并且需要经常访问代理环境系统来通过推出策略,收集奖励和状态(即样本)来评估和更新策略,并从中学习。它最终需要大量的样本来学习最佳政策。为了提高采样效率,我们提出了一种策略来优化培训数据集,该数据集含有从AC过程中收集的显着较少的样本。数据集优化由仅限最佳剧集操作,策略参数 - 健身模型和遗传算法模块。与控制自主动态系统的许多当代AC算法相比,由优化的训练数据集训练的最佳策略网络表现出优越的性能。标准基准测试的评估表明,该方法提高了采样效率,可确保更快地收敛到Optima,并且比其对应物更具数据效率。
translated by 谷歌翻译
近年来近年来,加固学习方法已经发展了一系列政策梯度方法,主要用于建模随机政策的高斯分布。然而,高斯分布具有无限的支持,而现实世界应用通常具有有限的动作空间。如果它提供有限支持,则该解剖会导致可以消除的估计偏差,因为它提出了有限的支持。在这项工作中,我们调查如何在Openai健身房的两个连续控制任务中训练该测试策略在训练时执行该测试策略。对于这两个任务来说,测试政策在代理人的最终预期奖励方面优于高斯政策,也显示出更多的稳定性和更快的培训过程融合。对于具有高维图像输入的卡路里环境,在高斯政策中,代理的成功率提高了63%。
translated by 谷歌翻译
Compared with model-based control and optimization methods, reinforcement learning (RL) provides a data-driven, learning-based framework to formulate and solve sequential decision-making problems. The RL framework has become promising due to largely improved data availability and computing power in the aviation industry. Many aviation-based applications can be formulated or treated as sequential decision-making problems. Some of them are offline planning problems, while others need to be solved online and are safety-critical. In this survey paper, we first describe standard RL formulations and solutions. Then we survey the landscape of existing RL-based applications in aviation. Finally, we summarize the paper, identify the technical gaps, and suggest future directions of RL research in aviation.
translated by 谷歌翻译
本文探讨了强化学习(RL)模型用于自动赛车的使用。与安全车是头等大事的乘用车相反,赛车的目的是最大程度地减少单圈时间。我们将问题视为一项强化学习任务,其中包括由车辆遥测组成的多维输入和连续的动作空间。为了找出哪种RL方法更好地解决了问题,以及获得的模型是否推广到未知轨道上,我们将10种深层确定性策略梯度(DDPG)变体进行了两个实验:i)〜研究RL方法如何学习驱动驱动赛车和ii)研究学习方案如何影响模型的推广能力。我们的研究表明,接受RL训练的模型不仅能够比基线开源手工机器人更快地驾驶,而且还可以推广到未知轨道。
translated by 谷歌翻译
Markov决策过程(MDP)为建模顺序决策问题提供了一种数学框架,其中许多是对安全性和安全性至关重要,例如自主驾驶和机器人控制。人工智能研究的快速发展已经创造了解决MDP的有效方法,例如深神经网络(DNN),加固学习(RL)和仿制学习(IL)。然而,这些用于解决MDP的流行模型既不彻底测试也不是严格的可靠性。我们呈现MDPFuzzer,这是求解MDP的模型的第一个Blackbox Fuzz测试框架。 MDPFuzzer通过检查目标模型是否进入异常和危险状态来形成oracelles。在模糊期间,MDPFuzzer通过测量可以减少累积奖励或形成新的状态序列来确定哪个突变状态。我们设计有效的技术来使用高斯混合模型(GMM)和动态期望 - 最大化(Dynem)来量化状态序列的“新鲜度”。我们还通过估计各种目标模型的局部敏感度,优先考虑具有泄露崩溃的高潜力。 MDPFuzzer在五种最先进的模型中进行了评估,用于解决MDP,包括监督DNN,RL,IL和多代理RL。我们的评估包括自动驾驶,飞机碰撞避免和经常用于基准测试的两个游戏的情况。在12小时的运行期间,我们在每个模型上找到超过80次碰撞触发状态序列。我们展示了鼓舞的发现,碰撞触发状态虽然正常,但与正常状态相比,诱导不同的神经元激活模式。我们进一步开发了异常行为检测器,以硬化所有评估的模型,并使用MDPFuzzer的调查结果修复它们,以显着提高其鲁棒性而不会牺牲精度。
translated by 谷歌翻译