我们的目标是执行分销(OOD)检测,即,检测机器人在从不同分布的环境中运行而不是用于训练机器人的环境。我们可能大致正确(PAC)--Bayes理论,以便在培训分布上培训一项保证性能的保证的政策。我们对OOD检测的关键思想依赖于以下直觉:违反测试环境的性能,提供了机器人运营的证据。我们通过基于p值和浓度不平等来使其通过统计技术来形式化。由此产生的方法(i)提供了保证的置信信心界限,包括探测器的假正负率和(ii)的误报和假负率的界限仅是任务驱动和敏感,仅适用于影响机器人性能的变化。我们在使用具有不熟悉的形状或姿势的对象以及在不熟悉的环境(包括风扰动和不同的障碍密度)中使用具有不熟悉的形状或姿势的对象和姿势的无人驾驶障碍物的仿真任务的模拟和硬件中的方法。我们的例子表明我们可以在少数季度试验中执行任务驱动的OOD检测。与基线的比较也展示了我们的方法的优势,以提供统计保证并对任务 - 无关分配转变不敏感。
translated by 谷歌翻译
我们的激励是以富裕的感觉输入(例如,愿景)的机器人系统的学习政策的问题,以便我们在培训期间保证概念的环境概括。我们提供了一个框架,用于通过利用现实世界环境的有限数据集结合(可能不准确)的环境的生成模型来提供这种概括保证。我们的方法背后的关键思想是利用生成模型,以便在策略之前隐式指定。通过最小化通过可能大致正确(PAC)泛化理论的新颖环境中预期成本的上限,使用环境的实际数据集更新。我们在两个模拟系统上展示了具有非线性/混合动态和富有的传感方式的两种模拟系统:(i)用板载视觉传感器的四轮车导航,并使用深度传感器抓住物体。与现有工作的比较展示了我们利用生成模型获得更强的泛化担保的能力。我们还提供了用于验证我们掌握任务的界限的硬件实验。
translated by 谷歌翻译
本文提出了一种学习议案人的方法,这些规划人员伴随着概率的成功保障在均可允许的集团内的机器人动态的任何干扰均匀。我们通过从泛化理论和强大的控制中汇集工具来实现这一目标。首先,我们策划一个运动原语库,其中每个原始的鲁棒性的特征在于前向可达集合的过度近似,即“漏斗”。然后,我们可能大致优化(PAC)--Bayes泛化界限,用于培训我们的计划者,以撰写这些原语,使整个漏斗尊重问题规范。我们展示了我们在两个模拟示例中提供了强担保的方法的能力:(i)在具有多辆车的五车道公路上的外部干扰下的自主车辆导航,(ii)在障碍场上导航无人机的导航风扰动的存在。
translated by 谷歌翻译
安全是自主系统的关键组成部分,仍然是现实世界中要使用的基于学习的政策的挑战。特别是,由于不安全的行为,使用强化学习学习的政策通常无法推广到新的环境。在本文中,我们提出了SIM到LAB到实验室,以弥合现实差距,并提供概率保证的安全意见政策分配。为了提高安全性,我们采用双重政策设置,其中通过累积任务奖励对绩效政策进行培训,并通过根据汉密尔顿 - 雅各布(Hamilton-Jacobi)(HJ)达到可达性分析来培训备用(安全)政策。在SIM到LAB转移中,我们采用监督控制方案来掩盖探索过程中不安全的行动;在实验室到实验室的转移中,我们利用大约正确的(PAC) - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外,从HJ可达性分析继承,界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架,具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料,请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。
translated by 谷歌翻译
分销(OOD)检测对于在现实世界中部署机器学习模型是重要的,其中来自移位分布的测试数据可以自然地出现。虽然最近出现了何种算法方法,但何种算法检测,临界差距仍然存在理论上。在这项工作中,我们开发了一个分析框架,其特征,并统一了对OOD检测的理论理解。我们的分析框架激励了一种新颖的电子网络,创业板的检测方法,展示了理论和经验的优势。特别是,在CIFAR-100作为分布数据中,我们的方法优于竞争性基线16.57%(FPR95)。最后,我们正式提供可证明的保证和对我们的方法进行全面分析,支撑数据分布的各种性能如何影响OOD检测的性能。
translated by 谷歌翻译
PAC-Bayes has recently re-emerged as an effective theory with which one can derive principled learning algorithms with tight performance guarantees. However, applications of PAC-Bayes to bandit problems are relatively rare, which is a great misfortune. Many decision-making problems in healthcare, finance and natural sciences can be modelled as bandit problems. In many of these applications, principled algorithms with strong performance guarantees would be very much appreciated. This survey provides an overview of PAC-Bayes performance bounds for bandit problems and an experimental comparison of these bounds. Our experimental comparison has revealed that available PAC-Bayes upper bounds on the cumulative regret are loose, whereas available PAC-Bayes lower bounds on the expected reward can be surprisingly tight. We found that an offline contextual bandit algorithm that learns a policy by optimising a PAC-Bayes bound was able to learn randomised neural network polices with competitive expected reward and non-vacuous performance guarantees.
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
我们介绍了学习然后测试,校准机器学习模型的框架,使其预测满足明确的,有限样本统计保证,无论底层模型如何和(未知)数据生成分布。框架地址,以及在其他示例中,在多标签分类中的错误发现速率控制,在实例分割中交叉联盟控制,以及同时控制分类或回归中的异常检测和置信度覆盖的类型误差。为实现这一目标,我们解决了一个关键的技术挑战:控制不一定单调的任意风险。我们的主要洞察力是将风险控制问题重新构建为多个假设检测,使技术和数学论据不同于先前文献中的技术。我们使用我们的框架为多个核心机器学习任务提供新的校准方法,在计算机视觉中具有详细的工作示例。
translated by 谷歌翻译
我们的目标是培训概括到看不见的环境的控制政策。灵感来自分布稳健的优化(DRO)框架,我们提出了通过对抗的环境的拖拉 - 分布鲁棒政策学习 - 通过产生对抗性环境来迭代提高对现实分布班次的鲁棒性。关键的想法是为潜在变量捕获环境中成本预测和现实变化的环境来学习生成模型。我们通过在潜在空间上通过梯度上升产生现实的对抗性环境,在环境的经验分布周围来对Wasserstein球进行DRO。我们展示了强大的分发(OOD)泛化在仿真中(i)用板载视觉摆动摆动柱子和(ii)掌握现实的3D对象。与域随机化相比,掌握硬件实验表明更好的SIM2REAL性能。
translated by 谷歌翻译
Effectively leveraging large, previously collected datasets in reinforcement learning (RL) is a key challenge for large-scale real-world applications. Offline RL algorithms promise to learn effective policies from previously-collected, static datasets without further interaction. However, in practice, offline RL presents a major challenge, and standard off-policy RL methods can fail due to overestimation of values induced by the distributional shift between the dataset and the learned policy, especially when training on complex and multi-modal data distributions. In this paper, we propose conservative Q-learning (CQL), which aims to address these limitations by learning a conservative Q-function such that the expected value of a policy under this Q-function lower-bounds its true value. We theoretically show that CQL produces a lower bound on the value of the current policy and that it can be incorporated into a policy learning procedure with theoretical improvement guarantees. In practice, CQL augments the standard Bellman error objective with a simple Q-value regularizer which is straightforward to implement on top of existing deep Q-learning and actor-critic implementations. On both discrete and continuous control domains, we show that CQL substantially outperforms existing offline RL methods, often learning policies that attain 2-5 times higher final return, especially when learning from complex and multi-modal data distributions.Preprint. Under review.
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
When testing conditions differ from those represented in training data, so-called out-of-distribution (OOD) inputs can mar the reliability of black-box learned components in the modern robot autonomy stack. Therefore, coping with OOD data is an important challenge on the path towards trustworthy learning-enabled open-world autonomy. In this paper, we aim to demystify the topic of OOD data and its associated challenges in the context of data-driven robotic systems, drawing connections to emerging paradigms in the ML community that study the effect of OOD data on learned models in isolation. We argue that as roboticists, we should reason about the overall system-level competence of a robot as it performs tasks in OOD conditions. We highlight key research questions around this system-level view of OOD problems to guide future research toward safe and reliable learning-enabled autonomy.
translated by 谷歌翻译
现在通常用于高风险设置,如医疗诊断,如医疗诊断,那么需要不确定量化,以避免后续模型失败。无分发的不确定性量化(无分布UQ)是用户友好的范式,用于为这种预测创建统计上严格的置信区间/集合。批判性地,间隔/集合有效而不进行分布假设或模型假设,即使具有最多许多DataPoints也具有显式保证。此外,它们适应输入的难度;当输入示例很困难时,不确定性间隔/集很大,信号传达模型可能是错误的。在没有多大的工作和没有再培训的情况下,可以在任何潜在的算法(例如神经网络)上使用无分​​发方法,以产生置信度集,以便包含用户指定概率,例如90%。实际上,这些方法易于理解和一般,应用于计算机视觉,自然语言处理,深度加强学习等领域出现的许多现代预测问题。这种实践介绍是针对对无需统计学家的免费UQ的实际实施感兴趣的读者。我们通过实际的理论和无分发UQ的应用领导读者,从保形预测开始,并使无关的任何风险的分布控制,如虚假发现率,假阳性分布检测,等等。我们将包括Python中的许多解释性插图,示例和代码样本,具有Pytorch语法。目标是提供读者对无分配UQ的工作理解,使它们能够将置信间隔放在算法上,其中包含一个自包含的文档。
translated by 谷歌翻译
部分可观察到的马尔可夫决策过程(POMDPS)是加强学习的自然和一般模型,以考虑到代理人对其当前国家的不确定性。在POMDPS的文献中,习惯性地假设在已知参数时计算最佳策略的规划Oracle,即使已知问题是计算的。几乎所有现有的规划算法都在指数时间内运行,缺乏可证明的性能保证,或者需要在每个可能的政策下对转换动态进行强烈的假设。在这项工作中,我们重新审视了规划问题并问:是否有自然和积极的假设,使计划变得容易?我们的主要结果是用于规划(一步)可观察POMDPS的QuasioInomial-time算法。具体而言,我们假设各国的分离良好的分布导致分开的观察分布,因此观察结果在每一步中至少有一些信息。至关重要的是,这个假设没有对POMDP的过渡动态的限制;尽管如此,它意味着近乎最佳的政策承认准简洁的描述,这通常不是真实的(在标准的硬度假设下)。我们的分析基于滤波器稳定性的新定量界限 - 即潜在状态的最佳滤波器的速率忘记其初始化。此外,在指数时间假设下,我们证明了在可观察POMDPS中规划的匹配硬度。
translated by 谷歌翻译
当在高风险机器人应用程序中部署机器学习模型时,检测不安全情况的能力至关重要。当迫在眉睫的情况下(在没有纠正措施的情况下),预警系统可以提供警报。为了可靠地提高安全性,这些警告系统应具有可证明的假负率;即,在没有警报的情况下,将发生不安全的情况,少于$ \ epsilon $。在这项工作中,我们提出了一个框架,将一种统计推理技术与机器人/环境动力学的模拟器相结合,以调整警告系统,以实现$ \ epsilon $ false的负率,使用$ 1//$ 1/\ epsilon $数据点。我们将框架应用于驾驶员警告系统和机器人抓握应用程序,并在经验上证明了错误的负率,同时也观察到较低的虚假检测(正)率。
translated by 谷歌翻译
使用历史观察数据的政策学习是发现广泛应用程序的重要问题。示例包括选择优惠,价格,要发送给客户的广告,以及选择要开出患者的药物。但是,现有的文献取决于这样一个关键假设,即将在未来部署学习策略的未来环境与生成数据的过去环境相同 - 这个假设通常是错误或太粗糙的近似值。在本文中,我们提高了这一假设,并旨在通过不完整的观察数据来学习一项稳健的策略。我们首先提出了一个政策评估程序,该程序使我们能够评估政策在最坏情况下的转变下的表现。然后,我们为此建议的政策评估计划建立了中心限制定理类型保证。利用这种评估方案,我们进一步提出了一种新颖的学习算法,该算法能够学习一项对对抗性扰动和未知协变量转移的策略,并根据统一收敛理论的性能保证进行了绩效保证。最后,我们从经验上测试了合成数据集中提出的算法的有效性,并证明它提供了使用标准策略学习算法缺失的鲁棒性。我们通过在现实世界投票数据集的背景下提供了我们方法的全面应用来结束本文。
translated by 谷歌翻译
背景。通常,深度神经网络(DNN)概括了从类似于训练集的分布的样本概括。然而,当测试样本从不同的分布中抽出时,DNNS的预测是脆性和不可靠的。这是在现实世界应用中部署的主要关注点,这种行为可能以相当大的成本,例如工业生产线,自治车辆或医疗保健应用。贡献。我们将DNN中的分布(OOD)检测出来作为统计假设检测问题。在我们所提出的框架内产生的测试将证据组合来自整个网络。与以前的检测启发式不同,此框架返回每个测试样本的$ p $ -value。有保证维护I型错误(T1E - 错误地识别OOD样本为ID)进行测试数据。此外,这允许在保持T1E的同时组合多个检测器。在此框架上建立,我们建议一种基于低阶统计数据的新型程序。我们的方法在不接受的EOD基准上的最新方法实现了比较或更好的结果,而无需再培训网络参数或假设测试分配的现有知识 - 并且以计算成本的一小部分。
translated by 谷歌翻译
在本文中,我们关注将基于能量的模型(EBM)作为运动优化的指导先验的问题。 EBM是一组神经网络,可以用合适的能量函数参数为参数的GIBBS分布来表示表达概率密度分布。由于其隐含性,它们可以轻松地作为优化因素或运动优化问题中的初始采样分布整合在一起,从而使它们成为良好的候选者,以将数据驱动的先验集成在运动优化问题中。在这项工作中,我们提出了一组所需的建模和算法选择,以使EBMS适应运动优化。我们调查了将其他正规化器在学习EBM中的好处,以将它们与基于梯度的优化器一起使用,并提供一组EBM架构,以学习用于操纵任务的可通用分布。我们提出了多种情况,可以将EBM集成以进行运动优化,并评估学到的EBM的性能,以指导模拟和真实机器人实验的指导先验。
translated by 谷歌翻译
面对顺序决策问题时,能够预测如果使用新策略进行决策会发生什么会发生什么。这些预测通常必须基于在一些先前使用的决策规则下收集的数据。许多以前的方法使得这种违规(或反事实)估计的性能测量值的预期值称为返回。在本文中,我们采取了迈向普遍违规估算机(UNO)的第一步 - 为返回分配的任何参数提供截止政策估计和高信任界限。我们使用UNO来估计和同时限制均值,方差,量级/中位数,分位式范围,CVAR和返回的整个累积分布。最后,我们还在各种环境中讨论了UNO的适用性,包括完全可观察,部分可观察的(即,与未观察到的混乱),马尔可夫,非马尔可瓦尔,静止,平稳的非稳定性和离散分布转移。
translated by 谷歌翻译
将机器人放置在受控条件外,需要多功能的运动表示,使机器人能够学习新任务并使其适应环境变化。在工作区中引入障碍或额外机器人的位置,由于故障或运动范围限制导致的关节范围的修改是典型的案例,适应能力在安全地执行机器人任务的关键作用。已经提出了代表适应性运动技能的概率动态(PROMP),其被建模为轨迹的高斯分布。这些都是在分析讲道的,可以从少数演示中学习。然而,原始PROMP制定和随后的方法都仅为特定运动适应问题提供解决方案,例如障碍避免,以及普遍的,统一的适应概率方法缺失。在本文中,我们开发了一种用于调整PROMP的通用概率框架。我们统一以前的适应技术,例如,各种类型的避避,通过一个框架,互相避免,在一个框架中,并将它们结合起来解决复杂的机器人问题。另外,我们推导了新颖的适应技术,例如时间上未结合的通量和互相避免。我们制定适应作为约束优化问题,在那里我们最小化适应的分布与原始原始的分布之间的kullback-leibler发散,而我们限制了与不希望的轨迹相关的概率质量为低电平。我们展示了我们在双机器人手臂设置中的模拟平面机器人武器和7-DOF法兰卡 - Emika机器人的若干适应问题的方法。
translated by 谷歌翻译