机器人系统的参数调整是一项耗时且具有挑战性的任务,通常依赖于人类操作员的领域专业知识。此外,由于许多原因,现有的学习方法不适合参数调整,包括:缺乏“良好机器人行为”的明确数值指标;由于依赖现实世界实验数据而导致的数据有限;以及参数组合的较大搜索空间。在这项工作中,我们提出了一种开源MATLAB偏好优化和用于系统探索高维参数空间的机器人工具箱(Polar)的学习算法,该算法使用基于人类的基于人类偏好的学习。该工具箱的这个目的是系统,有效地实现两个目标之一:1)优化人类操作员偏好的机器人行为; 2)学习操作员的基本偏好格局,以更好地了解可调参数和操作员偏好之间的关系。极性工具箱仅使用主观反馈机制(成对的偏好,共同反馈和序数标签)来实现这些目标,以推断出贝叶斯后验,而不是基本的奖励功能决定用户的偏好。我们证明了工具箱在模拟中的性能,并介绍了基于人类偏好的学习的各种应用。
translated by 谷歌翻译
将动态机器人带入野外,需要平衡性能和安全之间。然而,旨在提供强大安全保证的控制器通常会导致保守行为,并调整这些控制器,以找到性能和安全之间的理想权衡通常需要域专业知识或仔细构造的奖励功能。这项工作提出了一种设计范式,用于系统地实现平衡性能和强大安全性的行为,通过将基于安全感知的基于偏好(PBL)与控制屏障功能(CBF)集成来实现平衡性能和鲁棒安全性。融合这些概念 - 安全感知的学习和安全关键控制 - 提供了一种在实践中实现复杂机器人系统的安全行为的强大手段。我们展示了这种设计范式的能力,以实现在硬件上的模拟和实验上的四足机器人的安全和表演感知的自主操作。
translated by 谷歌翻译
对于许多强化学习(RL)应用程序,指定奖励是困难的。本文考虑了一个RL设置,其中代理仅通过查询可以询问可以的专家来获取有关奖励的信息,例如,评估单个状态或通过轨迹提供二进制偏好。从如此昂贵的反馈中,我们的目标是学习奖励的模型,允许标准RL算法实现高预期的回报,尽可能少的专家查询。为此,我们提出了信息定向奖励学习(IDRL),它使用奖励的贝叶斯模型,然后选择要最大化信息增益的查询,这些查询是有关合理的最佳策略之间的返回差异的差异。与针对特定类型查询设计的先前主动奖励学习方法相比,IDRL自然地适应不同的查询类型。此外,它通过将焦点转移降低奖励近似误差来实现类似或更好的性能,从而降低奖励近似误差,以改善奖励模型引起的策略。我们支持我们的调查结果,在多个环境中进行广泛的评估,并具有不同的查询类型。
translated by 谷歌翻译
奖励学习是人机互动中的一个基本问题,使机器人与他们的人类用户想要的对齐方式。已经提出了许多基于偏好的学习算法和主动查询技术作为解决此问题的解决方案。在本文中,我们展示了一种用于基于活跃的偏好的奖励学习算法的库,使研究人员和从业者能够尝试现有技术,并轻松开发自己的各种模块的自己的算法。APREL可在HTTPS://github.com/stanford-iliad/aprel提供。
translated by 谷歌翻译
Authors are encouraged to submit new papers to INFORMS journals by means of a style file template, which includes the journal title. However, use of a template does not certify that the paper has been accepted for publication in the named journal. INFORMS journal templates are for the exclusive purpose of submitting to an INFORMS journal and should not be used to distribute the papers in print or online or to submit the papers to another publication.
translated by 谷歌翻译
由于其数据效率,贝叶斯优化已经出现在昂贵的黑盒优化的最前沿。近年来,关于新贝叶斯优化算法及其应用的发展的研究激增。因此,本文试图对贝叶斯优化的最新进展进行全面和更新的调查,并确定有趣的开放问题。我们将贝叶斯优化的现有工作分为九个主要群体,并根据所提出的算法的动机和重点。对于每个类别,我们介绍了替代模型的构建和采集功能的适应的主要进步。最后,我们讨论了开放的问题,并提出了有希望的未来研究方向,尤其是在分布式和联合优化系统中的异质性,隐私保护和公平性方面。
translated by 谷歌翻译
在本文中,我们研究了众所周知的团队导演问题,其中一批机器人通过访问地点收集奖励。通常,假设奖励是机器人已知的;但是,在环境监测或场景重建的应用中,奖励通常是主观的,并指定它们是具有挑战性的。我们提出了一个框架来通过向它们呈现替代解决方案来学习用户的未知偏好,并且用户在所提出的替代解决方案上提供排名。我们考虑了用户的两种情况:1)确定替代解决方案的最佳排名的确定性用户,以及根据未知概率分布提供最佳排名的噪声用户。对于确定性用户,我们提出了一个框架,以最大限度地减少与最佳解决方案的最大偏差的界限,即后悔。我们适应捕获嘈杂用户的方法,并最大限度地减少预期的遗憾。最后,我们展示了学习用户偏好的重要性以及在广泛的实验结果中使用真实的世界数据集进行环境监测问题的大量实验结果的性能。
translated by 谷歌翻译
有效推论是一种数学框架,它起源于计算神经科学,作为大脑如何实现动作,感知和学习的理论。最近,已被证明是在不确定性下存在国家估算和控制问题的有希望的方法,以及一般的机器人和人工代理人的目标驱动行为的基础。在这里,我们审查了最先进的理论和对国家估计,控制,规划和学习的积极推断的实现;描述当前的成就,特别关注机器人。我们展示了相关实验,以适应,泛化和稳健性而言说明其潜力。此外,我们将这种方法与其他框架联系起来,并讨论其预期的利益和挑战:使用变分贝叶斯推理具有功能生物合理性的统一框架。
translated by 谷歌翻译
强化学习(RL)旨在通过与环境的互动来找到最佳政策。因此,学习复杂行为需要大量的样本,这在实践中可能是持久的。然而,而不是系统地推理和积极选择信息样本,用于本地搜索的政策梯度通常从随机扰动获得。这些随机样品产生高方差估计,因此在样本复杂性方面是次优。积极选择内容性样本是贝叶斯优化的核心,它构成了过去样本的目标的概率替代物,以推理信息的后来的随后。在本文中,我们建议加入两个世界。我们利用目标函数的概率模型及其梯度开发算法。基于该模型,该算法决定查询嘈杂的零顺序oracle以提高梯度估计。生成的算法是一种新型策略搜索方法,我们与现有的黑盒算法进行比较。比较揭示了改进的样本复杂性和对合成目标的广泛实证评估的差异降低。此外,我们突出了主动抽样对流行的RL基准测试的好处。
translated by 谷歌翻译
在不确定性下的自动机器人决策中,必须考虑剥削和探索可用选项之间的权衡。如果可以利用与选项相关的次要信息,则此类决策问题通常可以作为上下文多臂强盗(CMAB)提出。在这项研究中,我们采用主动推断,该推断近年来在神经科学领域进行了积极研究,作为CMAB的替代行动选择策略。与常规的行动选择策略不同,在计算与决策代理人的概率模型相关的预期自由能(EFE)时,可以严格评估每种选项的不确定性,这是从自由能原理中得出的。我们专门解决了使用分类观察可能性函数的情况,因此EFE值在分析上是棘手的。我们介绍了基于变异和拉普拉斯近似值计算EFE的新近似方法。广泛的仿真研究结果表明,与其他策略相比,主动推断通常需要迭代率要少得多,以识别最佳选择并普遍实现累积累积的遗憾,以相对较低的额外计算成本。
translated by 谷歌翻译
我们考虑使用昂贵的功能评估(也称为实验)的黑匣子多目标优化(MOO)的问题,其中目标是通过最小化实验的总资源成本来近似真正的帕累托解决方案。例如,在硬件设计优化中,我们需要使用昂贵的计算模拟找到权衡性能,能量和面积开销的设计。关键挑战是选择使用最小资源揭示高质量解决方案的实验顺序。在本文中,我们提出了一种基于输出空间熵(OSE)搜索原理来解决MOO问题的一般框架:选择最大化每单位资源成本的信息的实验,这是真正的帕累托前线所获得的信息。我们适当地实例化了OSE搜索的原理,以导出以下四个Moo问题设置的高效算法:1)最基本的EM单一保真设置,实验昂贵且准确; 2)处理EM黑匣子约束}在不执行实验的情况下无法进行评估; 3)离散的多保真设置,实验可以在消耗的资源量和评估准确度时变化; 4)EM连续保真设置,其中连续函数近似导致巨大的实验空间。不同综合和现实世界基准测试的实验表明,基于OSE搜索的算法在既有计算效率和MOO解决方案的准确性方面改进了最先进的方法。
translated by 谷歌翻译
在RL的许多实际应用中,观察来自环境的状态过渡是昂贵的。例如,在核聚变的等离子体控制问题中,计算给定的状态对对的下一个状态需要查询昂贵的过渡功能,这可以导致许多小时的计算机模拟或美元科学研究。这种昂贵的数据收集禁止应用标准RL算法,该算法通常需要大量观察来学习。在这项工作中,我们解决了有效地学习策略的问题,同时为转换函数进行最小数量的状态动作查询。特别是,我们利用贝叶斯最优实验设计的想法,以指导选择国家行动查询以获得高效学习。我们提出了一种采集功能,该函数量化了状态动作对将提供多少信息对Markov决策过程提供的最佳解决方案。在每次迭代时,我们的算法最大限度地提高了该采集功能,选择要查询的最具信息性的状态动作对,从而产生数据有效的RL方法。我们试验各种模拟的连续控制问题,并显示我们的方法学习最佳政策,最高$ 5 $ - $ 1,000 \倍的数据,而不是基于模型的RL基线,10 ^ 3美元 - $ 10 ^ 5 \ times比无模型RL基线更少的数据。我们还提供了几种消融比较,这指出了从获得数据的原理方法产生的大量改进。
translated by 谷歌翻译
我们在这里采用贝叶斯非参数混合模型,以将多臂匪徒扩展到尤其是汤普森采样,以扩展到存在奖励模型不确定性的场景。在随机的多臂强盗中,播放臂的奖励是由未知分布产生的。奖励不确定性,即缺乏有关奖励生成分布的知识,引起了探索 - 开发权的权衡:强盗代理需要同时了解奖励分布的属性,并顺序决定下一步要采取哪种操作。在这项工作中,我们通过采用贝叶斯非参数高斯混合模型来进行奖励模型不确定性,将汤普森的抽样扩展到场景中,以进行灵活的奖励密度估计。提出的贝叶斯非参数混合物模型汤普森采样依次学习了奖励模型,该模型最能近似于真实但未知的每臂奖励分布,从而实现了成功的遗憾表现。我们基于基于后验分析的新颖的分析得出的,这是一种针对该方法的渐近遗憾。此外,我们从经验上评估了其在多样化和以前难以捉摸的匪徒环境中的性能,例如,在指数级的家族中,奖励不受异常值和不同的每臂奖励分布。我们表明,拟议的贝叶斯非参数汤普森取样优于表现,无论是平均累积的遗憾和遗憾的波动,最先进的替代方案。在存在强盗奖励模型不确定性的情况下,提出的方法很有价值,因为它避免了严格的逐案模型设计选择,但提供了重要的遗憾。
translated by 谷歌翻译
人类可以利用身体互动来教机器人武器。这种物理互动取决于任务,用户以及机器人到目前为止所学的内容。最先进的方法专注于从单一模态学习,或者假设机器人具有有关人类预期任务的先前信息,从而结合了多个互动类型。相比之下,在本文中,我们介绍了一种算法形式主义,该算法从演示,更正和偏好中学习。我们的方法对人类想要教机器人的任务没有任何假设。取而代之的是,我们通过将人类的输入与附近的替代方案进行比较,从头开始学习奖励模型。我们首先得出损失函数,该功能训练奖励模型的合奏,以匹配人类的示范,更正和偏好。反馈的类型和顺序取决于人类老师:我们使机器人能够被动地或积极地收集此反馈。然后,我们应用受约束的优化将我们学习的奖励转换为所需的机器人轨迹。通过模拟和用户研究,我们证明,与现有基线相比,我们提出的方法更准确地从人体互动中学习了操纵任务,尤其是当机器人面临新的或意外的目标时。我们的用户研究视频可在以下网址获得:https://youtu.be/fsujstyveku
translated by 谷歌翻译
在本文中,我们呈现AIDA,它是一种积极推断的代理,可以通过与人类客户端的互动来迭代地设计个性化音频处理算法。 AIDA的目标应用是在助听器(HA)算法的调整参数的情况下,每当HA客户端对其HA性能不满意时,提出了最有趣的替代值。 AIDA解释搜索“最有趣的替代品”作为最佳(声学)背景感知贝叶斯试验设计的问题。在计算术语中,AIDA被实现为基于有源推断的药剂,具有预期的试验设计的自由能标准。这种类型的建筑受到高效(贝叶斯)试验设计的神经经济模型的启发,并意味着AIDA包括用于声学信号和用户响应的生成概率模型。我们提出了一种用于声学信号的新型生成模型作为基于高斯过程分类器的时变自自回归滤波器和用户响应模型的总和。已经在生成模型的因子图中实施了完整的AIDA代理,并且通过对因子图的变分消息来实现所有任务(参数学习,声学上下文分类,试验设计等)。所有验证和验证实验和演示都可以在我们的GitHub存储库中自由访问。
translated by 谷歌翻译
最大值熵搜索(MES)是贝叶斯优化(BO)的最先进的方法之一。在本文中,我们提出了一种用于受约束问题的MES的新型变型,通过信息下限(CMES-IBO)称为受约束的ME,其基于互信息的下限的蒙特卡罗(MC)估计器(MI)。我们首先定义定义最大值的MI,以便它可以在可行性方面结合不确定性。然后,我们得出了保证非消极性的MI的下限,而传统ME的受约束对应物可以是负的。我们进一步提供了理论分析,确保我们估算者的低变异性,从未针对任何现有的信息理论博进行调查。此外,使用条件MI,我们将CMES-1BO扩展到并联设置,同时保持所需的性质。我们展示了CMES-IBO对多个基准功能和真实问题的有效性。
translated by 谷歌翻译
来自高斯过程(GP)模型的汤普森采样(TS)是一个强大的工具,用于优化黑盒功能。虽然TS享有强烈的理论担保和令人信服的实证性能,但它会引发大量的计算开销,可通过优化预算进行多项式。最近,已经提出了基于稀疏GP模型的可扩展TS方法来增加TS的范围,使其应用​​于足够多模态,嘈杂或组合需要的问题,以便要求解决超过几百个评估。但是,稀疏GPS引入的近似误差使所有现有的后悔界限无效。在这项工作中,我们对可扩展Ts进行了理论和实证分析。我们提供理论担保,并表明可以在标准TS上遗憾地享受可扩展TS的计算复杂性的急剧下降。这些概念索赔是针对合成基准测试的可扩展TS的实际实施,作为现实世界的高通量分子设计任务的一部分。
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
当从人类行为中推断出奖励功能(无论是演示,比较,物理校正或电子停靠点)时,它已证明对人类进行建模作为做出嘈杂的理性选择,并具有“合理性系数”,以捕获多少噪声或熵我们希望看到人类的行为。无论人类反馈的类型或质量如何,许多现有作品都选择修复此系数。但是,在某些情况下,进行演示可能要比回答比较查询要困难得多。在这种情况下,我们应该期望在示范中看到比比较中更多的噪音或次级临时性,并且应该相应地解释反馈。在这项工作中,我们提倡,将每种反馈类型的实际数据中的理性系数扎根,而不是假设默认值,对奖励学习具有重大的积极影响。我们在模拟反馈以及用户研究的实验中测试了这一点。我们发现,从单一反馈类型中学习时,高估人类理性可能会对奖励准确性和遗憾产生可怕的影响。此外,我们发现合理性层面会影响每种反馈类型的信息性:令人惊讶的是,示威并不总是最有用的信息 - 当人类的行为非常卑鄙时,即使在合理性水平相同的情况下,比较实际上就变得更加有用。 。此外,当机器人确定要要求的反馈类型时,它可以通过准确建模每种类型的理性水平来获得很大的优势。最终,我们的结果强调了关注假定理性级别的重要性,不仅是在从单个反馈类型中学习时,尤其是当代理商从多种反馈类型中学习时,尤其是在学习时。
translated by 谷歌翻译
多目标优化中的当前最新技术假设具有给定的效用函数,可以交互性地学习效用函数或试图确定完整的帕累托前部,需要对首选结果进行后启发。但是,现实世界中的问题的结果通常是基于隐式和明确的专家知识,因此很难定义效用功能,而交互式学习或启发后需要重复且昂贵的专家参与。为了减轻这种情况,我们使用偏好学习的专家知识来离线学习实用功能。与其他作品相比,我们不仅使用(成对)结果偏好,而且还使用有关实用程序功能空间的粗略信息。这使我们能够改善效用函数估计,尤其是在使用很少的结果时。此外,我们对实用程序功能学习任务中发生的不确定性进行建模,并通过整个优化链传播它们。我们学习公用事业功能的方法消除了重复专家参与的需求,同时仍导致高质量的结果。我们显示了在4个域中提出的方法的样本效率和质量提高,尤其是在替代效用函数无法精确捕获真正的专家效用函数的情况下。我们还表明,要获得良好的结果,重要的是要考虑诱发的不确定性并分析偏置样本的效果,这在现实世界中是一个常见的问题。
translated by 谷歌翻译