解释中的歧义可以很容易地阻碍使用自然语言执行新任务的代理人。当老师通过参考对象的特征向学习者提供有关对象的指导时,学习者可以误解老师的意图,例如,如果指令模棱两可地指对象的特征,则是一种称为参考歧义的现象。我们研究了从认知科学中得出的两个概念如何帮助解决这些参考歧义:教育学(选择正确的说明)和实用主义(使用归纳推理学习其他代理的偏好)。我们将这些想法应用于教师/学习者的设置,并在模拟机器人任务(堆栈)中使用两个人工代理。我们表明,这些概念提高了培训学习者的样本效率。
translated by 谷歌翻译
从演示方法中学习通常利用接近最佳示范的方法来加速培训。相比之下,在展示任务时,人类教师会偏离​​最佳示威活动,并通过提供最佳歧视他们想要展示的目标的演示来改变其行为。类似地,人类的学习者在务实地推断老师的意图方面表现出色,从而促进了两个代理商之间的沟通。在少数示威制度中,这些机制至关重要,在少数示威制度中,推断目标更加困难。在本文中,我们通过利用示威活动的贝叶斯推断贝叶斯模型来实施教学法和实用主义机制。我们在多进球教师学习者的设置中强调了该模型的好处,并使用两个人工代理人通过目标条件的强化学习来学习。我们表明,将教学老师和务实的学习者结合起来会导致学习速度更快,并减少了从演示中进行标准学习的目标歧义,尤其是在少数示威制度中。
translated by 谷歌翻译
本文着重于机器人增强学习,并以稀疏的自然语言目标表示。一个开放的问题是源于自然语言的组成性,以及在感觉数据和动作中的语言基础。我们通过三个贡献来解决这些问题。我们首先提出了一种利用专家反馈的事后视角指导重播的机制。其次,我们提出了一个SEQ2SEQ模型,以生成语言的后代指令。最后,我们介绍了一类新颖的以语言为中心的学习任务。我们表明,事后看来指示可以提高预期的学习绩效。此外,我们还提供了一个意外的结果:我们表明,如果从某种意义上说,代理人学习以一种自我监督的方式与自己交谈,则可以提高代理的学习表现。我们通过学习生成语言指示来实现这一目标,这本来可以作为最初意外行为的自然语言目标。我们的结果表明,绩效增益随任务复杂性而增加。
translated by 谷歌翻译
从我们生命的最早几年开始,人类使用语言来表达我们的信念和欲望。因此,能够与人造代理讨论我们的偏好将实现价值一致性的核心目标。然而,今天,我们缺乏解释这种灵活和抽象语言使用的计算模型。为了应对这一挑战,我们考虑在线性强盗环境中考虑社会学习,并询问人类如何传达与行为的偏好(即奖励功能)。我们研究两种不同类型的语言:指令,提供有关所需政策的信息和描述,这些信息提供了有关奖励功能的信息。为了解释人类如何使用这些形式的语言,我们建议他们推理出已知和未知的未来状态:对当前的说明优化,同时描述对未来进行了推广。我们通过扩展奖励设计来考虑对国家的分配来形式化此选择。然后,我们定义了一种务实的听众,该代理人通过推理说话者如何表达自己来侵犯说话者的奖励功能。我们通过行为实验来验证我们的模型,表明(1)我们的说话者模型预测了自发的人类行为,并且(2)我们的务实的听众能够恢复其奖励功能。最后,我们表明,在传统的强化学习环境中,务实的社会学习可以与个人学习相结合并加速。我们的发现表明,从更广泛的语言中的社会学习,特别是,扩大了该领域的目前对指示的关注,以包括从描述中学习 - 是一种有前途的价值一致性和强化学习的有前途的方法。
translated by 谷歌翻译
我们考虑通过序贯决策设置中的示范教学问题。特别是,我们研究如何在演示中设计一个个性化课程,以加快学习者的融合。我们为两种流行的学习者型号提供统一的课程策略:最大因果熵逆加强学习(MaxEnt-IRL)和交叉熵行为克隆(Crossent-BC)。我们的统一战略基于难度评分计算的概念来突出排名。教师的最佳政策和学习者的当前政策。与现有技术相比,我们的战略不需要访问学习者的内部动态,并且在轻度技术条件下仍然享有类似的收敛保证。此外,我们将我们的课程策略调整到使用特定于任务特定难度分数的教师代理的环境。在合成车驾驶环境和基于导航环境的实验证明了我们课程策略的有效性。
translated by 谷歌翻译
语言指导的体现了AI基准,要求代理导航环境并操纵对象通常允许单向通信:人类用户向代理提供了自然语言命令,而代理只能被动地遵循命令。我们介绍了基于Alfred基准测试的基准测试后的拨号式拨号。Dialfred允许代理商积极向人类用户提出问题;代理使用用户响应中的其他信息来更好地完成其任务。我们发布了一个具有53K任务的问题和答案的人类注销数据集,以及一个可以回答问题的甲骨文。为了解决Dialfred,我们提出了一个提问者绩效框架,其中发问者通过人类通知的数据进行了预训练,并通过增强学习进行了微调。我们将拨号拨入公开,并鼓励研究人员提出和评估他们的解决方案,以构建支持对话的体现代理。
translated by 谷歌翻译
建立能够参与与人类社会互动的自治代理是AI的主要挑战之一。在深度加强学习(DRL)领域内,这一目标激励了多种作品上体现语言使用。然而,目前的方法在非常简化和非多样化的社交场合中关注语言作为通信工具:语言的“自然”减少到高词汇大小和变异性的概念。在本文中,我们认为针对人类级别的AI需要更广泛的关键社交技能:1)语言在复杂和可变的社会环境中使用; 2)超越语言,在不断发展的社会世界内的多模式设置中的复杂体现通信。我们解释了认知科学的概念如何帮助AI向人类智力绘制路线图,重点关注其社会方面。作为第一步,我们建议将目前的研究扩大到更广泛的核心社交技能。为此,我们展示了使用其他(脚本)社会代理商的多个网格世界环境来评估DRL代理商社交技能的基准。然后,我们研究了最近的Sota DRL方法的限制,当时在Sowisai上进行测试并讨论熟练社会代理商的重要下一步。视频和代码可在https://sites.google.com/view/socialai找到。
translated by 谷歌翻译
部署后,AI代理会遇到超出其自动解决问题能力的问题。利用人类援助可以帮助代理人克服其固有的局限性,并坚决应对陌生的情况。我们提出了一个通用的交互式框架,该框架使代理商能够从对任务和环境有知识的助手那里请求和解释丰富的上下文有用的信息。我们在模拟的人类辅助导航问题上证明了框架的实用性。在我们的方法中学到的援助要求政策的帮助下,导航代理与完全自主行为相比,在以前看不见的环境中发生的任务上的成功率提高了7倍。我们表明,代理商可以根据上下文来利用不同类型的信息,并分析学习援助要求政策的好处和挑战,当助手可以递归地将任务分解为子任务。
translated by 谷歌翻译
已知人类凝视是在操纵任务期间的潜在人类意图和目标的强大指标。这项工作研究人类教师的凝视模式证明了机器人的任务,并提出了这种模式可用于增强机器人学习的方式。使用Kinesthetic教学和视频演示,我们在教学中识别新颖的意图揭示凝视行为。这些在各种问题中被证明是从参考帧推理到多步任务的分割的各种问题。基于我们的研究结果,我们提出了两个概念验证算法,该算法表明,凝视数据可以增强多台任务的子任务分类,高达6%,奖励推理和策略学习,可为单步任务高达67%。我们的调查结果为机器人学习中的自然人凝视模型提供了基础,从演示设置上学习,并在利用人凝游来提高机器人学习的开放问题。
translated by 谷歌翻译
社会意识的机器人导航,其中需要机器人来优化其轨迹,除了到达没有碰撞的目标的目标外,还可以保持与人类的舒适和柔顺的空间互动,是人类背景下导航机器人的基本尚容的任务-robot互动。随着基于学习的方法已经实现了比以前的基于模型的方法更好的性能,它们仍然存在一些缺点:加强学习方法,在手工制作的奖励中回复优化,不太可能全面地模拟社会合会,可以导致奖励剥削问题;通过人类示范学习政策的反增强学习方法遭受昂贵的和部分样本,并且需要广泛的特征工程来合理。在本文中,我们提出了Fapl,一种反馈高效的互动强化学习方法,蒸煮了人的偏好和舒适性,成为奖励模型,作为指导代理人探索社会合准性的潜在方面的教师。介绍了混合体验和违规学习,以提高样品和人体反馈的效率。广泛的模拟实验证明了FAPPL的优势。用户学习,在现实世界中,在现实世界的情况下与人类导航的情况,进一步评估了定性地评估了学习机器人行为的好处。
translated by 谷歌翻译
我们对学习协调的互动代理感兴趣,即$ BUILDER $ - 执行操作但忽略任务的目标 - 以及$架构师$指导建造者以朝着任务的目标指导。我们定义和探索正式的设置,其中人工代理配备了允许它们同时学习任务的机制,同时同时演变共享通信协议。实验符号学领域表明,从先验的未知指示中学习的人类熟练程度。因此,我们从中获取灵感并提出了建筑师构建器问题(ABP):一个不对称的设置,其中建筑师必须学习指导建设者朝构建特定结构。该架构师知道目标结构,但不能在环境中行动,只能向构建器发送任意消息。另一方面的建筑师可以在环境中采取行动,但没有关于手头的任务的知识,必须学会解决它依赖于架构师发送的消息。至关重要的是,消息的含义最初没有在代理商之间定义,而是必须在整个学习中进行协商。在这些约束下,我们建议建筑师构建器迭代(abig),一个解决方案到架构师 - 建筑师的问题,其中建筑师利用Builder的学习模型指导它,同时构建器使用自模仿学习来加强其导游行为。我们分析ABIG的关键学习机制,并在ABP的二维实例化中测试,其中任务涉及抓取立方体,将它们放在给定位置或构建各种形状。在这种环境中,ABIG导致低级,高频,指导通信协议,不仅使建筑师构建器对能够在手头上解决任务,而且还可以概括到未操作任务。
translated by 谷歌翻译
实践和磨练技能构成了人类学习方式的基本组成部分,但很少专门培训人造代理人来执行它们。取而代之的是,它们通常是端到端训练的,希望有用的技能将被隐含地学习,以最大程度地提高某些外部奖励功能的折扣回报。在本文中,我们研究了如何将技能纳入具有较大州行动空间和稀疏奖励的复杂环境中的加固学习训练中。为此,我们创建了Skillhack,这是Nethack游戏的任务和相关技能的基准。我们评估了该基准测试的许多基准,以及我们自己的新型基于技能的方法层次启动(HKS),该方法的表现优于所有其他评估的方法。我们的实验表明,先验了解有用技能的学习可以显着改善代理在复杂问题上的表现。我们最终认为,利用预定义的技能为RL问题提供了有用的归纳偏见,尤其是那些具有较大国家行动空间和稀疏奖励的问题。
translated by 谷歌翻译
正如人类和动物在自然世界中学习的那样,它们会遇到远非统一的实体,情况和事件的分布。通常,经常遇到相对较小的经历,而许多重要的体验很少发生。现实的高度紧密,重尾的本质构成了人类和动物通过不断发展的专业记忆系统所面临的特殊学习挑战。相比之下,大多数流行的RL环境和基准涉及属性,对象,情况或任务的大致变化。 RL算法将如何在环境特征分布的世界(如我们的)中表现出较不统一的分布?为了探讨这个问题,我们开发了三个互补的RL环境,在这些环境中,代理商的经验根据Zipfian(离散幂定律)分布而变化。在这些基准上,我们发现标准的深入RL体系结构和算法获得了对常见情况和任务的有用知识,但无法充分了解稀有的情况。为了更好地了解这一失败,我们探讨了如何调整当前方法的不同方面,以帮助提高罕见事件的性能,并表明RL目标功能,代理商的记忆系统和自我监督的学习目标都可以影响代理商的能力从罕见的体验中学习。这些结果共同表明,从偏斜的经验中进行强大的学习是应用模拟或实验室以外的深度RL方法的关键挑战,而我们的Zipfian环境为衡量未来的进步朝着这一目标提供了基础。
translated by 谷歌翻译
尽管最近的强化学习最近在学习复杂的行为方面非常成功,但它需要大量的数据才能学习任务,更不用说能够适应新任务了。引起这种限制的根本原因之一在于试验学习范式的强化学习范式的性质,在这种情况下,代理商与任务进行交流并进行学习仅依靠奖励信号,这是隐含的,这是隐含的和不足以学习的一项任务很好。相反,人类主要通过语义表征或自然语言指示来学习新技能。但是,将语言指示用于机器人运动控制来提高适应性,这是一个新出现的主题和挑战。在本文中,我们提出了一种元素算法,该算法通过多个操纵任务中的语言说明来解决学习技能的挑战。一方面,我们的算法利用语言指令来塑造其对任务的解释,另一方面,它仍然学会了在试用过程中解决任务。我们在机器人操纵基准(Meta-World)上评估了算法,并且在培训和测试成功率方面显着优于最先进的方法。该代码可在\ url {https://tumi6robot.wixsite.com/million}中获得。
translated by 谷歌翻译
与人类在环境中共存的通用机器人必须学会将人类语言与其在一系列日常任务中有用的看法和行动联系起来。此外,他们需要获取各种曲目的一般专用技能,允许通过遵循无约束语言指示来组成长地平任务。在本文中,我们呈现了凯文(从语言和愿景撰写的行动),是一个露天模拟基准,用于学习Long-Horizo​​ n语言条件的任务。我们的目的是使可以开发能够通过船上传感器解决许多机器人操纵任务的代理商,并且仅通过人类语言指定。 Calvin任务在序列长度,动作空间和语言方面更复杂,而不是现有的视觉和语言任务数据集,并支持灵活的传感器套件规范。我们评估零拍摄的代理商以新颖的语言指示以及新的环境和对象。我们表明,基于多语境模仿学习的基线模型在凯文中表现不佳,表明有很大的空间,用于开发创新代理,了解学习将人类语言与这款基准相关的世界模型。
translated by 谷歌翻译
众所周知,在漫长的地平线和稀疏的奖励任务中,加强学习(RL)是困难的,需要大量的培训步骤。加快该过程的标准解决方案是利用额外的奖励信号,将其塑造以更好地指导学习过程。在语言条件的RL的背景下,语言输入的抽象和概括属性为更有效地塑造奖励的方式提供了机会。在本文中,我们利用这一想法并提出了一种自动奖励塑形方法,代理商从一般语言目标中提取辅助目标。这些辅助目标使用问题生成(QG)和问题答案(QA)系统:它们包括导致代理商尝试使用其自己的轨迹重建有关全球目标的部分信息的问题。当它成功时,它会获得与对答案的信心成正比的内在奖励。这激励代理生成轨迹,这些轨迹明确解释了一般语言目标的各个方面。我们的实验研究表明,这种方法不需要工程师干预来设计辅助目标,可以通过有效指导探索来提高样品效率。
translated by 谷歌翻译
To date, reinforcement learning has mostly been studied solving simple learning tasks. Reinforcement learning methods that have been studied so far typically converge slowly. The purpose of this work is thus twofold: 1) to investigate the utility of reinforcement learning in solving much more complicated learning tasks than previously studied, and 2) to investigate methods that will speed up reinforcement learning. This paper compares eight reinforcement learning frameworks: adaptive heuristic critic (AHC) learning due to Sutton, Q-learning due to Watkins, and three extensions to both basic methods for speeding up learning. The three extensions are experience replay, learning action models for planning, and teaching. The frameworks were investigated using connectionism as an approach to generalization. To evaluate the performance of different frameworks, a dynamic environment was used as a testbed. The enviromaaent is moderately complex and nondeterministic. This paper describes these frameworks and algorithms in detail and presents empirical evaluation of the frameworks.
translated by 谷歌翻译
本文提出了一种新颖的方法,该方法支持自然语言语音说明,以指导训练自动驾驶汽车时进行深度强化学习(DRL)算法。DRL方法是自动驾驶汽车(AV)代理的流行方法。但是,大多数现有的方法都是样本和时间的,并且缺乏与人类专家的自然通信渠道。在本文中,新的人类驾驶员如何从人类教练那里学习,激励我们研究人类在循环学习的新方法,并为代理商学习更自然和平易近人的培训界面。我们建议将自然语言语音说明(NLI)纳入基于模型的深度强化学习以训练自动驾驶汽车。我们与Carla模拟器中的一些最先进的DRL方法一起评估了所提出的方法。结果表明,NLI可以帮助缓解训练过程,并大大提高代理商的学习速度。
translated by 谷歌翻译
我们提供了有关诱导模型稀疏性如何帮助实现构图概括和在基础语言学习问题中更好的样本效率的研究。我们考虑在网格世界环境中具有简单的语言条件导航问题,并进行了分离的观察。我们表明,标准的神经体系结构并不总是产生组成概括。为了解决这个问题,我们设计了一个包含目标标识模块的代理,该模块鼓励教学和对象的属性中的单词之间的稀疏相关性,并将它们组合在一起以找到目标。目标标识模块的输出是对值迭代网络计划者的输入。即使从少数示威活动中学习,我们的代理商在包含属性的新颖组合的目标上保持了高度的性能。我们检查了代理的内部表示,并在单词中的字典和环境中的属性中找到正确的对应关系。
translated by 谷歌翻译
元强化学习(META-RL)是一种有前途的方法,使代理商能够快速学习新任务。但是,由于仅由奖励提供的任务信息不足,大多数元元素算法在多任任务方案中显示出较差的概括。语言条件的元RL通过匹配语言指令和代理的行为来改善概括。因此,从对称性学习是人类学习的一种重要形式,因此将对称性和语言指令结合到元素rl可以帮助提高算法的概括和学习效率。因此,我们提出了一种双MDP元提升学习方法,该方法可以通过对称数据和语言指令有效地学习新任务。我们在多个具有挑战性的操作任务中评估了我们的方法,实验结果表明我们的方法可以大大提高元强化学习的概括和效率。
translated by 谷歌翻译