当人类彼此合作时,他们经常通过观察他人来做出决定,并考虑到他们的行为可能在整个团队中的后果,而不是贪婪地做到最好的事情。我们希望我们的AI代理商通过捕获其合作伙伴的模型来有效地以类似的方式协作。在这项工作中,我们提出并分析了分散的多武装强盗(MAB)问题,耦合奖励作为更一般的多代理协作的抽象。我们展示了当申请分散的强盗团队时单代理最佳MAB算法的NA \“IVE扩展失败。相反,我们提出了一个合作伙伴感知策略,用于联合连续决策,这些策略扩展了众所周知的单王子的上置信度算法。我们分析表明,我们的拟议战略达到了对数遗憾,并提供了涉及人类AI和人机协作的广泛实验,以验证我们的理论发现。我们的结果表明,拟议的合作伙伴感知策略优于其他已知方法,以及我们的人类主题研究表明人类宁愿与实施我们合作伙伴感知战略的AI代理商合作。
translated by 谷歌翻译
由于信息不对称,多智能经纪增强学习(Marl)问题是挑战。为了克服这一挑战,现有方法通常需要代理商之间的高度协调或沟通。我们考虑具有在应用中产生的分层信息结构的两个代理多武装匪徒(MAB)和MARKOV决策过程(MDP),我们利用不需要协调或通信的更简单和更高效的算法。在结构中,在每个步骤中,“领导者”首先选择她的行动,然后“追随者”在观察领导者的行动后,“追随者”决定他的行动。这两个代理观察了相同的奖励(以及MDP设置中的相同状态转换),这取决于其联合行动。对于强盗设置,我们提出了一种分层匪盗算法,实现了$ \ widetilde {\ mathcal {o}}(\ sqrt {abt})$和近最佳差距依赖的近乎最佳的差距遗憾$ \ mathcal {o}(\ log(t))$,其中$ a $和$ b $分别是领导者和追随者的行动数,$ t $是步数。我们进一步延伸到多个追随者的情况,并且具有深层层次结构的情况,在那里我们都获得了近乎最佳的遗憾范围。对于MDP设置,我们获得$ \ widetilde {\ mathcal {o}}(\ sqrt {h ^ 7s ^ 2abt})$后悔,其中$ h $是每集的步骤数,$ s $是数量各国,$ T $是剧集的数量。这与$ a,b $和$ t $的现有下限匹配。
translated by 谷歌翻译
人类代理团队,这是一个问题,其中人类和自治机构合作实现一项任务,是人类AI协作的典型。为有效的合作,人类希望有一个有效的计划,而是在现实的情况下,他们可能难以计算由于认知限制的最佳计划。在这种情况下,具有许多计算资源的代理的指导可能是有用的。但是,如果代理人明确指导人类行为,人类可能会觉得他们已经失去了自主,并由代理商控制。因此,我们调查了通过代理人行为提供的隐性指导。通过这种指导,代理商以一种方式使人类能够易于找到合作任务的有效计划,然后可以改善计划。由于人类自愿改善了他们的计划,他或她保持自治。我们通过将贝叶斯思想理论集成到现有的协作规划算法中并通过行为实验进行了模拟了一个具有隐含指导,并通过隐性指导的行为实验证明了使人们能够在改善计划和保留自治之间保持平衡。
translated by 谷歌翻译
When robots interact with humans in homes, roads, or factories the human's behavior often changes in response to the robot. Non-stationary humans are challenging for robot learners: actions the robot has learned to coordinate with the original human may fail after the human adapts to the robot. In this paper we introduce an algorithmic formalism that enables robots (i.e., ego agents) to co-adapt alongside dynamic humans (i.e., other agents) using only the robot's low-level states, actions, and rewards. A core challenge is that humans not only react to the robot's behavior, but the way in which humans react inevitably changes both over time and between users. To deal with this challenge, our insight is that -- instead of building an exact model of the human -- robots can learn and reason over high-level representations of the human's policy and policy dynamics. Applying this insight we develop RILI: Robustly Influencing Latent Intent. RILI first embeds low-level robot observations into predictions of the human's latent strategy and strategy dynamics. Next, RILI harnesses these predictions to select actions that influence the adaptive human towards advantageous, high reward behaviors over repeated interactions. We demonstrate that -- given RILI's measured performance with users sampled from an underlying distribution -- we can probabilistically bound RILI's expected performance across new humans sampled from the same distribution. Our simulated experiments compare RILI to state-of-the-art representation and reinforcement learning baselines, and show that RILI better learns to coordinate with imperfect, noisy, and time-varying agents. Finally, we conduct two user studies where RILI co-adapts alongside actual humans in a game of tag and a tower-building task. See videos of our user studies here: https://youtu.be/WYGO5amDXbQ
translated by 谷歌翻译
在复杂的协作任务上共同努力需要代理商协调他们的行为。在实际交互之前明确或完全执行此操作并不总是可能也不充分。代理人还需要不断了解他人的当前行动,并迅速适应自己的行为。在这里,我们调查我们称之为信仰共鸣的精神状态(意图,目标)的效率,自动协调过程如何导致协作的解决问题。我们为协作剂(HAICA)提出了分层有源推断的模型。它将高效的贝叶斯理论与基于预测处理和主动推断的感知动作系统相结合。通过让一个药物的推断精神状态影响另一个代理人的预测信念来实现信仰共振,从而实现了他自己的目标和意图。这样,推断的精神状态影响了代理人自己的任务行为,没有明确的协作推理。我们在超核域中实施和评估此模型,其中两个代理具有不同程度的信仰共振组合,以满足膳食订单。我们的结果表明,基于HAICA的代理商实现了与最近现有技术方法相当的团队表现,同时产生了更低的计算成本。我们还表明,信仰共振在环境中特别有益,代理商是对环境的不对称知识。结果表明,信仰共振和有效推断允许快速高效的代理协调,因此可以用作合作认知剂的结构块。
translated by 谷歌翻译
最先进的多机构增强学习(MARL)方法为各种复杂问题提供了有希望的解决方案。然而,这些方法都假定代理执行同步的原始操作执行,因此它们不能真正可扩展到长期胜利的真实世界多代理/机器人任务,这些任务固有地要求代理/机器人以异步的理由,涉及有关高级动作选择的理由。不同的时间。宏观行动分散的部分可观察到的马尔可夫决策过程(MACDEC-POMDP)是在完全合作的多代理任务中不确定的异步决策的一般形式化。在本论文中,我们首先提出了MacDec-Pomdps的一组基于价值的RL方法,其中允许代理在三个范式中使用宏观成果功能执行异步学习和决策:分散学习和控制,集中学习,集中学习和控制,以及分散执行的集中培训(CTDE)。在上述工作的基础上,我们在三个训练范式下制定了一组基于宏观行动的策略梯度算法,在该训练范式下,允许代理以异步方式直接优化其参数化策略。我们在模拟和真实的机器人中评估了我们的方法。经验结果证明了我们在大型多代理问题中的方法的优势,并验证了我们算法在学习具有宏观actions的高质量和异步溶液方面的有效性。
translated by 谷歌翻译
我们考虑了一个特殊的匪徒问题的情况,即批处理匪徒,其中代理在一定时间段内观察批次的响应。与以前的工作不同,我们考虑了一个更实际相关的以批量学习为中心的情况。也就是说,我们提供了政策不足的遗憾分析,并为候选政策的遗憾展示了上和下限。我们的主要理论结果表明,批处理学习的影响是相对于在线行为的遗憾,批处理大小的多重因素。首先,我们研究了随机线性匪徒的两个设置:有限且无限多手臂的土匪。尽管两种设置的遗憾界限都是相同的,但前者的设置结果在温和的假设下保持。另外,我们为2臂匪徒问题作为重要见解提供了更强大的结果。最后,我们通过进行经验实验并反思最佳批量选择来证明理论结果的一致性。
translated by 谷歌翻译
我们考虑非平稳马尔可夫决策过程中的无模型增强学习(RL)。只要其累积变化不超过某些变化预算,奖励功能和国家过渡功能都可以随时间随时间变化。我们提出了重新启动的Q学习,以上置信度范围(RestartQ-UCB),这是第一个用于非平稳RL的无模型算法,并表明它在动态遗憾方面优于现有的解决方案。具体而言,带有freedman型奖励项的restartq-ucb实现了$ \ widetilde {o}(s^{\ frac {1} {3}} {\ frac {\ frac {1} {1} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {3}} {\ delta ^{\ frac {1} {3}} h t^{\ frac {2} {3}}} $,其中$ s $和$ a $分别是$ \ delta> 0 $的状态和动作的数字是变化预算,$ h $是每集的时间步数,而$ t $是时间步长的总数。我们进一步提出了一种名为Double-Restart Q-UCB的无参数算法,该算法不需要事先了解变化预算。我们证明我们的算法是\ emph {几乎是最佳},通过建立$ \ omega的信息理论下限(s^{\ frac {1} {1} {3}}} a^{\ frac {1} {1} {3}}}}}} \ delta^{\ frac {1} {3}} h^{\ frac {2} {3}}}} t^{\ frac {2} {3}}} $,是非稳态RL中的第一个下下限。数值实验可以根据累积奖励和计算效率来验证RISTARTQ-UCB的优势。我们在相关产品的多代理RL和库存控制的示例中证明了我们的结果的力量。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
Due mostly to its application to cognitive radio networks, multiplayer bandits gained a lot of interest in the last decade. A considerable progress has been made on its theoretical aspect. However, the current algorithms are far from applicable and many obstacles remain between these theoretical results and a possible implementation of multiplayer bandits algorithms in real cognitive radio networks. This survey contextualizes and organizes the rich multiplayer bandits literature. In light of the existing works, some clear directions for future research appear. We believe that a further study of these different directions might lead to theoretical algorithms adapted to real-world situations.
translated by 谷歌翻译
Human and robot partners increasingly need to work together to perform tasks as a team. Robots designed for such collaboration must reason about how their task-completion strategies interplay with the behavior and skills of their human team members as they coordinate on achieving joint goals. Our goal in this work is to develop a computational framework for robot adaptation to human partners in human-robot team collaborations. We first present an algorithm for autonomously recognizing available task-completion strategies by observing human-human teams performing a collaborative task. By transforming team actions into low dimensional representations using hidden Markov models, we can identify strategies without prior knowledge. Robot policies are learned on each of the identified strategies to construct a Mixture-of-Experts model that adapts to the task strategies of unseen human partners. We evaluate our model on a collaborative cooking task using an Overcooked simulator. Results of an online user study with 125 participants demonstrate that our framework improves the task performance and collaborative fluency of human-agent teams, as compared to state of the art reinforcement learning methods.
translated by 谷歌翻译
信息共享是建立团队认知并实现协调与合作的关键。高性能的人类团队也从战略性地采用迭代沟通和合理性的层次结构级别中受益,这意味着人类代理可以推理队友在决策中的行动。然而,多代理强化学习(MARL)的大多数先前工作不支持迭代的理性性,而只能鼓励跨性别的沟通,从而实现了次优的平衡合作策略。在这项工作中,我们表明,在优化政策梯度(PG)时,将代理商的政策重新制定为有条件依靠其邻近队友的政策,从而固有地提高了相互信息(MI)的最大程度。在有限的理性和认知层次结构理论下的决策观念的基础上,我们表明我们的修改后的PG方法不仅可以最大化本地代理人的奖励,而且还隐含着关于代理之间MI的理由,而无需任何明确的临时正则化术语。我们的方法Infopg在学习新兴的协作行为方面优于基准,并在分散的合作MARL任务中设定了最先进的工作。我们的实验通过在几个复杂的合作多代理域中实现较高的样品效率和更大的累积奖励来验证InfoPG的实用性。
translated by 谷歌翻译
在潜在的强盗问题中,学习者可以访问奖励分布,并且 - 对于非平稳的变体 - 环境的过渡模型。奖励分布在手臂和未知的潜在状态下进行条件。目的是利用奖励历史来识别潜在状态,从而使未来的武器选择最佳。潜在的匪徒设置将自己适用于许多实际应用,例如推荐人和决策支持系统,其中丰富的数据允许在线学习的环境模型的离线估算仍然是关键组成部分。在这种情况下,以前的解决方案始终根据代理商对国家的信念选择最高的奖励组,而不是明确考虑信息收集臂的价值。这种信息收集的武器不一定会提供最高的奖励,因此永远不会选择始终选择最高奖励武器的代理商选择。在本文中,我们提出了一种潜在土匪信息收集的方法。鉴于特殊的奖励结构和过渡矩阵,我们表明,鉴于代理商对国家的信念,选择最好的手臂会产生更高的遗憾。此外,我们表明,通过仔细选择武器,我们可以改善对国家分布的估计,从而通过将来通过更好的手臂选择来降低累积后悔。我们在合成和现实世界数据集上评估了我们的方法,显示出对最新方法的遗憾显着改善。
translated by 谷歌翻译
我们提出了贝叶斯团队模仿学习者(BTIL),这是一种模仿学习算法,以模拟马尔可夫域中执行顺序任务的团队的行为。与现有的多机构模仿学习技术相反,BTIL明确模型并渗透了团队成员的时间变化的心理状态,从而从次优的团队合作的演示中实现了分散的团队政策的学习。此外,为了允许从小型数据集中进行样本和标签有效的政策学习,Btil采用了贝叶斯的角度,并且能够从半监督的示范中学习。我们证明并基准了BTIL在合成多代理任务以及人类代理团队工作的新型数据集上的性能。我们的实验表明,尽管团队成员(随时间变化且可能未对准)精神状态对其行为的影响,BTIL可以成功地从示威中学习团队政策。
translated by 谷歌翻译
广泛观察到,在实际推荐系统中,诸如“点击框架”等“点击框架”的战略行为。通过这种行为的激励,我们在奖励的战略操纵下研究组合多武装匪徒(CMAB)的问题,其中每个臂可以为自己的兴趣修改发出的奖励信号。这种对抗性行为的表征是对先前研究的环境放松,例如对抗性攻击和对抗性腐败。我们提出了一种战略变体的组合UCB算法,其遗憾是最多的$ O(m \ log t + m b_ {max})$的战略操作,其中$ t $是时间范围,$ m $武器数量和$ b_ {max} $是手臂的最大预算。我们为武器预算提供了下限,以引起强盗算法的某些遗憾。在线工人选择对众包系统的大量实验,在线影响合成和实际数据集的最大化和在线建议,以鲁棒性和遗憾的界限提供了我们的理论发现,在各种操纵预算制度中。
translated by 谷歌翻译
富达匪徒问题是$ k $的武器问题的变体,其中每个臂的奖励通过提供额外收益的富达奖励来增强,这取决于播放器如何对该臂进行“忠诚”在过去。我们提出了两种忠诚的模型。在忠诚点模型中,额外奖励的数量取决于手臂之前播放的次数。在订阅模型中,额外的奖励取决于手臂的连续绘制的当前数量。我们考虑随机和对抗问题。由于单臂策略在随机问题中并不总是最佳,因此对抗性环境中遗憾的概念需要仔细调整。我们介绍了三个可能的遗憾和调查,这可以是偏执的偏执。我们详细介绍了增加,减少和优惠券的特殊情况(玩家在手臂的每辆M $播放后获得额外的奖励)保真奖励。对于不一定享受载体遗憾的模型,我们提供了最糟糕的下限。对于那些展示Sublinear遗憾的模型,我们提供算法并绑定他们的遗憾。
translated by 谷歌翻译
双重拍卖可以使货物在多个买卖双方之间进行分散化转移,从而支持许多在线市场的运作。买卖双方通过竞标在这些市场上竞争,但经常不知道自己的估值A-Priori。随着分配和定价通过出价进行,​​参与者的盈利能力,因此这些市场的可持续性取决于通过重复互动的各自学习估值的至关重要。我们启动对购买者和卖家方强盗反馈的双重拍卖市场的研究。我们以基于信心的基于信心的招标来展示,“平均定价”参与者之间有有效的价格发现。特别是,交换商品的买卖双方在$ t $ rounds中遗憾的是$ o(\ sqrt {t})$。不从交易所中受益的买家和卖家又只经历$ o(\ log {t}/ \ delta)$后悔的$ t $ rounds,其中$ \ delta $是最低价格差距。我们通过证明良好的固定价格(一个比双重拍卖更简单的学习问题)来增强我们的上限 - $ \ omega(\ sqrt {t})$遗憾在某些市场中是无法实现的。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
当人类与机器人互动时,不可避免地会影响。考虑一辆在人类附近行驶的自动驾驶汽车:自动驾驶汽车的速度和转向将影响人类驾驶方式。先前的作品开发了框架,使机器人能够影响人类对所需行为的影响。但是,尽管这些方法在短期(即前几个人类机器人相互作用)中有效,但我们在这里探索了长期影响(即同一人与机器人之间的重复相互作用)。我们的主要见解是,人类是动态的:人们适应机器人,一旦人类学会预见机器人的行为,现在影响力的行为可能会失败。有了这种见解,我们在实验上证明了一种普遍的游戏理论形式主义,用于产生有影响力的机器人行为,而不是重复互动的有效性降低。接下来,我们为Stackelberg游戏提出了三个修改,这些游戏使机器人的政策具有影响力和不可预测性。我们最终在模拟和用户研究中测试了这些修改:我们的结果表明,故意使他们的行为更难预期的机器人能够更好地维持对长期互动的影响。在此处查看视频:https://youtu.be/ydo83cgjz2q
translated by 谷歌翻译