本文通过将影响建模的任务视为强化学习(RL)过程,引入了范式转变。根据拟议的范式,RL代理通过尝试通过其环境(即背景)来最大化一组奖励(即行为和情感模式)来学习政策(即情感互动)。我们的假设是,RL是交织的有效范式影响引起和与行为和情感示威的表现。重要的是,我们对达马西奥的躯体标记假设的第二个假设建设是,情绪可以成为决策的促进者。我们通过训练Go-Blend Agents来对人类的唤醒和行为进行模型来检验赛车游戏中的假设; Go-Blend是Go-explore算法的修改版本,该版本最近在硬探索任务中展示了最高性能。我们首先改变了基于唤醒的奖励功能,并观察可以根据指定的奖励有效地显示情感和行为模式调色板的代理。然后,我们使用基于唤醒的状态选择机制来偏向Go-Blend探索的策略。我们的发现表明,Go-Blend不仅是有效的影响建模范式,而且更重要的是,情感驱动的RL改善了探索并产生更高的性能剂,从而验证了Damasio在游戏领域中的假设。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
Monte Carlo Tree Search (MCTS) is a recently proposed search method that combines the precision of tree search with the generality of random sampling. It has received considerable interest due to its spectacular success in the difficult problem of computer Go, but has also proved beneficial in a range of other domains. This paper is a survey of the literature to date, intended to provide a snapshot of the state of the art after the first five years of MCTS research. We outline the core algorithm's derivation, impart some structure on the many variations and enhancements that have been proposed, and summarise the results from the key game and non-game domains to which MCTS methods have been applied. A number of open research questions indicate that the field is ripe for future work.
translated by 谷歌翻译
除了独奏游戏外,棋盘游戏至少需要其他玩家才能玩。因此,当对手失踪时,我们创建了人工智能(AI)代理商来对抗我们。这些AI代理是通过多种方式创建的,但是这些代理的一个挑战是,与我们相比,代理可以具有较高的能力。在这项工作中,我们描述了如何创建玩棋盘游戏的较弱的AI代理。我们使用Tic-Tac-toe,九名成员的莫里斯和曼卡拉,我们的技术使用了增强学习模型,代理商使用Q学习算法来学习这些游戏。我们展示了这些代理商如何学会完美地玩棋盘游戏,然后我们描述了制作这些代理商较弱版本的方法。最后,我们提供了比较AI代理的方法。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
与社会推动者的强化学习的最新进展使此类模型能够在特定的互动任务上实现人级的绩效。但是,大多数交互式场景并不是单独的版本作为最终目标。取而代之的是,与人类互动时,这些代理人的社会影响是重要的,并且在很大程度上没有探索。在这方面,这项工作提出了一种基于竞争行为的社会影响的新颖强化学习机制。我们提出的模型汇总了客观和社会感知机制,以得出用于调节人造药物学习的竞争得分。为了调查我们提出的模型,我们使用厨师的帽子卡游戏设计了一个互动游戏场景,并研究竞争调制如何改变代理商的比赛风格,以及这如何影响游戏中人类玩家的体验。我们的结果表明,与普通代理人相比,与竞争对手的代理人相比,人类可以检测到特定的社会特征,这直接影响了后续游戏中人类玩家的表现。我们通过讨论构成人工竞争得分的不同社会和客观特征如何有助于我们的结果来结束我们的工作。
translated by 谷歌翻译
Modern video games are becoming richer and more complex in terms of game mechanics. This complexity allows for the emergence of a wide variety of ways to play the game across the players. From the point of view of the game designer, this means that one needs to anticipate a lot of different ways the game could be played. Machine Learning (ML) could help address this issue. More precisely, Reinforcement Learning is a promising answer to the need of automating video game testing. In this paper we present a video game environment which lets us define multiple play-styles. We then introduce CARI: a Configurable Agent with Reward as Input. An agent able to simulate a wide continuum range of play-styles. It is not constrained to extreme archetypal behaviors like current methods using reward shaping. In addition it achieves this through a single training loop, instead of the usual one loop per play-style. We compare this novel training approach with the more classic reward shaping approach and conclude that CARI can also outperform the baseline on archetypes generation. This novel agent could be used to investigate behaviors and balancing during the production of a video game with a realistic amount of training time.
translated by 谷歌翻译
哈纳比(Hanabi)是一款合作游戏,它带来了将其他玩家建模到最前沿的问题。在这个游戏中,协调的一组玩家可以利用预先建立的公约发挥出色的效果,但是在临时环境中进行比赛需要代理商适应其伴侣的策略,而没有以前的协调。在这种情况下评估代理需要各种各样的潜在伙伴人群,但是到目前为止,尚未以系统的方式考虑代理的行为多样性。本文提出了质量多样性算法作为有前途的算法类别,以生成多种人群为此目的,并使用MAP-ELITE生成一系列不同的Hanabi代理。我们还假设,在培训期间,代理商可以从多样化的人群中受益,并实施一个简单的“元策略”,以适应代理人的感知行为利基市场。我们表明,即使可以正确推断其伴侣的行为利基市场,即使培训其伴侣的行为利基市场,这种元策略也可以比通才策略更好地工作,但是在实践中,伴侣的行为取决于并干扰了元代理自己的行为,这表明是一条途径对于未来的研究,可以在游戏过程中表征另一个代理商的行为。
translated by 谷歌翻译
我们研究了如何根据PlayTraces有效预测游戏角色。可以通过计算玩家与游戏行为的生成模型(所谓的程序角色)之间的动作协议比率来计算游戏角色。但这在计算上很昂贵,并假设很容易获得适当的程序性格。我们提出了两种用于估计玩家角色的方法,一种是使用定期监督的学习和启动游戏机制的汇总度量的方法,另一种是基于序列学习的序列学习的另一种方法。尽管这两种方法在预测与程序角色一致定义的游戏角色时都具有很高的精度,但它们完全无法预测玩家使用问卷的玩家本身定义的游戏风格。这个有趣的结果突出了使用计算方法定义游戏角色的价值。
translated by 谷歌翻译
深度加强学习(RL)的最新进展导致许多2人零和游戏中的相当大的进展,如去,扑克和星际争霸。这种游戏的纯粹对抗性质允许概念上简单地应用R1方法。然而,现实世界的设置是许多代理商,代理交互是复杂的共同利益和竞争方面的混合物。我们认为外交,一个旨在突出由多种代理交互导致的困境的7人棋盘游戏。它还具有大型组合动作空间和同时移动,这对RL算法具有具有挑战性。我们提出了一个简单但有效的近似最佳响应操作员,旨在处理大型组合动作空间并同时移动。我们还介绍了一系列近似虚构游戏的政策迭代方法。通过这些方法,我们成功地将RL申请到外交:我们认为我们的代理商令人信服地令人信服地表明,游戏理论均衡分析表明新过程产生了一致的改进。
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
With the development of deep representation learning, the domain of reinforcement learning (RL) has become a powerful learning framework now capable of learning complex policies in high dimensional environments. This review summarises deep reinforcement learning (DRL) algorithms and provides a taxonomy of automated driving tasks where (D)RL methods have been employed, while addressing key computational challenges in real world deployment of autonomous driving agents. It also delineates adjacent domains such as behavior cloning, imitation learning, inverse reinforcement learning that are related but are not classical RL algorithms. The role of simulators in training agents, methods to validate, test and robustify existing solutions in RL are discussed.
translated by 谷歌翻译
强化学习(RL)和脑电脑接口(BCI)是过去十年一直在增长的两个领域。直到最近,这些字段彼此独立操作。随着对循环(HITL)应用的兴趣升高,RL算法已经适用于人类指导,从而产生互动强化学习(IRL)的子领域。相邻的,BCI应用一直很感兴趣在人机交互期间从神经活动中提取内在反馈。这两个想法通过将BCI集成到IRL框架中,将RL和BCI设置在碰撞过程中,通过将内在反馈可用于帮助培训代理商来帮助框架。这种交叉点被称为内在的IRL。为了进一步帮助,促进BCI和IRL的更深层次,我们对内在IRILL的审查有着重点在于其母体领域的反馈驱动的IRL,同时还提供有关有效性,挑战和未来研究方向的讨论。
translated by 谷歌翻译
我们展示了单轨道路问题。在这个问题中,两个代理在一条道路的相对位置时面对每个代理,这一次只能有一个试剂通过。我们专注于一个代理人是人类的情景,而另一个是一种自主代的代理人。我们在一个简单的网格域中与人类对象进行实验,这模拟了单轨道路问题。我们表明,当数据有限时,建立准确的人类模型是非常具有挑战性的,并且基于该数据的加强学习代理在实践中表现不佳。但是,我们表明,试图最大限度地提高人力效用和自己的实用程序的线性组合的代理,达到了高分,并且显着优于其他基线,包括试图仅最大化其自身的实用性的代理。
translated by 谷歌翻译
The increasing complexity of gameplay mechanisms in modern video games is leading to the emergence of a wider range of ways to play games. The variety of possible play-styles needs to be anticipated by designers, through automated tests. Reinforcement Learning is a promising answer to the need of automating video game testing. To that effect one needs to train an agent to play the game, while ensuring this agent will generate the same play-styles as the players in order to give meaningful feedback to the designers. We present CARMI: a Configurable Agent with Relative Metrics as Input. An agent able to emulate the players play-styles, even on previously unseen levels. Unlike current methods it does not rely on having full trajectories, but only summary data. Moreover it only requires little human data, thus compatible with the constraints of modern video game production. This novel agent could be used to investigate behaviors and balancing during the production of a video game with a realistic amount of training time.
translated by 谷歌翻译
在过去的十年中,多智能经纪人强化学习(Marl)已经有了重大进展,但仍存在许多挑战,例如高样本复杂性和慢趋同稳定的政策,在广泛的部署之前需要克服,这是可能的。然而,在实践中,许多现实世界的环境已经部署了用于生成策略的次优或启发式方法。一个有趣的问题是如何最好地使用这些方法作为顾问,以帮助改善多代理领域的加强学习。在本文中,我们提供了一个原则的框架,用于将动作建议纳入多代理设置中的在线次优顾问。我们描述了在非传记通用随机游戏环境中提供多种智能强化代理(海军上将)的问题,并提出了两种新的基于Q学习的算法:海军上将决策(海军DM)和海军上将 - 顾问评估(Admiral-AE) ,这使我们能够通过适当地纳入顾问(Admiral-DM)的建议来改善学习,并评估顾问(Admiral-AE)的有效性。我们从理论上分析了算法,并在一般加上随机游戏中提供了关于他们学习的定点保证。此外,广泛的实验说明了这些算法:可以在各种环境中使用,具有对其他相关基线的有利相比的性能,可以扩展到大状态行动空间,并且对来自顾问的不良建议具有稳健性。
translated by 谷歌翻译
在游戏中,就像在其他许多领域一样,设计验证和测试是一个巨大的挑战,因为系统的大小和手动测试变得不可行。本文提出了一种新方法来自动游戏验证和测试。我们的方法利用了数据驱动的模仿学习技术,这几乎不需要精力和时间,并且对机器学习或编程不了解,设计师可以使用该技术有效地训练游戏测试剂。我们通过与行业专家的用户研究一起研究了方法的有效性。调查结果表明,我们的方法确实是一种有效的游戏验证方法,并且数据驱动的编程将是减少努力和提高现代游戏测试质量的有用帮助。该调查还突出了一些开放挑战。在最新文献的帮助下,我们分析了确定的挑战,并提出了适合支持和最大化我们方法实用性的未来研究方向。
translated by 谷歌翻译
在嘈杂的互联网规模数据集上进行了预测,已对具有广泛的文本,图像和其他模式能力的培训模型进行了大量研究。但是,对于许多顺序决策域,例如机器人技术,视频游戏和计算机使用,公开可用的数据不包含以相同方式训练行为先验所需的标签。我们通过半监督的模仿学习将互联网规模的预处理扩展到顺序的决策域,其中代理通过观看在线未标记的视频来学习行动。具体而言,我们表明,使用少量标记的数据,我们可以训练一个足够准确的反向动力学模型,可以标记一个巨大的未标记在线数据来源 - 在这里,在线播放Minecraft的在线视频 - 然后我们可以从中训练一般行为先验。尽管使用了本地人类界面(鼠标和键盘为20Hz),但我们表明,这种行为先验具有非平凡的零射击功能,并且可以通过模仿学习和加强学习,可以对其进行微调,以进行硬探索任务。不可能通过增强学习从头开始学习。对于许多任务,我们的模型都表现出人类水平的性能,我们是第一个报告可以制作钻石工具的计算机代理,这些工具可以花费超过20分钟(24,000个环境动作)的游戏玩法来实现。
translated by 谷歌翻译
虽然多代理学习的进步使得能够培训越来越复杂的代理商,但大多数现有技术都产生了最终政策,该政策不旨在适应新的合作伙伴的战略。但是,我们希望我们的AI代理商根据周围的战略来调整他们的战略。在这项工作中,我们研究了有条件的多代理模仿学习问题,我们可以在培训时间访问联合轨迹演示,我们必须在测试时间与新合作伙伴进行互动并适应新伙伴。这种环境是具有挑战性的,因为我们必须推断新的合作伙伴的战略并使我们的政策适应该战略,而不是了解环境奖励或动态。我们将该条件多代理模仿学习的问题正式化,提出了一种解决可扩展性和数据稀缺的困难的新方法。我们的主要洞察力是,多种代理游戏的合作伙伴的变化通常很高,并且可以通过低秩子空间来表示。利用张量分解的工具,我们的模型在EGO和合作伙伴代理战略上学习了低秩子空间,然后是infers并通过插值在子空间中互动到新的合作伙伴策略。我们用混合协作任务的实验,包括匪徒,粒子和Hanabi环境。此外,我们还测试我们对超级烹饪游戏的用户学习中的真实人体合作​​伙伴的条件政策。与基线相比,我们的模型更好地适应新的合作伙伴,并强大地处理各种设置,从离散/持续的动作和静态/在线评估与AI / Lean Partners。
translated by 谷歌翻译
Starcraft II(SC2)对强化学习(RL)提出了巨大的挑战,其中主要困难包括巨大的状态空间,不同的动作空间和长期的视野。在这项工作中,我们研究了《星际争霸II》全长游戏的一系列RL技术。我们研究了涉及提取的宏观活动和神经网络的层次结构的层次RL方法。我们研究了课程转移培训程序,并在具有4个GPU和48个CPU线的单台计算机上训练代理。在64x64地图并使用限制性单元上,我们对内置AI的获胜率达到99%。通过课程转移学习算法和战斗模型的混合物,我们在最困难的非作战水平内置AI(7级)中获得了93%的胜利率。在本文的扩展版本中,我们改进了架构,以针对作弊水平训练代理商,并在8级,9级和10级AIS上达到胜利率,为96%,97%和94 %, 分别。我们的代码在https://github.com/liuruoze/hiernet-sc2上。为了为我们的工作以及研究和开源社区提供基线,我们将其复制了一个缩放版本的Mini-Alphastar(MAS)。 MAS的最新版本为1.07,可以在具有564个动作的原始动作空间上进行培训。它旨在通过使超参数可调节来在单个普通机器上进行训练。然后,我们使用相同的资源将我们的工作与MAS进行比较,并表明我们的方法更有效。迷你α的代码在https://github.com/liuruoze/mini-alphastar上。我们希望我们的研究能够阐明对SC2和其他大型游戏有效增强学习的未来研究。
translated by 谷歌翻译