在Covid-19大流行中,本文的作者为数据科学领域的一所研究生院组织了一门加强学习(RL)课程。我们描述了尽管无处不在的变焦疲劳,但仍在定性地评估课程,以创造令人兴奋的学习体验的策略和材料。关键的组织特征是专注于团队中竞争性的动手设置,并提供了最少的讲座,从而提供了RL基本背景。该课程的实用部分围绕着Hearts Gym,这是我们作为RL的入门级教程开发的RL环境。参与者的任务是培训代理人探索奖励成型和其他RL超参数。为了进行最终评估,参与者的代理人相互竞争。
translated by 谷歌翻译
DeepMind的游戏理论与多代理团队研究多学科学习的几个方面,从计算近似值到游戏理论中的基本概念,再到在富裕的空间环境中模拟社会困境,并在困难的团队协调任务中培训3-D类人动物。我们小组的一个签名目的是使用DeepMind在DeepMind中提供的资源和专业知识,以深入强化学习来探索复杂环境中的多代理系统,并使用这些基准来提高我们的理解。在这里,我们总结了我们团队的最新工作,并提出了一种分类法,我们认为这重点介绍了多代理研究中许多重要的开放挑战。
translated by 谷歌翻译
With the breakthrough of AlphaGo, deep reinforcement learning becomes a recognized technique for solving sequential decision-making problems. Despite its reputation, data inefficiency caused by its trial and error learning mechanism makes deep reinforcement learning hard to be practical in a wide range of areas. Plenty of methods have been developed for sample efficient deep reinforcement learning, such as environment modeling, experience transfer, and distributed modifications, amongst which, distributed deep reinforcement learning has shown its potential in various applications, such as human-computer gaming, and intelligent transportation. In this paper, we conclude the state of this exciting field, by comparing the classical distributed deep reinforcement learning methods, and studying important components to achieve efficient distributed learning, covering single player single agent distributed deep reinforcement learning to the most complex multiple players multiple agents distributed deep reinforcement learning. Furthermore, we review recently released toolboxes that help to realize distributed deep reinforcement learning without many modifications of their non-distributed versions. By analyzing their strengths and weaknesses, a multi-player multi-agent distributed deep reinforcement learning toolbox is developed and released, which is further validated on Wargame, a complex environment, showing usability of the proposed toolbox for multiple players and multiple agents distributed deep reinforcement learning under complex games. Finally, we try to point out challenges and future trends, hoping this brief review can provide a guide or a spark for researchers who are interested in distributed deep reinforcement learning.
translated by 谷歌翻译
在这项工作中,我们向阿姆斯特丹大学的人工智能(_MACE-AI)的技术,研究生,保密性和透明度的技术,审查,保密性和透明度的设置,它通过再现性的镜头教导了概念。该课程的焦点是基于从顶级AI会议的现有事实-AI算法的基础项目,并撰写关于他们的经历的报告。在课程的第一次迭代中,我们创建了一个具有来自组项目的代码实现的开源存储库。在第二次迭代中,我们鼓励学生将他们的小组项目提交给机器学习再现性挑战,这导致了我们课程所接受的9个报告。我们反映了我们在两个学年课程教学的经验,其中一年恰逢全球大流行,并通过研究生级AI计划的可重复性提出了教学局面的指导。我们希望这可以成为教师在未来在其大学建立类似课程的有用资源。
translated by 谷歌翻译
随着alphago的突破,人机游戏的AI已经成为一个非常热门的话题,吸引了世界各地的研究人员,这通常是测试人工智能的有效标准。已经开发了各种游戏AI系统(AIS),如Plibratus,Openai Five和AlphaStar,击败了专业人员。在本文中,我们调查了最近的成功游戏AIS,覆盖棋盘游戏AIS,纸牌游戏AIS,第一人称射击游戏AIS和实时战略游戏AIS。通过这项调查,我们1)比较智能决策领域的不同类型游戏之间的主要困难; 2)说明了开发专业水平AIS的主流框架和技术; 3)提高当前AIS中的挑战或缺点,以实现智能决策; 4)试图提出奥运会和智能决策技巧的未来趋势。最后,我们希望这篇简短的审查可以为初学者提供介绍,激发了在游戏中AI提交的研究人员的见解。
translated by 谷歌翻译
Ithaca is a Fuzzy Logic (FL) plugin for developing artificial intelligence systems within the Unity game engine. Its goal is to provide an intuitive and natural way to build advanced artificial intelligence systems, making the implementation of such a system faster and more affordable. The software is made up by a C\# framework and an Application Programming Interface (API) for writing inference systems, as well as a set of tools for graphic development and debugging. Additionally, a Fuzzy Control Language (FCL) parser is provided in order to import systems previously defined using this standard.
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
与社会推动者的强化学习的最新进展使此类模型能够在特定的互动任务上实现人级的绩效。但是,大多数交互式场景并不是单独的版本作为最终目标。取而代之的是,与人类互动时,这些代理人的社会影响是重要的,并且在很大程度上没有探索。在这方面,这项工作提出了一种基于竞争行为的社会影响的新颖强化学习机制。我们提出的模型汇总了客观和社会感知机制,以得出用于调节人造药物学习的竞争得分。为了调查我们提出的模型,我们使用厨师的帽子卡游戏设计了一个互动游戏场景,并研究竞争调制如何改变代理商的比赛风格,以及这如何影响游戏中人类玩家的体验。我们的结果表明,与普通代理人相比,与竞争对手的代理人相比,人类可以检测到特定的社会特征,这直接影响了后续游戏中人类玩家的表现。我们通过讨论构成人工竞争得分的不同社会和客观特征如何有助于我们的结果来结束我们的工作。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
加强学习(RL)研究的进展通常是由新的,具有挑战性的环境的设计驱动的,这是一项昂贵的事业,需要技能与典型的机器学习研究人员的正交性。环境发展的复杂性仅随着程序性产生(PCG)的兴起而增加,作为产生能够测试RL剂稳健性和泛化的各种环境的流行范式。此外,现有环境通常需要复杂的构建过程,从而使重现结果变得困难。为了解决这些问题,我们介绍了基于网状引擎的基于网络的集成开发环境(IDE)Griddlyjs。 Griddlyjs允许研究人员使用方便的图形接口在视觉上设计和调试任意,复杂的PCG网格世界环境,并可视化,评估和记录训练有素的代理模型的性能。通过将RL工作流连接到由现代Web标准启用的高级功能,Griddlyjs允许发布交互式代理 - 环境演示,将实验结果直接重现为Web。为了证明Griddlyjs的多功能性,我们使用它来快速开发一个复杂的组成拼图解决环境,以及任意人为设计的环境配置及其用于自动课程学习和离线RL的解决方案。 Griddlyjs IDE是开源的,可以在\ url {https://griddly.ai}上免费获得。
translated by 谷歌翻译
事实证明,在学习环境中,社会智能代理(SIA)的部署在不同的应用领域具有多个优势。社会代理创作工具使场景设计师能够创造出对SIAS行为的高度控制的量身定制体验,但是,另一方面,这是有代价的,因为该方案及其创作的复杂性可能变得霸道。在本文中,我们介绍了可解释的社会代理创作工具的概念,目的是分析社会代理的创作工具是否可以理解和解释。为此,我们检查了创作工具Fatima-Toolkit是否可以理解,并且从作者的角度来看,其创作步骤可以解释。我们进行了两项用户研究,以定量评估Fatima-Toolkit的解释性,可理解性和透明度,从场景设计师的角度来看。关键发现之一是,法蒂玛 - 库尔基特(Fatima-Toolkit)的概念模型通常是可以理解的,但是基于情感的概念并不那么容易理解和使用。尽管关于Fatima-Toolkit的解释性有一些积极的方面,但仍需要取得进展,以实现完全可以解释的社会代理商创作工具。我们提供一组关键概念和可能的解决方案,可以指导开发人员构建此类工具。
translated by 谷歌翻译
2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
translated by 谷歌翻译
Keke AI竞赛介绍了游戏Baba的人造代理竞赛是您 - 像索托班一样的益智游戏,玩家可以创建影响游戏机制的规则。更改规则可能会导致可能是解决方案空间的一部分的其余级别的暂时或永久效应。这些动态规则的性质和游戏的确定性方面为AI构成了一个挑战,即适应各种机械组合以解决一个水平。本文介绍了用于对提交代理进行排名的框架和评估指标,以及样本搜索剂的基线结果。
translated by 谷歌翻译
尽管机器人学课程在高等教育方面已建立,但这些课程通常专注于理论,有时缺乏对开发,部署和将软件应用于真实硬件的技术的系统覆盖。此外,大多数用于机器人教学的硬件平台是针对中学水平的年轻学生的低级玩具。为了解决这一差距,开发了一个自动驾驶汽车硬件平台,称为第1 f1 f1tth,用于教授自动驾驶系统。本文介绍了以“赛车”和替换考试的竞赛为主题的各种教育水平教学模块和软件堆栈。第1辆车提供了一个模块化硬件平台及其相关软件,用于教授自动驾驶算法的基础知识。从基本的反应方法到高级计划算法,教学模块通过使用第1辆车的自动驾驶来增强学生的计算思维。第1辆汽车填补了研究平台和低端玩具车之间的空白,并提供了学习自主系统中主题的动手经验。多年的四所大学为他们的学期本科和研究生课程采用了教学模块。学生反馈用于分析第1个平台的有效性。超过80%的学生强烈同意,硬件平台和模块大大激发了他们的学习,而超过70%的学生强烈同意,硬件增强了他们对学科的理解。调查结果表明,超过80%的学生强烈同意竞争激励他们参加课程。
translated by 谷歌翻译
The highest grossing media franchise of all times, with over \$90 billion in total revenue, is Pokemon. The video games belong to the class of Japanese Role Playing Games (J-RPG). Developing a powerful AI agent for these games is very hard because they present big challenges to MinMax, Monte Carlo Tree Search and statistical Machine Learning, as they are vastly different from the well explored in AI literature games. An AI agent for one of these games means significant progress in AI agents for the entire class. Further, the key principles of such work can hopefully inspire approaches to several domains that require excellent teamwork under conditions of extreme uncertainty, including managing a team of doctors, robots or employees in an ever changing environment, like a pandemic stricken region or a war-zone. In this paper we first explain the mechanics of the game and we perform a game analysis. We continue by proposing unique AI algorithms based on our understanding that the two biggest challenges in the game are keeping a balanced team and dealing with three sources of uncertainty. Later on, we describe why evaluating the performance of such agents is challenging and we present the results of our approach. Our AI agent performed significantly better than all previous attempts and peaked at the 33rd place in the world, in one of the most popular battle formats, while running on only 4 single socket servers.
translated by 谷歌翻译
We are currently unable to specify human goals and societal values in a way that reliably directs AI behavior. Law-making and legal interpretation form a computational engine that converts opaque human values into legible directives. "Law Informs Code" is the research agenda capturing complex computational legal processes, and embedding them in AI. Similar to how parties to a legal contract cannot foresee every potential contingency of their future relationship, and legislators cannot predict all the circumstances under which their proposed bills will be applied, we cannot ex ante specify rules that provably direct good AI behavior. Legal theory and practice have developed arrays of tools to address these specification problems. For instance, legal standards allow humans to develop shared understandings and adapt them to novel situations. In contrast to more prosaic uses of the law (e.g., as a deterrent of bad behavior through the threat of sanction), leveraged as an expression of how humans communicate their goals, and what society values, Law Informs Code. We describe how data generated by legal processes (methods of law-making, statutory interpretation, contract drafting, applications of legal standards, legal reasoning, etc.) can facilitate the robust specification of inherently vague human goals. This increases human-AI alignment and the local usefulness of AI. Toward society-AI alignment, we present a framework for understanding law as the applied philosophy of multi-agent alignment. Although law is partly a reflection of historically contingent political power - and thus not a perfect aggregation of citizen preferences - if properly parsed, its distillation offers the most legitimate computational comprehension of societal values available. If law eventually informs powerful AI, engaging in the deliberative political process to improve law takes on even more meaning.
translated by 谷歌翻译
Datathon是一项涉及应用于特定问题的数据科学的时间限制的竞争。在过去的十年中,DATATHON已被证明是领域和专业知识之间的宝贵桥梁。生物医学数据分析是一个具有挑战性的领域,需要工程师,生物学家和医生之间的合作,以更好地了解患者生理学以及指导诊断,预后和治疗干预措施以改善护理实践的指导决策过程。在这里,我们反思了我们在2022年3月底在MIT关键数据组,Rambam Health Care Campus(Rambam)和Haifa技术以色列技术研究所(Technion Institute of Haifa)在以色列组织的活动的结果。要求参与者完成有关他们的技能和兴趣的调查,这使我们能够确定机器学习培训对医疗问题应用的最新需求。这项工作描述了以色列背景下医学数据科学的机会和局限性。
translated by 谷歌翻译
强化学习(RL)的最新进展使得可以在广泛的应用中开发出擅长的复杂剂。使用这种代理商的模拟可以在难以在现实世界中进行科学实验的情景中提供有价值的信息。在本文中,我们研究了足球RL代理商的游戏风格特征,并揭示了在训练期间可能发展的策略。然后将学习的策略与真正的足球运动员进行比较。我们探索通过使用聚合统计和社交网络分析(SNA)来探索使用模拟环境的学习内容。结果,我们发现(1)代理商的竞争力与各种SNA指标之间存在强烈的相关性,并且(2)RL代理商的各个方面,游戏风格与现实世界足球运动员相似,因为代理人变得更具竞争力。我们讨论了可能有必要的进一步进展,以改善我们必须充分利用RL进行足球的分析所需的理解。
translated by 谷歌翻译
我们介绍了Godot强化学习(RL)代理,这是一个用于在戈戈斯游戏引擎中发展环境和代理的开源接口。Goot RL代理界面允许在具有各种策略和偏离策略的深度RL算法的具有挑战性的2D和3D环境中设计,创建和学习代理行为。我们提供标准的健身房界面,带有包装纸,用于学习Ray Rllib和稳定的基线RL框架。这允许用户访问最近20个艺术策略,禁止策略和多代理RL算法的状态。该框架是一个多功能工具,允许研究人员和游戏设计人员能够使用离散,连续和混合动作空间创建环境。界面相对表现,在高端膝上型计算机上每秒12k交互,当在4个CPU内核上被平移。概述视频可在此处提供:https://youtu.be/g1mlzsfqij4
translated by 谷歌翻译
MetaVerse,巨大的虚拟物理网络空间,为艺术家带来了前所未有的机会,将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查,其中七个关键主题与成权相关,描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素,例如虚拟场景和字符,听觉,文本元素。接下来,已经反映了诸如沉浸式艺术,机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术,机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后,我们提出了几项研究议程:民主化的计算艺术,数字隐私和搬迁艺术家的安全性,为数字艺术品,技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料,以开始在超现实主义网络空间领域创造。
translated by 谷歌翻译