在针对自闭症谱系障碍患者的机器人辅助治疗中,如果必须手动控制机器人,则在治疗过程中的治疗师工作量会增加。为了允许治疗师专注于与人的互动,机器人应该更加自主,即它应该能够解释该人的状态并根据其行为不断适应其行为。在本文中,我们开发了一个个性化的机器人行为模型,该模型可以在活动期间的机器人决策过程中使用。该行为模型是在从真实交互数据中学到的用户模型的帮助下训练的。我们将Q学习用于此任务,因此结果表明该策略需要大约10,000次迭代才能收敛。因此,我们调查了改善收敛速度的政策转移;我们表明这是一个可行的解决方案,但是不适当的初始政策可以导致最终的最终回报。
translated by 谷歌翻译
深度加强学习(DEEPRL)方法已广泛用于机器人学,以了解环境,自主获取行为。深度互动强化学习(Deepirl)包括来自外部培训师或专家的互动反馈,提供建议,帮助学习者选择采取行动以加快学习过程。但是,目前的研究仅限于仅为特工现任提供可操作建议的互动。另外,在单个使用之后,代理丢弃该信息,该用途在为Revisit以相同状态引起重复过程。在本文中,我们提出了广泛的建议(BPA),这是一种广泛的持久的咨询方法,可以保留并重新使用加工信息。它不仅可以帮助培训师提供与类似状态相关的更一般性建议,而不是仅仅是当前状态,而且还允许代理加快学习过程。我们在两个连续机器人场景中测试提出的方法,即购物车极衡任务和模拟机器人导航任务。所得结果表明,使用BPA的代理的性能在于与深层方法相比保持培训师所需的相互作用的数量。
translated by 谷歌翻译
交互式增强学习建议使用外部信息,以加快学习过程。当与学习者互动时,人类可以提供评估或有益的建议。先前的研究通过在交互式增强学习过程中包括实时反馈,专门旨在提高代理商的学习速度,同时最大程度地减少对人类的时间的需求,从而重点关注人类建议的效果。这项工作重点是回答两种评估或信息性的方法中的哪种是人类的首选教学方法。此外,这项工作为人类试验提供了实验设置,旨在比较人们用来提供人类参与建议的方法。获得的结果表明,向学习者提供信息的用户提供了更准确的建议,愿意在更长的时间内为学习者提供帮助,并每集提供更多建议。此外,使用信息丰富的方法的参与者的自我评估表明,与提供评估建议的人相比,代理商遵循建议的能力更高,因此,他们认为自己的建议的准确性更高。
translated by 谷歌翻译
训练与人交往的机器人具有挑战性。直接让人们参与培训过程是昂贵的,这需要大量的数据样本。本文提出了解决此问题的另一种方法。我们提出了一个人类路径预测网络(HPPN),该网络基于连续的神经网络结构来基于连续机器人动作和人类响应生成用户的未来轨迹。随后,出现了一种基于进化 - 策略的机器人训练方法,仅使用使用HPPN生成的虚拟人类运动。证明我们提出的方法允许对视力受损的人进行机器人指南的样品培训。通过仅收集来自真实用户的1.5 K剧集,我们能够训练HPPN并生成训练机器人所需的100 k个虚拟剧集。训练有素的机器人精确地沿着目标路径蒙住眼睛。此外,使用虚拟情节,我们研究了一种新的奖励设计,该设计在机器人的指导中优先考虑人类的舒适性,而不会产生额外的费用。预计这种样品效率的训练方法将广泛适用于未来与人体互动的机器人。
translated by 谷歌翻译
最近十年表明,人们对机器人作为福祉教练的兴趣越来越大。但是,尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议,该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的,即:(1)与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成,他们与人类教练一起参加了简短的专注于解决方案的实践研究,以及不同学科的教练,(2)半结构化的个人访谈数据,这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒,(3)与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后,我们将收集到收敛性和不同主题的数据整理在一起,并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。
translated by 谷歌翻译
在本文中,我们为游戏制定了一个推荐系统,该游戏为基于他们的互动行为来说潜在的物品,以最大限度地为游戏提供商的收入最大限度地提高。我们的方法是基于强化学习的技术构建,并在IEEE大数据杯挑战上公开可用的离线数据集培训。离线数据集的限制和高维数的诅咒构成解决这个问题的重要障碍。我们所提出的方法侧重于通过解决这些主要困难来提高全面奖励和表现。更具体地,我们利用稀疏PCA来提取用户行为的重要特征。然后,我们的Q学习系统从已加工的离线数据集培训。要利用所提供的数据集中的所有可能的信息,我们将用户功能群集到不同的组,并为每个组构建一​​个独立的Q-table。此外,为了解决评估指标的未知公式的挑战,我们设计了根据游戏提供商可能实现的潜在价值和我们从Live评分环境获得的实际评估指标的小集合的潜在价值自我评估的公制。我们的实验表明,我们的拟议度量标准与挑战组织者发表的结果一致。我们已经实施了拟议的培训管道,结果表明,我们的方法在总奖励和训练速度方面优于当前最先进的方法。通过解决主要挑战并利用最先进的技术,我们已经取得了最佳的公共排行榜导致挑战。此外,我们所提出的方法达到估计得分约为20%,并且可以比当前最先进的方法的最佳最佳方法更快地培训30倍。
translated by 谷歌翻译
Imitation learning techniques aim to mimic human behavior in a given task. An agent (a learning machine) is trained to perform a task from demonstrations by learning a mapping between observations and actions. The idea of teaching by imitation has been around for many years, however, the field is gaining attention recently due to advances in computing and sensing as well as rising demand for intelligent applications. The paradigm of learning by imitation is gaining popularity because it facilitates teaching complex tasks with minimal expert knowledge of the tasks. Generic imitation learning methods could potentially reduce the problem of teaching a task to that of providing demonstrations; without the need for explicit programming or designing reward functions specific to the task. Modern sensors are able to collect and transmit high volumes of data rapidly, and processors with high computational power allow fast processing that maps the sensory data to actions in a timely manner. This opens the door for many potential AI applications that require real-time perception and reaction such as humanoid robots, self-driving vehicles, human computer interaction and computer games to name a few. However, specialized algorithms are needed to effectively and robustly learn models as learning by imitation poses its own set of challenges. In this paper, we survey imitation learning methods and present design options in different steps of the learning process. We introduce a background and motivation for the field as well as highlight challenges specific to the imitation problem. Methods for designing and evaluating imitation learning tasks are categorized and reviewed. Special attention is given to learning methods in robotics and games as these domains are the most popular in the literature and provide a wide array of problems and methodologies. We extensively discuss combining imitation learning approaches using different sources and methods, as well as incorporating other motion learning methods to enhance imitation. We also discuss the potential impact on industry, present major applications and highlight current and future research directions.
translated by 谷歌翻译
在本文中,我们研究了不确定性下的顺序决策任务中可读性的概念。以前的作品将易读性扩展到了机器人运动以外的方案,要么集中在确定性设置上,要么在计算上太昂贵。我们提出的称为POL-MDP的方法能够处理不确定性,同时保持计算障碍。在几种不同复杂性的模拟场景中,我们建立了反对最新方法的方法的优势。我们还展示了将我们的清晰政策用作反向加强学习代理的示范,并根据最佳政策建立了他们的优越性。最后,我们通过用户研究评估计算政策的可读性,在该研究中,要求人们通过观察其行动来推断移动机器人的目标。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
在治疗方案中应用的机器人,例如在自闭症谱系障碍的个体治疗中,有时被用于模仿学习活动,其中一个人需要由机器人重复运动。为了简化合并机器人可以执行的新运动的任务,希望机器人能够通过观察人类(例如治疗师)的示威来学习动作。在本文中,我们研究了一种从人类的骨骼观察中获取动作的方法,该方法是由以机器人为中心的RGB-D摄像头收集的。给定一系列观察到各种关节,在通过PID位置控制器执行之前,将关节位置映射以匹配机器人的配置。我们通过使用Qtrobot进行一项研究来评估该方法,尤其是繁殖误差,其中机器人从多个参与者中获取了不同的上身舞蹈动作。结果表明该方法的总体可行性,但也表明繁殖质量受骨架观测中噪声的影响。
translated by 谷歌翻译
本文详细概述了将连续学习(CL)应用于单课的人类机器人互动(HRI)会议(AVG。31 +-10分钟)的案例研究,其中机器人的心理健康教练是积极的(n = 20)参与者的心理学(PP)练习。我们介绍了互动会议后与参与者进行的简短半结构访谈记录的数据的主题分析(TA)的结果,以及对统计结果的分析,证明了参与者的个性如何影响他们如何看待机器人的方式及其互动。
translated by 谷歌翻译
Safe Reinforcement Learning can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes. We categorize and analyze two approaches of Safe Reinforcement Learning. The first is based on the modification of the optimality criterion, the classic discounted finite/infinite horizon, with a safety factor. The second is based on the modification of the exploration process through the incorporation of external knowledge or the guidance of a risk metric. We use the proposed classification to survey the existing literature, as well as suggesting future directions for Safe Reinforcement Learning.
translated by 谷歌翻译
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
translated by 谷歌翻译
本文介绍了一种名为“ Hand of Hands”的新颖协作教育游戏的设计,实施和评估,涉及我们设计的儿童和定制的社交机器人(\ Emph {hakshe})。通过这个游戏平台,我们旨在向儿童讲授适当的手卫生实践,并探索在这种环境中亲社会机器人与儿童之间发生的互动程度。我们将游戏化与计算机作为社会演员(CASA)范式融合在一起,以将机器人作为社会演员或游戏中的其他玩家建模。该游戏是使用Godot的2D引擎和Alice 3开发的。在这项研究中,32名参与者通过视频电视节目平台\ Emph {Zoom}在线玩游戏。为了理解亲社会机器人对儿童互动的影响,我们将研究分为两个条件:裸露和没有裸露。对儿童互动的标题和视频分析的详细分析表明,我们的平台帮助孩子学习了良好的手工卫生实践。我们还发现,尽管学习本身并没有受到机器人的亲社会性影响,但使用亲社会机器人会创造出令人愉悦的互动和更大的社交互动。
translated by 谷歌翻译
Deep reinforcement learning is poised to revolutionise the field of AI and represents a step towards building autonomous systems with a higher level understanding of the visual world. Currently, deep learning is enabling reinforcement learning to scale to problems that were previously intractable, such as learning to play video games directly from pixels. Deep reinforcement learning algorithms are also applied to robotics, allowing control policies for robots to be learned directly from camera inputs in the real world. In this survey, we begin with an introduction to the general field of reinforcement learning, then progress to the main streams of value-based and policybased methods. Our survey will cover central algorithms in deep reinforcement learning, including the deep Q-network, trust region policy optimisation, and asynchronous advantage actor-critic. In parallel, we highlight the unique advantages of deep neural networks, focusing on visual understanding via reinforcement learning. To conclude, we describe several current areas of research within the field.
translated by 谷歌翻译
行为树(BT)是一种在自主代理中(例如机器人或计算机游戏中的虚拟实体)之间在不同任务之间进行切换的方法。 BT是创建模块化和反应性的复杂系统的一种非常有效的方法。这些属性在许多应用中至关重要,这导致BT从计算机游戏编程到AI和机器人技术的许多分支。在本书中,我们将首先对BTS进行介绍,然后我们描述BTS与早期切换结构的关系,并且在许多情况下如何概括。然后,这些想法被用作一套高效且易于使用的设计原理的基础。安全性,鲁棒性和效率等属性对于自主系统很重要,我们描述了一套使用BTS的状态空间描述正式分析这些系统的工具。借助新的分析工具,我们可以对BTS如何推广早期方法的形式形式化。我们还显示了BTS在自动化计划和机器学习中的使用。最后,我们描述了一组扩展的工具,以捕获随机BT的行为,其中动作的结果由概率描述。这些工具可以计算成功概率和完成时间。
translated by 谷歌翻译
嘈杂的传感,不完美的控制和环境变化是许多现实世界机器人任务的定义特征。部分可观察到的马尔可夫决策过程(POMDP)提供了一个原则上的数学框架,用于建模和解决不确定性下的机器人决策和控制任务。在过去的十年中,它看到了许多成功的应用程序,涵盖了本地化和导航,搜索和跟踪,自动驾驶,多机器人系统,操纵和人类机器人交互。这项调查旨在弥合POMDP模型的开发与算法之间的差距,以及针对另一端的不同机器人决策任务的应用。它分析了这些任务的特征,并将它们与POMDP框架的数学和算法属性联系起来,以进行有效的建模和解决方案。对于从业者来说,调查提供了一些关键任务特征,以决定何时以及如何成功地将POMDP应用于机器人任务。对于POMDP算法设计师,该调查为将POMDP应用于机器人系统的独特挑战提供了新的见解,并指出了有希望的新方向进行进一步研究。
translated by 谷歌翻译
与社会推动者的强化学习的最新进展使此类模型能够在特定的互动任务上实现人级的绩效。但是,大多数交互式场景并不是单独的版本作为最终目标。取而代之的是,与人类互动时,这些代理人的社会影响是重要的,并且在很大程度上没有探索。在这方面,这项工作提出了一种基于竞争行为的社会影响的新颖强化学习机制。我们提出的模型汇总了客观和社会感知机制,以得出用于调节人造药物学习的竞争得分。为了调查我们提出的模型,我们使用厨师的帽子卡游戏设计了一个互动游戏场景,并研究竞争调制如何改变代理商的比赛风格,以及这如何影响游戏中人类玩家的体验。我们的结果表明,与普通代理人相比,与竞争对手的代理人相比,人类可以检测到特定的社会特征,这直接影响了后续游戏中人类玩家的表现。我们通过讨论构成人工竞争得分的不同社会和客观特征如何有助于我们的结果来结束我们的工作。
translated by 谷歌翻译
从制造环境到个人房屋的最终用户任务的巨大多样性使得预编程机器人非常具有挑战性。事实上,教学机器人从划痕的新行动可以重复使用以前看不见的任务仍然是一个艰难的挑战,一般都留给了机器人专家。在这项工作中,我们展示了Iropro,这是一个交互式机器人编程框架,允许最终用户没有技术背景,以教授机器人新的可重用行动。我们通过演示和自动规划技术将编程结合起来,以允许用户通过通过动力学示范教授新的行动来构建机器人的知识库。这些行动是概括的,并重用任务计划程序来解决用户定义的先前未经调查的问题。我们将iropro作为Baxter研究机器人的端到端系统实施,同时通过演示通过示范来教授低级和高级操作,以便用户可以通过图形用户界面自定义以适应其特定用例。为了评估我们的方法的可行性,我们首先进行了预设计实验,以更好地了解用户采用所涉及的概念和所提出的机器人编程过程。我们将结果与设计后实验进行比较,在那里我们进行了用户学习,以验证我们对真实最终用户的方法的可用性。总体而言,我们展示了具有不同编程水平和教育背景的用户可以轻松学习和使用Iropro及其机器人编程过程。
translated by 谷歌翻译
这项研究提出了新的策略,以研究信任和群体动态在儿童机器人相互作用中的相互影响。我们使用类人机器人ICUB实施了类似游戏的实验活动,并设计了一份问卷来评估孩子如何看待这种相互作用。我们还旨在验证传感器,设置和任务是否适合研究此类方面。问卷的结果表明,年轻人将ICUB视为朋友,通常以积极的方式将ICUB视为朋友。其他初步结果表明,通常,孩子在活动期间信任ICUB,并且在其错误后,他们试图用诸如:“不用担心ICUB,我们原谅您”之类的句子来放心。此外,对机器人在小组认知活动中的信任似乎会根据性别而发生变化:在机器人连续两个错误之后,女孩倾向于比男孩更信任ICUB。最后,跨游戏计算的点和自我报告的量表之间的不同年龄组之间没有明显的差异。我们提出的工具适合研究不同年龄段的人类机器人相互作用(HRI)的信任,并且似乎适合理解小组相互作用的信任机制。
translated by 谷歌翻译